Vous êtes sur la page 1sur 136

Universit de Toulouse Ple de Recherche et dEnseignement Suprieur

Institut National des Sciences Appliques de Toulouse


Universit Paul Sabatier Toulouse III
Laboratoire Matriaux et Durabilit des Constructions
Stphane LAURENS 2008/2009
ANALYSE ET EXPLOITATION DE DONNEES EXPERIMENTALES

Notions sur la MODELISATION


Master 2 Recherche Gnie Civil Matriaux Structures
Prambule
Ce cours prsente certains concepts ddis lanalyse et lexploitation de
donnes exprimentales. Il aborde aussi dans ce cadre la problmatique
gnrale de la modlisation qui constitue souvent une finalit scientifique
pour le chercheur.
Il est volontairement dpouill des dtails mathmatiques qui sont
accessibles trs facilement dans un grand nombre douvrages ou sur
lInternet. Il vise, en un temps limit, donner aux futurs chercheurs en
gnie civil un aperu de certains outils conceptuels ayant vocation
rpondre certaines leurs futures proccupations.
Il appartiendra ensuite ces chercheurs dapprofondir les concepts quils
jugent pertinents vis--vis de leurs projets de recherche.
Remarques prliminaires
Prambule
Dans ce sminaire, les parties Rappels thoriques et Grands concepts
danalyse statistique sappuient en grande partie sur les rfrences
suivantes :
Data Mining 1. Exploration statistique, Alain Baccini & Philipe Besse, Publications
du LSP, Universit Paul Sabatier, 2003
Dcision et prvision statistiques, Thierry Verdel, Ecole des Mines de Nancy, 2001
Cours de Probabilits et Statistiques, Hlne Milhem et Benoit Truong-Van, INSA
Toulouse, 2006-2007
Statistique avec de petits chantillons, Gilles Celeux, Confrence prsente aux
Journes Fiabilit des Matriaux et des Structures, Nantes, 2008
Internet et Wikipedia

Rfrences bibliographiques
1 Introduction : modlisation
2 Modlisation statistique
3 Rappels : thorie des probabilits
4 Analyses de donnes : grands concepts
Analyse en composantes principales
Classification
Infrence statistique
Infrence baysienne
Test dhypothse
PLAN
DU
COURS
Au sommaire
Introduction :
Gnralits
Discussion sur la modlisation en GC
Introduction
Introduction
Exprimentation, acquisition de donnes
Analyse de donnes
Modlisation
Remarques prliminaires
Variabilit de la mesureVariabilit du matriauIncertitudes / alas
Recherche de corrlations simples ou complexes, de liens de causalit
Caractriser lala observable sur des donnes mesures et lintgrer dans
la dmarche de modlisation
Dcrire, expliquer
Prdire Recherche de liens mathmatiques entre des donnes
Introduction
Quest-ce que la modlisation ?
Actions, sollicitations, excitationsvariables
physiques, mcaniques, chimiques, couples
Ractions, rponses, consquences
physiques, mcaniques, chimiques, couples
Modle ou loi de comportement
physiques, mcaniques, chimiques, couples
Proprits
(paramtres du modle)
Modlisation directe
Introduction
Actions, sollicitations, excitationsvariables
physiques, mcaniques, chimiques, couples
Ractions, rponses, consquences
physiques, mcaniques, chimiques, couples
Modle ou loi de comportement
physiques, mcaniques, chimiques, couples
Proprits
(paramtres du modle)
Quest-ce que la modlisation ?
Modlisation inverse
Introduction
Actions, sollicitations, excitationsvariables
physiques, mcaniques, chimiques, couples
Ractions, rponses, consquences
physiques, mcaniques, chimiques, couples
Modle ou loi de comportement
physiques, mcaniques, chimiques, couples
Proprits
(paramtres du modle)
Problme didentification !
Quest-ce que la modlisation ?
Modlisation inverse
Introduction
Modlisation statique
Modlisation dynamique
Invariance par rapport au temps
Ex. Modle de calcul des sollicitations internes dans une structure sous sollicitations
statiques
Dpendance la variable temps
Ex. Modle de calcul des sollicitations internes dans une structure sous sollicitations
dynamiques
Ex. Prdiction de la concentration en chlorures dans le bton une chance donne
Quest-ce que la modlisation ?
Introduction
Difficults lies la modlisation en gnie civil
Variabilit / Stochasticit spatiale lchelle du matriau
Degr dhtrognit variable avec lchelle dobservation
Milieux poreux phnomnes de transport souvent ractifs
Interactions chemo-physico-mcaniques complexes / compliques
Interactions spatio-temporelles
Non-linarits omniprsentes
Phnomnes irrversibles : vieillissement
Endommagements mcaniques : isotrope et anisotrope
La modlisation physique statique et dynamique des matriaux de construction et
des structures confronte le chercheur des problmes dune complexit rare
Introduction
Problmatiques de recherche diffrentes chelles :
Matriaux (nano, micro, mso, macro)
Structures
Villes
Etats
Plante
Difficults lies la modlisation en gnie civil
Introduction
Approches de modlisation classiques en GC:
- approche dterministe classique modle physique
- approche probabiliste, semi-probabiliste
- approche statistiquemodle empirique
Unicit du lien entre les variables dentre du modle et la sortie
Comment tenir compte de la variabilit ventuelle des sollicitations, des proprits des
matriaux?
Les entres et/ou les proprits dun modle dterministe sont dfinies comme des variables
alatoiresLa rponse du modle est donc une variable alatoire.
Relations trop complexes pour tre approches de faon classique
Apprentissage par des mthodes appropries des relations observes exprimentalement entre
des donnes (exemple : rseaux de neurones artificiels)
Introduction
- approche systmique
- approche probabiliste
- physique de non-quilibre
- Systmes dynamiqueschaos
- Systmes complexes
-Processus stochastiques
(Paradigme purement probabiliste)
Paradigmes en voie de dveloppement dans le champ du gnie civil :
Comportement DETERMINISTE
Comportement STOCHASTIQUE
CHAOS
comportement dapparence stochastique gnr par un syst. dterministe
hypersensibilit aux conditions initiales du systme
Introduction
Modlisation dynamiqueou comment prvoir lavenir
Paradigmes classiques
Ex. Dynamique newtonienne
Paradigmes probabilistes
Ex. Processus stochastiques
Paradigmes mixtes (recours ncessaire aux probabilits)
parfaitement prvisible
totalement imprvisible
Introduction
Approche systmique
Entit physique dont ltat est dfini par n variables indpendantes : v
i
avec i = 1n
Les variables dtat sont les degrs de libert du systme.
Systme dynamique
Les variables dtat sont des fonctions du temps : v
i
(t)
Dans certains cas, la loi dvolution est connue ou suppose connue. Le systme
dynamique est alors dcrit par le systme diffrentiel :
o p
j
sont les paramtres de la loi dvolution.
) p , , p ; t , v , , v ( F
t
v
m n i
i
K K
1 1
=

Systme
Introduction
Approche systmique
Systme dynamique non linaire
Nombre de variables 3
+ non-linarit (la fonction F
i
est non linaire)
= possibilit de chaos
Chaos : hypersensibilit aux conditions initiales
imprvisibilit du comportement du systme au-del dun
temps caractristique (temps de Lyapunov)
Espace des phases
Le comportement du systme est tudi dans lespace des phases, espace abstrait de
dimension n dont les axes traduisent les variables dtat. Un point dans lespace des phases
dcrit ltat du systme un instant donn. Une trajectoire (ensemble de points) dcrit
lvolution de ltat du systme.
Introduction
Approche systmique
Exemple du systme de Lorenz
Systme dynamique non linaire thorie du chaos
z xy z
) z ( x y
) x y ( x
.
.
.
= == =
= == =
= == =
Modlisation de la convection atmosphrique
Srie temporelle x(t)apparence stochastique
Trajectoire dans lespace des phases
Attracteur de Lorenz
Introduction
Approche systmique
Systme constitu dun grand nombre dentits en interaction.
Nombre trs important de degrs de libert.
Le comportement des systmes complexes ne peut tre apprhend selon une approche
rductionniste.
La connaissance de lois de comportement dfinies lchelle des composants lmentaires
du systme ne permet pas dinfrer le comportement global du systme.
Concept dmergence : le comportement du systme complexe merge des interactions locale
grande chelle entre les composants lmentaires.
Les proprits mergentes ne peuvent tre dcrites au moyen dun formalisme mathmatique
dfini lchelle globale du systme. Elles ne sont observables quau travers de lexprience ou
de la simulation base sur litration suffisamment pousse de lois locales (automates cellulaires,
dynamique sur rseaux, essaim particulaires).
Systme complexe
Introduction
Un systme en interaction avec son environnement est par dfinition en tat hors-quilibre .
Ltat hors-quilibre est instable.
Bton, bton arm ???
Quel point de vue adopter pour dcrire lvolution de ces systmes ?
Equilibre ?
Non-quilibre ?
Physique/thermodynamique de non-quilibre
Introduction
Thorie des probabilits / Statistique
Statistique = Application utilitaire de la thorie des probabilits
Autre exemple dapplication : les assurances
Statistique descriptive mthode de rsum (forme la plus ancienne)
condenser, analyser et prsenter des informations numriques trop nombreuses
pour tre utilisables exhaustivement
produire un nombre rduit dinfos utilisables qualifies de statistiques
Objet de la statistique = dfinitions diverses
Statistique mathmatique introduction du concept de probabilit
connaissance plus conome dune population, influence des divers facteurs de
variations, recherche dordre dans le dsordre
Statistique prdictive
tirer des hypothses sur le futur partir de la connaissance des statistiques du
pass (notion de conjoncture en conomie)
Intrt de lanalyse statistique pour la recherche en gnie civil
Introduction
Dfinition de la statistique
Ensemble des mthodes permettant de prendre des dcisions
raisonnables en prsence dincertitude !
Liens multiples avec la recherche en gnie civil
Variabilit des matriaux (rsistance caractristique)
Sollicitations stochastiques (vent, trafic routier, sismes...)
Diffusionphysique statistique ???
Systmes complexes

Intrt de lanalyse statistique pour la recherche en gnie civil


Modlisation
statistique
Modlisation statistique
Rgression linaire ou non linaire
Problme typique
Modlisation statistique
f(x)
x
x
0
x
1
f(x
0
)
f(x
1
)
f(x
2
)
f(x
3
)
f(x
4
)
x
2
x
3
x
4
Soit un jeu de donnes exprimentales (x
i
, f(x
i
)) reprsent sur la figure ci-dessous.
La rgression linaire ou non linaire consiste dfinir les paramtres dun modle connu ou
inconnu de faon ce que celui-ci sajuste au mieux sur des donnes exprimentales.
Exemple : le comportement exprimental peut
tre modlis par une fonction affine y = a.x + b
Comment trouver un couple (a,b)
permettant de minimiser lerreur
entre le modle et lexprience ?
Rgression linaire ou non linaire
Problme typique
Modlisation statistique
f(x)
x
x
0
x
1
f(x
0
)
f(x
1
)
f(x
2
)
f(x
3
)
f(x
4
)
x
2
x
3
x
4
Comment juger de leurs pertinences respectives ?
Modle 1
Modle 2
Modle 3
- sens physique
- erreur modle / exprience au sens des moindres carrs ...
Le modle 3 produit lerreur modle/exprience la plus faible,
mais cela ne signifie pas quil est physiquement pertinent.
Attention : sur un mme jeu de donnes, on peut ajuster diffrents modles.
Rgression linaire ou non linaire
Problme typique
Modlisation statistique
f(x)
x
Droite ajuste
Polynme dinterpolation
Attention : Ajustement (approximation) Interpolation !!!
Rgression linaire ou non linaire
Modlisation statistique
y
x
x
0
x
1
y
0
y
1
y
2
y
3
y
4
x
2
x
3
x
4
Exemple : ajustement dune droite dquation y
m
= a.x+b sur les donnes ( x
i
,y
i
)
y
m0
y
m1
y
m2
y
m3
y
m4
y
i
= valeur exprimentale associe x
i
y
mi
= a.x
i
+b = valeur thorique associe x
i
Problme de moindres carrs
Rgression linaire ou non linaire
Modlisation statistique
Approche algbrique : soit un couple (a,b) quelconque...
4
3
2
1
0
x
x
x
x
x
x
r
4
3
2
1
0
y
y
y
y
y
y
r
b x . a y
b x . a y
b x . a y
b x . a y
b x . a y
y
4 4 m
3 3 m
2 2 m
1 1 m
0 0 m
m
+ =
+ =
+ =
+ =
+ =
r
4 m 4
3 m 3
2 m 2
1 m 1
0 m 0
m
y y
y y
y y
y y
y y
y y

r r
Exprience Modle Diffrence Exprience/Modle
Lerreur produite par le modle y = a.x + b peut tre value au moyen de
la norme du vecteur Diffrence .
Problme de moindres carrs
Rgression linaire ou non linaire
Modlisation statistique
( ) ( ) ( ) ( ) ( )
2
4 m 4
2
3 m 3
2
2 m 2
2
1 m 1
2
0 m 0 m
y y y y y y y y y y y y + + + + =
r r
La norme du vecteur est donc une mesure de lcart entre lexprience et le
modle.
m
y y
r r

Lapproximation au sens des moindres carrs consiste trouver un couple (a,b) tel
que la norme de soit minimale.
Plus gnralement, lapproximation consiste ajuster les paramtres dun modle de
sorte que la norme de leve au carr soit minimale.
m
y y
r r

m
y y
r r

( ) ( ) ( ) ( )
2
mn n
2
2 m 2
2
1 m 1
2
0 m 0
2
m
y y ...... y y y y y y y y + + + + =
r r
Gnralisation au cas dun jeu de n donnes
Problme des moindres carrs
Problme de moindres carrs
Modlisation statistique
b x . a y
b x . a y
b x . a y
b x . a y
b x . a y
4 4
3 3
2 2
1 1
0 0
+ =
+ =
+ =
+ =
+ =
Formulation matricielle
|
|

\
|
(
(
(
(
(
(

=
|
|
|
|
|
|

\
|
b
a
1 x
1 x
1 x
1 x
1 x
y
y
y
y
y
4
3
2
1
0
4
3
2
1
0
s . A y
r r
=
Formulation gnrale
Thorme
La solution du problme de moindres carrs linaire vrifie le systme des quations
normales :
mc
s
r
5 quations et 2 inconnues : Systme sur-dtermin > nexiste pas s
r
( ) y . A . A . A s y A s . A . A
T
1
T
mc
T
mc
T
r r r r

= =
Problme de moindres carrs linaire
Rgression linaire ou non linaire
Modlisation statistique
c x . b x . a y
c x . b x . a y
c x . b x . a y
c x . b x . a y
c x . b x . a y
4
2
4 4
3
2
3 3
2
2
2 2
1
2
1 1
0
2
0 0
+ + =
+ + =
+ + =
+ + =
+ + =
Ajustement des paramtres dun polynme de degr 2 ? Pb de moindres carrs linaire !
|
|
|

\
|
(
(
(
(
(
(

=
|
|
|
|
|
|

\
|
c
b
a
1 x x
1 x x
1 x x
1 x x
1 x x
y
y
y
y
y
4
2
4
3
2
3
2
2
2
1
2
1
0
2
0
4
3
2
1
0
s . A y
r r
=
Formulation gnrale
Thorme
La solution du problme des moindres carrs linaire vrifie le systme des quations
normales :
mc
s
r
5 quations et 2 inconnues : Systme sur-dtermin > nexiste pas s
r
( ) y . A . A . A s y A s . A . A
T
1
T
mc
T
mc
T
r r r r

= =
Problme de moindres carrs linaire
Rgression linaire ou non linaire
Modlisation statistique
Pas de formulation matricielle possible
ajustement des paramtres du modle non linaire laide doutils
doptimisation
Optimisation : minimisation ou maximisation dune fonction de performance
(fonction cot ou fonction objectif) laide dalgorithmes itratifs :
- Mthodes de type Gauss-Newton (Matlab, Excel)
- Algorithme gntique (intressant si grand nombre de paramtres ajuster)
Exemple de fonction de performance : Erreur quadratique moyenne
Problme de moindres carrs non linaire
Rgression linaire ou non linaire
( ) ( ) ( ) ( )
n
y y ...... y y y y y y
n
y y
EQM
2
mn n
2
2 m 2
2
1 m 1
2
0 m 0
2
m
+ + + +
=

=
r r
Modlisation statistique
Mthodes de type Gauss-Newton : principe simplifi 1D
F(x) : fonction de performance
f(x) : drive de F(x)
Problme de moindres carrs non linaire
Rgression linaire ou non linaire
f(x)
x

x
4
x
0
(x
0
, f(x
0
))
x
1
(x
1
, f(x
1
))
x
2
(x
2
, f(x
2
))
x
3
(x
3
, f(x
4
))
Algorithmes doptimisation
Minimisation de F(x) :
recherche des racines de sa
drive
-Applicable aux problmes en dimensions n
- Sensible lexistence dextrema locaux, et
donc au choix du x
0
Modlisation statistique
Problme de moindres carrs non linaire
Rgression linaire ou non linaire
Algorithmes doptimisation
Algorithmes gntiques
Optimisation base sur le concept de la slection naturelle
Dfinition alatoire dune population initiale de solutions potentielles du problme
doptimisation.
Slection des solutions les plus adaptes au problme.
Croisements et mutations oprs sur les solutions slectionnes afin de constituer la
gnration suivante.
Itration jusqu obtenir une gnration de solutions homognes correspondant la
solution du problme.
Modlisation statistique
Problme de moindres carrs non linaire
Rgression linaire ou non linaire
Exemple : ajustement des paramtres dun modle de diffusion
|
|

\
|
=
t . D . 4
x
erf ). C C ( C ) t , x ( C
e
i s s
Solution analytique de la seconde loi de Fick
Donnes : C
i
et t
Paramtres ajuster : D
e
et C
s
du ) u exp(

2
) z ( erf
z
0
2

=
0 , 0 0 0 9 9 , 3 6 5
0 , 0 0 1 3 7 , 4 2
0 , 0 0 6 9 6 , 1 7
0 , 0 1 0 4 5 , 1 8 5
0 , 0 2 0 4 4 , 3 9 5
0 , 0 3 4 3 , 3 8 5
0 , 0 7 2 1 2 , 3 3 5
0 , 0 8 5 7 1 , 7 4
0 , 0 9 6 9 1 , 2 4
0 , 1 3 1 1 0 , 8 6 5
0 , 1 5 2 1 0 , 3 2 5
C
C l
(% m a s s iq u e )
x
i
( m m )
0 , 0 0 0 9 9 , 3 6 5
0 , 0 0 1 3 7 , 4 2
0 , 0 0 6 9 6 , 1 7
0 , 0 1 0 4 5 , 1 8 5
0 , 0 2 0 4 4 , 3 9 5
0 , 0 3 4 3 , 3 8 5
0 , 0 7 2 1 2 , 3 3 5
0 , 0 8 5 7 1 , 7 4
0 , 0 9 6 9 1 , 2 4
0 , 1 3 1 1 0 , 8 6 5
0 , 1 5 2 1 0 , 3 2 5
C
C l
(% m a s s iq u e )
x
i
( m m )
Donnes exprimentales
Modlisation statistique
Problme de moindres carrs non linaire
Rgression linaire ou non linaire
Exemple : ajustement des paramtres dun modle de diffusion
Solveur Excel
Profil de concentration en ions chlorures
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 2 4 6 8 10
Profonde ur (mm)
C
o
n
c
e
n
t
r
a
t
i
o
n

m
a
s
s
i
q
u
e

(
%
)
Modlisation statistique
Rseaux de neurones artificiels
Mthode de modlisation statistique non paramtrique
les paramtres du modle nont aucun sens physique (bote noire).
Apprentissage des relations complexes existant entre diffrentes parties dune
banque de donnes exprimentales
Principe : reproduire les capacits dapprentissage et de reconnaissance du
cerveau
Applications : modlisation non paramtrique, aide la dcision, reconnaissance
de formes, reconnaissance de la parole, diagnostic, prvision conomtrique
Qualits : parcimonie, bote noire - Dfauts : bote noire
Rgression non linaire
Modlisation statistique
Rseaux de neurones artificiels
Historique Travaux de 2 neurobiologistes (1940)
Rgression non linaire
Neurone biologique
Dendrites
Axone
Sortie
(axone)
Neurone artificiel
(fonction mathmatique)
w
1
w
2
w
3
e
1
e
2
e
3
Entres
(dendrites)
Unit de
traitement des
informations
dentre
Poids
synaptiques
Synapses
Modlisation statistique
Rseaux de neurones artificiels
Neurone formel (ou artificiel) : fonction non linaire paramtre valeurs bornes
Rgression non linaire
Biais
Poids
Entres
Sortie
Modlisation statistique
Rseaux de neurones artificiels
Rseau de neurones artificiels
Rgression non linaire
Modlisation statistique
Rseaux de neurones artificiels
Fonction dactivation
(ou de transfert) :
a=f(n)
Rgression non linaire
Modlisation statistique
Rseaux de neurones artificiels
Fonction dactivation
(ou de transfert) :
a=f(n)
Rgression non linaire
Modlisation statistique
Rseaux de neurones artificiels
Structuration des donnes exprimentales
La base de donnes exprimentales est dcompose en 3 parties :
- base dapprentissage (au moins 2/3 des exemples)
- base de test
- base de validation
La base dapprentissage doit contenir les exemples contenant les valeurs extrmes
des variables dentre.
Rgression non linaire
Modlisation statistique
Rseaux de neurones artificiels
Structuration des donnes exprimentales
Rgression non linaire
f(x)
x
Donnes dapprentissage
Donnes de test
Donnes de validation
Plage de variation de x
Plage de variation de x dcrite par les donnes dapprentissage
Modlisation statistique
Rseaux de neurones artificiels
Apprentissage
Optimisation des poids et des biais visant minimiser lerreur quadratique moyenne
E
n
calcule entre les prdictions et les valeurs cibles
Algorithme dapprentissage usuel (Newton) : rtropropagation du gradient de
lerreur E
n
Critre darrt : validation croise
Lapprentissage optimal est conditionn par lerreur commise sur la base de test.
Rgression non linaire
n
n
n 1 n
W
E
W W

=
+
Modlisation statistique
Rseaux de neurones artificiels
Apprentissage : critre darrt
Rgression non linaire
Modlisation statistique
Rseaux de neurones artificiels
Apprentissage : notion de sur-apprentissage
Rgression non linaire
f(x)
x
x
0
x
1
f(x
0
)
f(x
1
)
f(x
2
)
f(x
3
)
f(x
4
)
x
2
x
3
x
4
Modle optimal
Modle surentrain
(sur-apprentissage)
Le modle surentrain est trs bon sur les donnes de la base dapprentissage,
mais perd sa capacit de gnralisation (il sloigne des donnes de test).
Donnes dapprentissage
Donnes de test
Modlisation statistique
Rseaux de neurones artificiels
Dfinition de larchitecture du RNA : approche test-et-erreur
1 Architectures 1 couche cache (nb neurones variables ) : tests
2 Architectures 2 couches caches et nb neurones variables
3 Choix raisonnapport des couches caches / performance ???
Rgression non linaire
Modlisation statistique
Rseaux de neurones artificiels
Dfinition de larchitecture du RNA : approche test-et-erreur
Rgression non linaire
Choix : Nombre de Neurones
Choix : 1couche / 2 couches
Modlisation statistique
Rseaux de neurones artificiels
Evaluation de la performance du RNA
Rgression non linaire
Valeur cible
Valeur cible
Valeur cible
V
a
l
e
u
r

p
r

d
i
t
e
V
a
l
e
u
r

p
r

d
i
t
e
V
a
l
e
u
r

p
r

d
i
t
e
Modlisation statistique
Rseaux de neurones artificiels
Applications dans le champ du gnie civil
- Outil de prdiction des proprits dun bton sur la base des proportions de ses
constituants
- Contrles non destructifs : reconnaissance automatique de signatures physique
et/ou gomtriques
techniques encore au stade de la recherche
Rgression non linaire
Modlisation statistique
Rseaux de neurones artificiels Application
Modlisation de leffet de leau, de la porosit et des chlorures sur la rsistivit
lectrique dun bton
Rgression non linaire
72 concrete slabs (25 x 25 x 8 cm
3
)

B4
B3
B2
B1
Physical condition variability:
Porosity (14.3 % 16.7 %) - 4 levels
Water content (partially dry..saturated)
Total chloride content (0 . 6 kg/m3 of concrete)
Systematic resistivity measurement

V
I
a
Concrete
Equipotential lines
Current
lines
Wenner probe
Concrete surface
Database of 113 patterns:
Electrical resistivity values
vs
Physical condition of concrete
Modlisation statistique
Rseaux de neurones artificiels Application
Modlisation de leffet de leau, de la porosit et des chlorures sur la rsistivit
lectrique dun bton
Rgression non linaire
Modlisation statistique
Rseaux de neurones artificiels Application
Modlisation de leffet de leau, de
la porosit et des chlorures sur la
rsistivit lectrique dun bton
Banque de donnes
Rgression non linaire
16,00 2,10 14,86 15,00
18,00 2,02 14,86 15,00
72,26 0,00 14,73 15,00
72,26 0,00 14,66 15,00
37,00 1,13 14,60 15,00
75,36 0,00 11,62 15,00
125,66 0,00 10,50 15,00
48,04 2,10 8,02 15,00
753,98 0,00 5,86 15,00
7,85 5,17 14,14 14,30
21,00 2,12 14,04 14,30
94,00 0,00 13,92 14,30
39,00 1,04 13,84 14,30
94,00 0,00 13,76 14,30
77,00 0,00 13,74 14,30
13,50 3,50 13,62 14,30
75,36 0,00 11,62 14,30
120,00 0,00 9,70 14,30
26,69 5,17 9,64 14,30
38,31 3,50 9,18 14,30
920,00 0,00 4,60 14,30
970,00 0,00 4,04 14,30
Rsistivit
lec trique m esure
(kohm.cm)
Teneur en clorures
totaux (kg/m3)
Teneur en
eau (%)
Porosit
(%)
16,00 2,10 14,86 15,00
18,00 2,02 14,86 15,00
72,26 0,00 14,73 15,00
72,26 0,00 14,66 15,00
37,00 1,13 14,60 15,00
75,36 0,00 11,62 15,00
125,66 0,00 10,50 15,00
48,04 2,10 8,02 15,00
753,98 0,00 5,86 15,00
7,85 5,17 14,14 14,30
21,00 2,12 14,04 14,30
94,00 0,00 13,92 14,30
39,00 1,04 13,84 14,30
94,00 0,00 13,76 14,30
77,00 0,00 13,74 14,30
13,50 3,50 13,62 14,30
75,36 0,00 11,62 14,30
120,00 0,00 9,70 14,30
26,69 5,17 9,64 14,30
38,31 3,50 9,18 14,30
920,00 0,00 4,60 14,30
970,00 0,00 4,04 14,30
Rsistivit
lec trique m esure
(kohm.cm)
Teneur en clorures
totaux (kg/m3)
Teneur en
eau (%)
Porosit
(%)
Modlisation statistique
Rseaux de neurones artificiels Application Rsistivit lectrique Lien
Rgression non linaire
Concrete
porosity
Water
content
Chloride
content
N
h1
N
o1
Electrical resistivity
of concrete
N
h2
N
h3
N
h4
N
h5
N
h6
N
h7
N
h8
N
h9
N
h10
1 hidden layer with 10 nodes
1 output node
Total: 11 nodes
Weight matrix
(dim. 3x10)
Weight vector
(dim. 10)
Bias vector
(dim. 10)
Bias Statistical model:
51 parameters
x
e
x y
3
1
1
) (

+
=
0
1
Modlisation statistique
Rseaux de neurones artificiels Application
Modlisation de leffet de leau, de la porosit et des chlorures sur la rsistivit
lectrique dun bton
Rgression non linaire
0
100
200
300
400
500
600
700
800
900
1000
0 100 200 300 400 500 600 700 800 900 1000
ANN-Predicted resistivity (ohm.m)
A
c
t
u
a
l

r
e
s
i
s
t
i
v
i
t
y

(
o
h
m
.
m
)
Training data
Testing data
Absolute error: + 50 ohm.m
Absolute error: - 50 ohm.m
Modlisation statistique
Rseaux de neurones artificiels Application
Modlisation de leffet de leau, de la porosit et des chlorures sur la rsistivit
lectrique dun bton
Rgression non linaire
0
20
40
60
80
100
120
140
160
180
200
0 20 40 60 80 100 120 140 160 180 200
ANN-Predicted resistivity (ohm.m)
A
c
t
u
a
l

r
e
s
i
s
t
i
v
i
t
y

(
o
h
m
.
m
)
Training data
Testing data
Absolute error: + 40 ohm.m
Absolute error: - 40 ohm.m
Modlisation statistique
Rseaux de neurones artificiels Application
Modlisation de leffet de leau, de la porosit et des chlorures sur la rsistivit
lectrique dun bton
Rgression non linaire
0
100
200
300
400
500
600
700
800
900
1000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
Testing pattern
E
l
e
c
t
r
i
c
a
l

r
e
s
i
s
t
i
v
i
t
y

(
o
h
m
.
m
)
Actual testing values
ANN-predicted values
Modlisation statistique
Rseaux de neurones artificiels Application
Modlisation de leffet de leau, de la porosit et des chlorures sur la rsistivit
lectrique dun bton
Rgression non linaire
0
100
200
300
400
500
600
700
800
4 5 6 7 8 9 10 11 12 13 14 15 16 17
Volumetric water content (%)
A
N
N
-
p
r
e
d
i
c
t
e
d

r
e
s
i
s
t
i
v
i
t
y

(
o
h
m
.
m
)
Chloride content = 0 kg/m3
Chloride content = 1 kg/m3
Chloride content = 2 kg/m3
Chloride content = 3 kg/m3
Chloride content = 4 kg/m3
Chloride content = 5 kg/m3
Chloride content = 6 kg/m3
Simulation
neuronale
Modlisation statistique
Rseaux de neurones artificiels Application
Modlisation de leffet de leau, de la porosit et des chlorures sur la rsistivit
lectrique dun bton
Rgression non linaire
Simulation
neuronale
0
100
200
300
400
500
600
700
800
900
1000
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Degree of water saturation
A
N
N
-
p
r
e
d
i
c
t
e
d

r
e
s
i
s
t
i
v
i
t
y

(
o
h
m
.
m
)
Porosity = 14.5 %
Porosity = 15.5 %
Porosity = 16.5 %
Modlisation statistique
Rseaux de neurones artificiels Application
Modlisation de leffet de leau, de la porosit et des chlorures sur la rsistivit
lectrique dun bton
Rgression non linaire
Simulation
neuronale
Lissage
0
100
200
300
400
500
600
700
800
4 5 6 7 8 9 10 11 12 13 14 15 16 17
Volumetric water content (%)
A
N
N
-
p
r
e
d
i
c
t
e
d

r
e
s
i
s
t
i
v
i
t
y

(
o
h
m
.
m
)
Neural simulation
Experimental Values
Modlisation statistique
Rseaux de neurones artificiels Application
Modlisation de leffet de leau, de la porosit et des chlorures sur la rsistivit
lectrique dun bton
Rgression non linaire
Simulation
neuronale
Extrapolation
hasardeuse
0
100
200
300
400
500
600
700
800
900
1000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Volumetric water content (%)
A
N
N
-
p
r
e
d
i
c
t
e
d

r
e
s
i
s
t
i
v
i
t
y

(
o
h
m
.
m
)
Neural simulation
Experimental Values
Extrapolation
Rappels :
thorie des probabilits
Rappels thoriques
Introduction
Rappels thoriques
Espace probabilis : dfinitions
Exprience alatoire E : impossible de prvoir son rsultat
Univers associ E : ensemble des rsultats possibles de E
Lensemble peut tre fini ou dnombrable : univers discret.
Lensemble peut tre non dnombrable : univers continu.
vnement alatoire : - partie de lensemble des rsultats possibles de E
- sous-ensemble A de
On dit que A est ralis si le rsultat de lexprience appartient A
vnement impossible : - vnement certain :
Introduction
Rappels thoriques
Espace probabilis : dfinitions
vnement contraire de A not A
c
: complmentaire de A dans
vnement A et B : ensemble A B dans
vnement A ou B : ensemble A U B dans
vnements incompatibles A et B A B = (Exemple : A et A
c
)
Si , la ralisation de A implique la ralisation de B. B A
Introduction
Rappels thoriques
Espace probabilis : concept de probabilit
Probabilit : application p de lensemble P( ) des parties de dans R
satisfaisant les axiomes de Kolmogorov :
- La probabilit dun vnement est un nombre positif ou nul :
- La probabilit de lvnement impossible est nulle, celle de lvnement certain
est gale 1.
- La probabilit de lunion de 2 vnements incompatibles est gale la somme
des probabilits de chaque vnement.
, A 0 ) A ( p
) B ( p ) A ( p ) B A ( p B A + = =
Introduction
Rappels thoriques
Consquences
La probabilit dun vnement A est gale la somme des probabilits des
vnements lmentaires
i
de A.
Cas particulier : vnements lmentaires quiprobables
Dfinition
Le triplet ( , P( ), p) constitue un espace probabilis.


=
A
i
i
) ( p ) A ( p
) ( card
) A ( card
) A ( p ) ( p ... ) ( p ) ( p
n 2 1

= = = =
Espace probabilis : concept de probabilit
Probabilits conditionnelles & Indpendance
Rappels thoriques
Parfois, la ralisation dun vnement entrane la modification de
lunivers des possibilits
La ralisation dun vnement A modifie les possibilits de ralisation
dun autre vnement B qui se rduit B A. Les probabilits sont
galement modifies
Probabilit conditionnelle de B sachant que A est ralis :
Thorme des probabilits composs :
) A ( p
) A B ( p
) A / B ( p

=
) B / A ( p ) B ( p ) A / B ( p ) A ( p ) B A ( p = =
vnements indpendants
Deux vnements A et B sont indpendants si la ralisation de B ne modifie
pas la probabilit A, et rciproquement, do :
Il en rsulte que :
) A ( p ) B / A ( p =
) B ( p ) A ( p ) B A ( p =
Probabilits conditionnelles & Indpendance
Rappels thoriques
Thorme de Bayes (thorme de la probabilit des causes)
Soit un vnement B dont la ralisation dpend de lintervention de lune des
causes : A
1
, A
2
, A
i
, , A
n
.
Soit p(B/A
i
) , la probabilit conditionnelle de B sachant que cest la cause A
i
qui
intervient.
Soit p(A
i
) , la probabilit dintervention de A
i
, appele probabilit a priori de A
i
.
et
) B / A ( p ) B ( p ) A / B ( p ) A ( p ) B A ( p
i i i i
= =

=
=
n
1 i
i i
) A / B ( p ) A ( p ) B ( p

=
n
1 j
j j
i i
i
) A / B ( p ) A ( p
) A / B ( p ) A ( p
) B / A ( p
Variables alatoires relles
Rappels thoriques
Dfinition
Soit E une exprience alatoire associe lunivers . Une variable alatoire
(VA) relle X est une application de dans R :
A un ensemble dvnements lmentaires {
1
,
2
,...,
i
,,
n
}, on fait
correspondre un nombre X (variable alatoire) prenant lune des valeurs x
1
,
x
2
,..., x
i
,, x
n
lorsque lvnement correspondant se ralise.
Une variable alatoire est dfinie lorsquon connait les probabilits associes
aux diffrentes valeurs possibles de X : p(x
1
), p(x
2
), , p(x
n
).
La relation {x
i
, p(x
i
)} est dfinie comme la loi de probabilit de la variable
alatoire X.
Si les valeurs possibles de X sont discrtes, en nombre fini ou infini : VA discrte.
Si les valeurs possibles de X sont continues : VA continue.
R ) ( X : X
Variables alatoires relles
Rappels thoriques
Fonction de rpartition
La fonction de rpartition F
X
de la variable alatoire X est dfinie pour tout
nombre rel x par :
Remarques
1. 0 F
X
1
2. F
X
tend vers 0 en - et F
X
tend vers 1 en +.
3.
) x X ( p ) x ( F =
X XX X
, b a < ) a ( F ) b ( F ) b X a ( p
X X
= < <
Variables alatoires relles
Rappels thoriques
Variables alatoires discrtes
Une variable alatoire qui prend un nombre fini ou dnombrable de valeurs est
une VA discrte.
Soit X une VA discrte valeurs dans un ensemble fini ou dnombrable. La
fonction de probabilit p
X
de X est dtermine par lensemble des
probabilits de ses valeurs x :
Pour toute partie A de , on a :
Pour une VA discrte, F
X
est une fonction en escalier.
) x X ( p ) x ( p = =
X XX X

= =
A x
) x X ( p ) A ( p
X XX X
Variables alatoires relles
Rappels thoriques
VA discrtes : exemple
Urne contenant des boules noires en proportion et des boules blanches en
proportion (1- ) .
Exprience alatoire : tirage dune boule au hasard
Rsultat : 2 vnements possibles

1
: la boule est noire et
2
: la boule est blanche
On peut associer un nombre X au rsultat du tirage au hasard. X = 0 si
1
est
ralis et X = 1 si
2
est ralis.
X est une variable alatoire discrte (en loccurrence Variable de Bernouilli) dont
la loi de probabilit est donne par : et = = ) 0 X ( p = = 1 ) 1 X ( p
Variables alatoires relles
Rappels thoriques
Variables alatoires continues
Une variable alatoire qui prend un nombre infini non dnombrable de valeurs
est une VA continue si F
X
est une fonction continue..
Gnralement, la fonction de rpartition dune VA continue scrit sous la forme :
o p
X
est une fonction de R dans R, alors on dit
que p
X
est la densit de probabilit de la
variable X.
Remarques
Soit A un sous-ensemble de R : Pour tout a < b :


=
t
X X
dx ) x ( p ) t ( F

=
A
X
dx ) x ( p ) A X ( p

= = < <
b
a
X X X
dx ) x ( p ) a ( F ) b ( F ) b X a ( p
1 dx ) x ( p
X
=

+

Variables alatoires relles
Rappels thoriques
Exemples fondamentaux : VA discrtes
Loi de Bernoulli
On dit que X suit une loi de Bernoulli de paramtre , note B() si :
et
Loi binomiale
On dit que X suit une loi binomiale de paramtres , note B(n,) si :
(Tirage au hasard non exhaustif de n boules dans une urne contenant des boules noires en
proportion et des boules blanches en proportion (1- ) . X est une VA gale au nombre de
boules noires parmi les n boules tires Quelle est la probabilit pour que X = k avec 0 k n)
Remarque Tirage non exhaustif : chaque boule tire est remise dans lurne avant le tirage de
la suivante
Cas du tirage exhaustif : loi hypergomtrique
[ 1 , 0 ]
) 1 X ( p = = 1 ) 0 X ( p = =
) , n (
n k 0
k n k k
n
) 1 .( . C ) k X ( p

= =
Variables alatoires relles
Rappels thoriques
Exemples fondamentaux : VA discrtes
Loi gomtrique
On dit que X suit une loi gomtrique de paramtre , note G() si :
(Modliser le nombre de ralisation indpendantes dune exprience 2 issues (succs/chec)
jusqu lobtention du premier succs, si chaque ralisation la probabilit de succs est )
Loi de Poisson
On dit que X suit une loi de Poisson de paramtre , note P() si :
Comportement limite de la loi binomiale lorsque : , faible et
Approximation de la loi binomiale 2 paramtres par une loi 1 paramtre : simplification
n k 0
[ 1 , 0 ]
1 k
) 1 .( ) k X ( p

= =
+
R
! k

e ) k X ( p
k

= =
n
. n
Variables alatoires relles
Rappels thoriques
Exemples fondamentaux : VA continues
Loi exponentielle
On dit que X suit une loi exponentielle de paramtre , note () si la
loi de X a pour densit :
si et si
Loi utilise en Fiabilit o est dfini comme le taux moyen de dfaillance et 1/ est le temps
moyen de bon fonctionnement
Loi Gamma
On dit que X suit une loi Gamma de paramtres , note (a,) si
la loi de X a pour densit :
si et si
O :
0 >
) x (
X
e ) x ( p

= 0 x 0 ) x ( p
X
= 0 x <
) 0 , 0 a ( > >
) x ( 1 a
a
X
e x
) a (

) x ( p

= 0 x 0 ) x ( p
X
= 0 x <
dx e x ) a (
x
0
1 a
+

= Loi exponentielle = cas particulier de la loi Gamma


Loi Gamma galement utilise en Fiabilit
Variables alatoires relles
Rappels thoriques
Exemples fondamentaux : VA continues
Loi exponentielle
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
0 2 4 6 8 10
x
p
x
(
x
)
Lambda = 1
Lambda = 2
Variables alatoires relles
Rappels thoriques
Exemples fondamentaux : VA continues
Loi normale, Loi de Gauss, Loi de Laplace-Gauss
On dit que X suit une loi normale de paramtres , note N(m,
2
) si la loi
de X a pour densit :
) , m (
2
|
|

\
|

=
2
2
2
) m x (
X
e
2
1
) x ( p
Courbe en cloche
m = valeur moyenne de X
= prcision
, R x
% 68 ) m X ( p = <
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
-10 -8 -6 -4 -2 0 2 4 6 8 10
x
p
x
(
x
)
m=0,Sigma=1
m=0,Sigma=5
m=6,Sigma=0,5
Variables alatoires relles
Rappels thoriques
Caractristiques des variables alatoires
Esprance
Soit X une VA relle et h une application de R dans R : h(X) est donc une VA.
Si X est une VA discrte valeurs dans , on appelle esprance de h(X) la quantit :
Si X est une VA continue de densit p
X
, on appelle esprance de h(X) la quantit :
Si h(x)=x (application identit), on obtient E(X) appele esprance ou moyenne de X

= =
x
) x X ( p ) x ( h )) X ( h (

=
R
X
dx ) x ( p ) x ( h )) X ( h (
Variables alatoires relles
Rappels thoriques
Caractristiques des variables alatoires
Proprits de lesprance
Linarit :
Si X est une VA constante gale : , alors : et
Si X Y, alors E(X-Y) 0, et donc E(X) E(Y)
Lesprance est un indicateur de la localisation de la distribution de X.
Lesprance est aussi appele moment dordre 1 de la distribution de X.
Lesprance ne donne pas dinfos sur ltalement de la distribution.
) Y ( E ) X ( E ) Y X ( + = +
R a
1 ) a X ( p = = a ) X ( E =
Variables alatoires relles
Rappels thoriques
Caractristiques des variables alatoires
Variance
Soit p >0, on appelle moment dordre p de la variable alatoire X la quantit :
On utilise essentiellement : - les moments autour de E(x), dits moments centrs
- le moment centr dordre 2 ou variance
On appelle variance de la variable alatoire X la quantit :
) X ( E
p
] )) X ( E X [( E ) X ( Var
2
=
Variables alatoires relles
Rappels thoriques
Caractristiques des variables alatoires
Proprits de la variance
Pout tout :
La racine carre de Var(X), note
X
, est appele cart-type de X.
Si X est une VA telle que E(X) = m et Var(X)=
2

Alors Y = (X m) / est une VA telle que : E(Y) = 0 et Var(Y) = 1.


On dit que Y est une variable centre et rduite.
2 2
) X ( E ) X ( E ) X ( Var =
) X ( Var a ) b aX ( Var
2
= +
2
R ) b , a (
Variables alatoires relles
Rappels thoriques
Notion de fractile (ou quantile)
Soit X une VA relle de fonction de rpartition F
X
valeurs dans ]0,1[.
Soit 0 < < 1, on appelle quantile dordre de X le nombre x

tel que :
ou encore
Remarque : x
1/2
est appel mdiane de X
) x ( F
X
=
) x X ( p

=
Variables alatoires relles
Rappels thoriques
Couple de variables alatoires
Etude des relations entre deux ou plusieurs VA
Exemples : X : consommation dlectricit
Y : Temprature extrieure
Fonction de rpartition du couple (X,Y) :
2
R ) y , x ( ) y Y , x X ( p ) y , x ( F
) Y , X (
=
Variables alatoires relles
Rappels thoriques
Couple de variables alatoires
Etude des relations entre deux ou plusieurs VA
Indpendance de VA
Deux VA sont indpendantes si et seulement si :
Si deux VA sont indpendantes, lesprance de leur produit est gale au produit de
leurs esprances : E(XY) = E(X)E(Y)
Covariance de X et Y :
La covariance de 2 VA indpendantes est nulle.
, R ) b , a (
2

) b Y ( p ) a X ( p ) b Y , a X ( p =
) Y ( E ) X ( E ) XY ( E ) Y , X ( =
Variables alatoires relles
Rappels thoriques
Couple de variables alatoires
Variance dune somme de VA :
or
et
do
do
2 2 2
) Y X ( E ] ) Y X [( E ) Y X ( =
2 2 2
) Y ( E ) XY ( E 2 ) X ( E ] ) Y X [( E + =
2 2 2
) Y ( E ) Y ( E ) X ( E 2 ) X ( E ) Y X ( E + =
] ) Y ( E ) Y ( E [ )] Y ( E ) X ( E ) XY ( E [ 2 ] ) X ( E ) X ( E [
) Y X (
2 2 2 2
2
+
=
) Y ( ) Y , X ( 2 ) X ( ) Y X (
2 2 2
+ =
) Y ( ) X (
2 2
+ = si les VA sont indpendantes
Thormes limites
Rappels thoriques
Thorme de Bienaym-Tchebitchev
Soit >0 et soit X une VA desprance E(X) et de variance Var(X) :
Ou encore :
Signification de lcart-type (ou de la variance ) :
Lcart-type caractrise la dispersion de la distribution autour de lesprance
mathmatique.
2
2 2

) X ( Var
] )) X ( E X [( p
2

) X ( Var
] ) X ( E X [ p
Thormes limites
Rappels thoriques
Loi faible des grands nombres
Soient X
1
, X
2
, , X
n
, une suite de n VA indpendantes, de mme loi quune
variable X desprance E(X) et variance
2
. Alors, pour tout >0 :
Si on mesure une mme quantit alatoire au cours d'une suite d'expriences
indpendantes, alors la moyenne arithmtique des valeurs observes va se
stabiliser sur l'esprance.
On dit que (X
1
+ X
2
+ +X
n
)/n converge en probabilit vers E(X) lorsque n tend vers
linfini.
0 ) X ( E
n
X ... X X
p
n 2 1

|
|

\
|
>
+ + +
quand n
Analyses de donnes :
quelques grands concepts
Analyses de donnes
1 - Analyse en composantes principales (ACP)
Objet : - mthode danalyse factorielle
- rechercher les directions de lespace qui reprsentent le
mieux les corrlations entre N variables alatoires...
- compresser des donnes, rduire leur dimension
- classifier des donnes (clustering)
Les donnes
Soit un vecteur de N variables alatoires :
On observe K ralisations conjointes
de ce vecteur de n VA et on range les
donnes dans une matrice M :
Analyses de donnes
(
(
(

=
K
N
K
1
1
N
1
1
X X
X X
M
L
M O M
L
( )
N 2 1
X , , X , X L
1 - Analyse en composantes principales (ACP)
Les donnestransformations
Chaque variable alatoire possde une moyenne
et un cart-type :
M peut tre centre :
M peut tre rduite :
Analyses de donnes
(
(
(



=
N
K
N
1
K
1
N
1
N
1
1
1
X X X X
X X X X
M
L
M O M
L
( )
K
n
2
n
1
n n
X , , X , X X L =
n X
n

(
(
(
(
(
(



=
N
N
K
N
1
1
K
1
N
N
1
N
1
1
1
1
~

X X

X X

X X

X X
M
L
M O M
L
1 - Analyse en composantes principales (ACP)
Les donnestransformations
Notons que chaque vecteur dfinit 1 point dans un
espace N dimensions.
Lensemble des vecteurs avec 1 k K dfinit un nuage de points.
Le vecteur est le centre de gravit du nuage de points.
Le choix de centrer et/ou de rduire M nest pas systmatique.
Si on ne rduit pas M, une variable avec une forte variance va masquer leffet des
autres variables
Si on rduit M, un bruit se retrouve avec la mme variance quune variable
informative
Analyses de donnes
|

\
|
= N 2 1 X , , X , X X L
( )
k
N
k
2
k
1
k
X , , X , X X L =
k
X
1 - Analyse en composantes principales (ACP)
Les donnestransformations
Matrice de variance-covariance :
Matrice de corrlations :
Analyses de donnes
M M
K
1
] Cov [
t
=
~
t
~
M M
K
1
] Cor [ =
Ces 2 matrices sont diagonalisables.
1 - Analyse en composantes principales (ACP)
A la recherche des composantes principales
On recherche les directions orthogonales autour desquelles la variance du nuage
de points projet est maximale. Les valeurs propres correspondent aux
variances associes aux directions propres.
Recherche des valeurs propres et vecteurs propres de la matrice de corrlation
(ou de variance-covariance si les donnes ne sont pas rduites).
Les directions sont classes par ordre de variance dcroissante. Le premier axe
factoriel est celui pour lequel la variance (valeur propre) est la plus forte. Le
deuxime axe factoriel correspond la variance immdiatement infrieure,
etc, etc
Analyses de donnes
1 - Analyse en composantes principales (ACP)
A la recherche des composantes principales
On considre habituellement que les axes traduisant au moins 80 % de la
variance totale sont suffisants pour dcrire les donnes.
Considrons par exemple des vecteurs alatoires 10 composantes. Si les 3
premiers axes traduisent plus de 80 % de la variance totale, chaque veteur
peut-tre rsum par sa projection sur les 3 premiers axes principaux du
nuages de points
Applications : Compression de donnes
Rduction de la dimension des donnes (intressant pour rseaux
de neurones car nombre dentres rduits tout en conservant la
mme qualit dinformation)
Classification des vecteurs alatoires
Analyses de donnes
1 - Analyse en composantes principales (ACP)
Exemple : typologie de vhicules
Analyses de donnes

Modle


Cylindre
(cm3)


Puissance
(ch)


Vitesse
(km/h)


Poids
(kg)


Longueur
(cm)


Largeur
(cm)

Honda Civic 1396 90 174 850 369 166
Renault 19 1721 92 180 965 415 169
Fiat Tipo 1580 83 170 970 395 170
Peugeot 405 1769 90 180 1080 440 169
Renault 21 2068 88 180 1135 446 170
Citron BX 1769 90 182 1060 424 168
Bmw 530i 2986 188 226 1510 472 175
Rover 827i 2675 177 222 1365 469 175
Renault 25 2548 182 226 1350 471 180
Opel Omega 1998 122 190 1255 473 177
Peugeot 405 Break 1905 125 194 1120 439 171
Ford Sierra 1993 115 185 1190 451 172
Bmw 325iX 2494 171 208 1300 432 164
Audi 90 Quattro 1994 160 214 1220 439 169
Ford Scorpio 2933 150 200 1345 466 176
Renault espace 1995 120 177 1265 436 177
Nissan Vanette 1952 87 144 1430 436 169
VW Caravelle 2109 112 149 1320 457 184
Ford Fiesta 1117 50 135 810 371 162
Fiat Uno 1116 58 145 780 364 155
Peugeot 205 1580 80 159 880 370 156
Peugeot 205 Rallye 1294 103 189 805 370 157
Seat Ibiza SX I 1461 100 181 925 363 161
Citron AX Sport 1294 95 184 730 350 160
1 - Analyse en composantes principales (ACP)
Exemple : typologie de vhicules
Analyses de donnes
0
10
20
30
40
50
60
70
80
90
1 2 3 4 5 6
Axes principaux
V
a
r
i
a
n
c
e

(
%

d
e

l
a

v
a
r
i
a
n
c
e

t
o
t
a
l
e
)
Le premier plan factoriel suffit dcrire la structure
de corrlation des donnes.
1 - Analyse en composantes principales (ACP)
Exemple : typologie de vhicules
Analyses de donnes
honda civic
fiat tipo
P405
R21
CBX
Bmw530
Rover827
R25
Opel omega
P405B
Ford sierra
Bmw325
Audi90
Ford scorpio
R espace
Nissan vanette
fiat uno
P205R
CAX
ford fiesta
R19
VW
P205
Seat ibiza
-3,000
-2,500
-2,000
-1,500
-1,000
-0,500
0,000
0,500
1,000
1,500
2,000
-5,000 -4,000 -3,000 -2,000 -1,000 0,000 1,000 2,000 3,000 4,000 5,000
Facteur 1 (78%)
F
a
c
t
e
u
r
2

(
1
5
%
)
1 - Analyse en composantes principales (ACP)
Exemple : typologie de vhicules
Analyses de donnes
Vitesse
Cylindre
Puissance
Poids
Longueur
Largeur
-1,00
-0,80
-0,60
-0,40
-0,20
0,00
0,20
0,40
0,60
0,80
1,00
-1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 1,00
Axe 1
A
x
e

2
Cercle de corrlation
1 - Analyse en composantes principales (ACP)
Exemple : typologie de vhicules
Analyses de donnes
Vitesse
Cylindre
Puissance
Poids
Longueur
Largeur
-1,00
-0,80
-0,60
-0,40
-0,20
0,00
0,20
0,40
0,60
0,80
1,00
-1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 1, 00
Axe 1
A
x
e

2
Cercle de corrlation
Laxe 1 est trs corrl avec tous les
paramtres (positivement), il est max
pour les voitures rapides, puissantes,
grosses, grandes[et min pour
linverse].
Laxe 2 est max pour les voitures rapides
et puissantes (corrlation positive avec
la vitesse et la puissance) mais de petit
gabarit (corrlation ngative avec la taille
et le poids) [et min pour linverse].
1 - Analyse en composantes principales (ACP)
Exemple : Reconnaissance de formes
Sources acoustiques :
5 paramtres caractristiques
(Amplitude, frquence, dure, temps de monte, dimension de corrlation)
Analyses de donnes
1 - Analyse en composantes principales (ACP)
Exemple : Reconnaissance de formes
Sources acoustiques :
5 paramtres caractristiques
(Amplitude, frquence, dure, temps de monte, dimension de corrlation)
Analyses de donnes
DC7 RT7 D7 F7 A7
DC6 RT6 D6 F6 A6
DC5 RT5 D5 F5 A5
DC4 RT4 D4 F4 A4
DC3 RT3 D3 F3 A3
DC2 RT2 D2 F2 A2
DC1 RT1 D1 F1 A1
Dimension de
corrlation (DC)
Temps de
monte (RT)
Dure
(D)
Frquence
(F)
Amplitude
(A)
DC7 RT7 D7 F7 A7
DC6 RT6 D6 F6 A6
DC5 RT5 D5 F5 A5
DC4 RT4 D4 F4 A4
DC3 RT3 D3 F3 A3
DC2 RT2 D2 F2 A2
DC1 RT1 D1 F1 A1
Dimension de
corrlation (DC)
Temps de
monte (RT)
Dure
(D)
Frquence
(F)
Amplitude
(A)
5 variables alatoires
K ralisations
conjointes des 5 VA
Question : DC est-il un
paramtre discriminant
des signaux ?
1 - Analyse en composantes principales (ACP)
Exemple : Reconnaissance de formes
Sources acoustiques : 4 sources
Analyses de donnes
50 60 70 80 90 100
20
30
40
50
60
70
80
90
Concrete slab
Amplitude (dB)
F
r
e
q
u
e
n
c
y

(
k
H
z
)
S1 S2 S3 S4 Acoustic sources:
Reprsentation des
donnes dans le plan
Amplitude-Frquence
1 - Analyse en composantes principales (ACP)
Exemple : Reconnaissance de formes Sources acoustiques
Analyses de donnes
S1 S2 S3 S4 Acoustic sources:
-4 -3 -2 -1 0 1 2 3 4
-3
-2
-1
0
1
2
3
Concrete slab
P
C
A

2
(
1
8
.
9
8
%
)
PCA 1(58.60%)
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
Concrete slab
P
C
A

2

(
2
3
.
7
0
%
)
PCA 1(53.77%)
Reprsentation des donnes dans le premier plan factoriel ACP
Avec DC
Sans DC
2 Classification (ou clustering)
Principe gnral de la classification
Chercher regrouper des ensembles de donnes en classes de caractristiques
homognesIdentifier diffrentes familles de donnes au sein dune
population
Mthodes supervises ou non supervises
Principe de la Classification Ascendante Hirarchique (CAH)
Construire des partitions embotes N, N-1, N-2, , 1 classes par
regroupements successifs.
La partition en n-1 classes est obtenue en agrgeant, parmi les n classes, les
deux classes les plus proches au sens dune distance qualifie dindice
dagrgation D.
Analyses de donnes
Principe de la CAH
Il peut tre judicieux de classifier aprs projection des donnes sur les premiers
axes ACP
Analyses de donnes
2 Classification (ou clustering)
Axe 1 (ACP)
Axe 2 (ACP)
12 points
=
12 classes initiales
11 classes
10 classes
1 classe
Principe de la CAH
Il peut tre judicieux de classifier aprs projection des donnes sur les premiers
axes ACP
Analyses de donnes
2 Classification (ou clustering)
Axe 1 (ACP)
Axe 2 (ACP)
12 points
=
12 classes initiales
11 classes
10 classes
1 classe
Principe de la CAH : Dendogramme
Analyses de donnes
2 Classification (ou clustering)
Recherche du saut dindice dagrgation le plus important Dfinition du nombre
de classes et affectation de chaque vecteur une classe.
Saut le plus important
3 classes
Exemple : classification des sources dmission acoustique dans un cble lors
dun essai de corrosion acclre sous contrainte
Analyses de donnes
2 Classification (ou clustering)
Exemple : classification des sources dmission acoustique dans un cble lors
dun essai de corrosion acclre sous contrainte
Analyses de donnes
2 Classification (ou clustering)
Salve dmission acoustique
(onde lastique transitoire)
Information dapparence stochastique : comment caractriser ce type de signal ?
Exemple : classification des sources dmission acoustique dans un cble lors
dun essai de corrosion acclre sous contrainte
Analyses de donnes
2 Classification (ou clustering)
Salve dmission acoustique
(onde lastique transitoire)
Plusieurs sources possibles : combien ?
Exemple : classification des sources dmission acoustique dans un cble lors
dun essai de corrosion acclre sous contrainte
Analyses de donnes
2 Classification (ou clustering)
ACP sur les paramtres
dacquisition
Plusieurs centaines de
salves collectes
Informations corrles
Informations redondantes
42.66% 42.66%
22.60% 22.60%
13.90% 13.90%
8.63% 8.63%
8.04% 8.04%
3.50% 3.50%
0.68% 0.68%
42.66% 42.66%
22.60% 22.60%
13.90% 13.90%
8.63% 8.63%
8.04% 8.04%
3.50% 3.50%
0.68% 0.68%
Variance
Exemple : classification des sources dmission acoustique dans un cble lors
dun essai de corrosion acclre sous contrainte
Analyses de donnes
2 Classification (ou clustering)
CAH
Saut important de
lindice dagrgation
Classe 3
Classe 2 Classe 1
Indice dagrgation-Classes de signaux (Cble 3)
Exemple : classification des sources dmission acoustique dans un cble lors
dun essai de corrosion acclre sous contrainte
Analyses de donnes
2 Classification (ou clustering)
3 Infrence : estimation statistique
Introduction
En statistique classique, infrer consiste induire les caractristiques dune
population partir dun chantillon issu de cette population.
Interprtation de donnes statistiques
Linfrence statistique est souvent base sur des caractristiques statistiques
connues priori : nature de la loi de probabilit
Analyses de donnes
Linduction consiste chercher des lois gnrales partir de lobservation
de faits particuliers.
Par la suite
Forme analytique de la loi de probabilit suppose connue
Estimation des paramtres
1
,
2
de la loi p(X;
1
,
2
) partir de lchantillon
observ x
1
, x
2
x
n
Evaluation de la qualit de lestimation
3 Infrence : estimation statistique
Analyses de donnes
Rappel : Loi faible des grands nombres
Si on mesure une mme quantit alatoire au cours d'une suite d'expriences
indpendantes, alors la moyenne arithmtique des valeurs observes va se
stabiliser sur l'esprance.
On dit que M
n
= (X
1
+ X
2
+ +X
n
) / n converge en probabilit vers E(X) lorsque n
tend vers linfini.
Etant donn arbitrairement faible, on peut toujours dterminer n tel que :
|M
n
E(X)| <
3 Infrence : estimation statistique
Analyses de donnes
Estimation
Supposons une loi 1 paramtre : . On recherche une fonction *(x
1
, x
2
x
n
) qui
sapproche au maximum de .
Estimateur
La variable alatoire T
n
(X
1
, X
2
,X
n
) est un estimateur de si :
- E(T
n
) quand n
- E[T
n
-E(T
n
)] 0 quand n
Si E(T
n
)= quelque soit n, alors T
n
est un estimateur sans biais.
T
n
converge en probabilit vers .
Un estimateur est dautant plus efficace que sa variance est faible.
3 Infrence : estimation statistique
Analyses de donnes
Intervalle de confiance dune estimation
Prcision dune estimation ?
Soit la distribution de T
n
.
Soit un seuil de probabilit ,
considr comme ngligeable.
On peut dfinir un intervalle [-
1
, +
2
] de probabilit (1-).
La probabilit dobserver lvnement {-
1
T
n
+
2
} est (1-).
Par consquent, la probabilit de lvnement {T
n
-
2
T
n
+
1
} est (1-).
t
p(t)
+
2
-
1
3 Infrence : estimation statistique
Analyses de donnes
Intervalle de confiance dune estimation
Lintervalle [T
n
-
2
,T
n
+
1
] est un intervalle alatoire dont la probabilit de
contenir est (1-).
Concernant lchantillon observ x
1
, x
2
x
n
et la valeur * de T
n
correspondante
lintervalle [*-
2
, *+
1
] est lintervalle de confiance de lestimation de
au seuil de probabilit (1-).
Remarque : infinit de possibilits de rpartir
la probabilit , dont une correspond un
intervalle minimal. En pratique :
t
p(t)
+
2
-
1
/2 /2
1-
3 Infrence : estimation statistique
Analyses de donnes
Application : Estimation dune moyenne
Soit une population de moyenne inconnue et de variance connue.
Soit M
n
, la VA moyenne dun chantillon de taille n , on montre :
E(M
n
) =
(M
n
) = / n 0 quand n
M
n
est donc un estimateur sans biais et convergent de .
Rsultat gnral indpendant de la loi de probabilit.
Cependant, la dtermination de lintervalle de confiance ncessite la
connaissance de la loi.
3 Infrence : estimation statistique
Analyses de donnes
Application : Estimation dune moyenne et Intervalle de confiance
Cas dune loi normale de variance connue
M
n
suit galement une loi normale de moyenne et dcart-type .
Soit un seuil de probabilit , on peut crire :
O u
/2
est lu dans la table de la loi normale rduite de faon que :
Lintervalle de confiance de est donc :
n

u M
n

u ob Pr
n
=
)
`

+ < < 1
2 2
{ } u U ob Pr

= >
2
n

u m
n

u m

*

*
2 2
+ < <
3 Infrence : estimation statistique
Analyses de donnes
Remarque :
La construction dun intervalle de confiance repose sur 3 lments :
- Taille de lchantillon
- Fiabilit du rsultat (donne par le coefficient de confiance)
- Prcision (amplitude de lintervalle)
Pour n fix :
- Plus la fiabilit est bonne, plus la prcision est faible ;
- Plus la fiabilit est faible, plus la prcision est forte
3 Infrence : estimation statistique
Analyses de donnes
Exemples de dmarches destimation
Remarques prliminaires
Population de taille N, de moyenne et de variance
Echantillon de taille n :
- moyenne dchantillon :
- variance dchantillon (quasi-variance ou variance corrige ):
Lois type : Student, Fisher,
n
X ... X X
X
n 2 1
+ + +
=
( )

=
n
1
i
2
1 n
X X
S
2

3 Infrence : estimation statistique


Analyses de donnes
Exemples de dmarches destimation
(n-1) ddl
inconnu
n ddl connu
Normale Variance
~ N (0;1)
inconnu
~ N (0;1) connu
Quelconque
n>30
Student (n-1)
inconnu
N (0;1) connu
Normale
Moyenne
Loi
Statistique
(estimateur)
Loi de la population
Paramtre
estimer
)

X
( n

)
S
X
( n

)

X
( n

)
S
X
( n

( )


2
2
i

X
2

2
2

S ) 1 n (
2

3 Infrence ou estimation statistique


Analyses de donnes
Concept du maximum de vraisemblance
La vraisemblance du paramtre associ aux donnes scrit :
La vraisemblance contient toute linformation apporte par (x
1
, . . . , x
n
)
sur le paramtre .
La mthode du maximum de vraisemblance consiste estimer par
Cet estimateur jouit de bonnes proprits lorsque n est grand devant
la dimension de .
( ) ( ) ; x f L
i
n
i 1 =
=
( ) ( )
|

\
|
= L max arg

*
4 Infrence baysienne
Principe
Dmarche logique permettant dvaluer ou de rviser la probabilit dune
hypothse.
Utilisation des thormes de combinaison des probabilits (qui conduisent au
thorme de Bayes)
La statistique baysienne est prfrable lorsque les informations sont rares
(statistique des petits chantillons). Elle est cependant plus coteuse en
temps de calcul.
Les approches classique et baysienne sont asymptotiquement quivalentes.
Analyses de donnes
4 Infrence baysienne
Plus prcisment
Le paramtre associ au modle statistique f(x;) est considr alatoire de loi
a priori .
Sachant les donnes x, suit une loi a posteriori :
Linfrence statistique se conduit sur la base de cette loi a posteriori.
Analyses de donnes
) (
) x / (
( ) ( )
( ) ( )

=
d x / L
x / L
) x / (
4 Infrence baysienne
Plus prcisment
La loi a priori rsume linformation pralable lobtention des donnes que
lon possde sur le paramtre .
Elle rsume galement lincertitude sur la valeur de cette information.
Elle fournit un cadre cohrent et contrlable pour quantifier les connaissances et
les opinions dexpert.
Grce au thorme de Bayes, elle donne naissance la loi a posteriori
qui tire toute linformation des donnes et de la loi a priori.
Analyses de donnes
) (
) x / (
4 Infrence baysienne
Plus prcisment
Analyses de donnes
Une fois la loi a posteriori tablie ou approch, on en dduit un estimateur
ponctuel de qui peut tre :
- la moyenne a posteriori
- le mode a posteriori
- la mdiane a posteriori.
Potentiellement, la loi a posteriori contient les lments pour valuer lincertitude
de cet estimateur ponctuel.
6 Infrence : test dhypothses
Principe
Dmarche consistant accepter ou rejeter une hypothse statistique sur la base
dun jeu de donnes disponible
Le test dhypothse nest pas sans risque. On note 2 types derreurs :
- rejeter une hypothse vraie (risque de premire espce de probabilit ) ;
- accepter une hypothse fausse (risque de deuxime espce de probabilit ).
Tests classiques : on impose par exemple que le risque de deuxime espce
tende vers 0 quand le nombre d'observations tend vers l'infini et on fixe le
risque de premire espce un niveau
Test de Student, Test de Fisher, Test de
Tests baysiens : pondrations des risques de premire et de deuxime espces
grce la connaissance de probabilits a priori
Psi-test
Analyses de donnes
6 Infrence : test dhypothses
Test sur un paramtre
La valeur dun paramtre trouve sur un chantillon peut-tre mise en relation
avec une valeur priori
0
.
Hypothse nulle H
0
: =
0
Hypothse alternative H
1
:
0
- Test unilatral H
1
: <
0
ou >
0
- Test bilatral H
1
:
0
Analyses de donnes
6 Infrence : test dhypothses
Test sur un paramtre
Construction du test :
- Dtermination des hypothses
- Choix dune statistique (estimateur T du paramtre )
- Rgle de dcision : notion de seuil critique l
Si t < l , on rejette lhypothse H
0
.
Si t > l, on accepte lhypothse H
0
Analyses de donnes
6 Infrence : test dhypothses
Test sur un paramtre
Exemple : test sur la moyenne dune population de variance connue
H
0
: =
0
Estimateur :
On sait que : ou
Rgle de dcision : on rejette H
0
on accepte H
0
Analyses de donnes
n
X ... X X
X
n 2 1
+ + +
=
)
n

, ( X ) 1 ; 0 ( )

X
( n

l X <
l X >
6 Infrence : test dhypothses
Test sur un paramtre
Exemple : test sur la moyenne dune population de variance connue
Dtermination du seuil critique :
Soit = P(rejeter H
0
quand H
0
est vraie)
= P( quand H0 est vraie)
=
=
Analyses de donnes
l X <
)

l
n

X
n ( P
0 0

<

l
n ) 1 ; 0 ( N ( P
0

<
6 Infrence : test dhypothses
Test sur un paramtre
Exemple : test sur la moyenne dune population de variance connue
Dtermination du seuil critique :
tant fix, on en dduit la valeur de et donc de l.
Analyses de donnes

l
n
0