Vous êtes sur la page 1sur 16

Outils Statistiques

du
Data Mining
Pr Roch Giorgi
roch.giorgi@univ-amu.fr

SESSTIM, Facult de Mdecine, Aix-Marseille Universit, Marseille, France


http://sesstim-orspaca.org
http://optim-sesstim.univ-amu.fr

Introduction (1)

Data Mining
Prospection ou fouille de donnes

Objectif
Valorisation dune grande base de donnes
Valorisation dun entrept de donnes (data warehouse)
Pour la recherche dinformations pertinentes pour laide
la dcision

Contexte
Mdical : facteurs tiologiques, pronostiques, mdicoconomiques, gnomiques,
Industriel, astrophysique,

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Introduction (2)

Techniques utilises pour reprsenter, analyser


plus simplement les relations entre
1 variable expliquer par rapport plusieurs variables
explicatives
Des variables entre elles

Existence de logiciels cl en main (www.kdnuggets.com)


Trouvent toujours une rponse la question :
Comment trouver un diamant dans un tas de
charbon sans se salir les mains ?
Ncessit de connatre la dmarche danalyse, les
principales mthodes, leurs bases mthodologiques

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Mthodes Statistiques Utilises (1)

Statistique descriptive unifactorielle


Fonction du type de variable (qualitative, quantitative)
Statistiques de position (moyenne, mdiane, ) ou de
dispersion (variance, tendue, )
Reprsentations graphiques (histogramme, box-plot, )

Statistique descriptive multifactorielle


Entre 2 variables (fonction du type)

Nuage de point, covariance, corrlation,


Box-plot parrallles, rapport de corrlation,
Tableau de contingence, chi-deux,

Entre plusieurs variables

Matrices des covariances, des corrlations


Tableaux de nuages,

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Mthodes Statistiques Utilises (2)

Modlisation multifactorielle
Contexte de lestimation de paramtres associs aux
variables tudies
Rgression logistique

Variable expliquer binaire


Variables explicatives quantitatives ou qualitatives

Rgression multiple

Variable expliquer quantitative


Variables explicatives quantitatives ou qualitatives

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Mthodes Statistiques Utilises (3)

Analyse factorielle
Principe de rduction dun ensemble variable formant un
espace de dimension N un espace de dimension rduit
Analyse en composantes principales (ACP)

Pour des variables quantitatives ou ordinales


Pour rduire le nombre de variables en tenant compte de la
variance totale

Analyse factorielle (AF)

Pour des variables quantitatives ou ordinales


Pour expliquer la variance commune entre entre les variables

Analyse des correspondances (AC)

Pour des variables qualitatives

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Mthodes Statistiques Utilises (4)

Mthodes de classification
Base sur la recherche dune partition des individus en
classes homognes
Classification hirarchique

Pour des variables quantitatives ou qualitatives

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Mthodes Statistiques Utilises ()

Intelligence artificielle
Rseaux neuronaux
Reconnaissance de formes

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Les Diffrentes tapes


1. Comprhension du domaine dapplication
2. Cration du sous-ensemble cible de donnes
D 3. Nettoyage des donnes (erreurs, donnes manquantes,
A
valeurs atypiques)
T
A 4. Transformation des donnes (normalisation,
linarisation, dcoupage en classes, compression)
M
5. Explicitation de lobjectif et de la stratgie danalyse
I
N 6. Choix des mthodes
I 7. Test, en prcisant les critres
N
G 8. Exploitation
9. Diffusion

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Objectifs des Mthodes Statistiques

Exploration
Statistique descriptive unifactorielle, multifactorielle

Modlisation
Rgression logistique, rgression multiple, ACP, AF, AC

Classification
Classification hirarchique

Recherche de formes
Rseaux neuronaux

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Data Mining et Donnes

Souvent pralables ltude


Peuvent avoir t recueillies dautres fins
Volume souvent important (nombre de variables et
dobservations)
Traitement exhaustif : problme algorithmique possible
Traitement aprs sondage : perte de linformation
pertinente possible si elle concerne des groupes de faible
effectif

La taille des donnes influe sur le choix des


mthodes
Exemple : le nombre de paramtres que lon peut
estimer en rgression augmente avec la taille de
lchantillon

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Choix dune Mthode

Il ny a pas de meilleure mthode


Ont une certaine robustesse par rapport leur
proprits intrinsques et leurs hypothses de base
Essayer une mthode de chaque grande famille
Comparer les rsultats obtenus entre eux

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Choix dun Modle

Choix des variables analyser


Choix des ventuelles interactions tester
Critres spcifiques aux mthodes (nombre de
composantes, nombre de feuilles dun arbre de
dcision, )
Objectifs
Minimiser les erreurs de classement, de prvision
Slection dun modle parcimonieux : compromis entre
lajustement aux donnes et la variance des estimations
des paramtres pour amliorer la qualit des prdictions

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Dmarche de Choix dun Modle

chantillonnage alatoire de lchantillon global (N)


en 3 parties
Phase dapprentissage (n1/N)
Estimation du modle

Phase de validation (n2/N)


Optimisation du modle

Phase de test (n3/N)


Test de ladquation du modle aux donnes

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Automatisation

Logiciels de fouille de donnes


Ergonomie simplifie le travail
Automatisation toujours tentante mais
Intervention analytique humaine indispensable pour
Vrifier intgrit et cohrence des donnes
Traiter les donnes manquantes
Transformer les donnes
Choisir des critres destimation propres aux mthodes
Choisir le modle final (un modle sera toujours trouv
mais est-il adapt, interprtable, )

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit

Sources

Besse P, Le Gall C, Raimbault N, Sarpy S. Data Mining et


Statistique. Journal de la Socit Franaise de Statistique
2001;142:5-36.
http://www.lsp.ups-tlse.fr/Besse/enseignement.html
www.kdnuggets.com

Roch Giorgi, SESSTIM, Facult de Mdecine, Aix-Marseille Universit