Vous êtes sur la page 1sur 38

USA - Module “Modélisation et statistique Multidimentionnelle” - Niveau 2

Panorama du Data Mining


Data intelligence 

Mohcen MENAA, PhD.st

RNAMS Laboratory, Faculty of Sciences, Larbi Ben M’Hidi


University of Oum El Bouaghi

P.O. 321, Canstantine Road, Oum El Bouaghi, Algeria


Introduction
La statistique, naguère confinée dans les études
de laboratoire, les expérimentations cliniques,
l'actuariat et certaines analyses de risque…

…envahit aujourd'hui avec le data


mining de nombreux domaines:
Data mining (Eng)
=
Fouille de données (Fr)
Introduction

qui vont…
- De l’infini petit
À l’infiniment grand
- Du plus quotidien
Au plus technologique
- Du plus ouvert
Au plus sécuritaire
- Du plus industriel
Au plus théorique
- et du plus alimentaire
Au plus divertissant
Introduction
A cette simple énumération, on devine que le
spectre des applications du data mining et de la
statistique est très large…

Les plus concernés sont les secteurs où d'importants


volumes de données doivent être analyses,

parfois en vue de prendre des décisions rapides comme


le montrent certains des exemples précédents…
Introduction

L'aide a la décision devient une finalité du


data mining et de la statistique, dont on n'attend
plus seulement (ou plus nécessairement)
qu'ils aident a comprendre le réel en le
modélisant….
Le data mining permet de limiter ‘la subjectivité
humaine’ dans les processus de décision, et aussi,

… grâce a la puissance grandissante des outils


informatiques, de traiter de plus en plus rapidement de
grands nombres de dossiers.
Introduction

Tous ces exemples ont en commun de nécessiter


l'exploration et l'analyse de bases de données
souvent grandes, qui sont stockées
informatiquement…

Pour cela, des méthodes scientifiques et des outils de


calcul ont été développés et regroupés dans la discipline
appelée data mining, terme que l'on traduit parfois en
français par fouille de données.
Introduction

II s'agit bien d'extraction « intelligente» et non de simple


présentation de résultats chiffrés , de statistiques (au
pluriel, pour distinguer ces résultats de la discipline…qui s‘écrit
au singulier), de sondages, d‘états des ventes, de cours de bourse,
d'indicateurs macro-économiques, de relevés météorologiques ...

En revanche, le data mining intervient dés que, partant de


certaines de ces données brutes, on tente d'aller du connu vers
l'inconnu et de se livrer à des prédictions ou des analyses de
 tendance plus fouillées.
Introduction

Une partie du data mining consiste d'ailleurs à


modéliser le passé afin de prédire l'avenir…

…on souhaite par exemple trouver des règles recelées dans les
masses de données dont on dispose sur les anciens souches
bactériennes, afin de les appliquer à de nouvelles souches
bactériennes et prendre les meilleures décisions possibles.

Au lieu des bactéries dans un laboratoire, on peut aussi


s'intéresser à des types d'engrais dans une plantation, des
molécules chimiques dans un tube à essai, des
patients dans un hôpital...

Le champ d'investigation du data mining est


immense!!!
A quoi sert le data mining?

A quoi sert le data mining?

Les avantages procurés par l'utilisation des règles et des


modèles découverts à l'aide du data mining sont
multiples, dans de nombreux domaines.
 
 

a) Le data mining par secteur d'activité

b) Le data mining par type d'application


A quoi sert le data mining?

Le data mining par secteur d'activité

L'industrie automobile utilise assez couramment le data


mining. Un thème classique est le score de rééachat d'un
véhicule de la marque Renault. Renault a ainsi construit
un modèle prédisant les clients susceptibles d'acheter un
nouveau véhicule Renault dans les six moi à venir. Ces
clients sont identifies à partir des données des
concessionnaires, lesquels reçoivent en retour une liste de
clients au score élevé, qu'ils peuvent alors contacter. Dans
le domaine de la production, le data mining est utilisé pour
rechercher l'origine des défauts de construction du
véhicule, de façon à pouvoir les minimiser.
 
A quoi sert le data mining?

Le data mining par secteur d'activité

Le secteur médical est traditionnellement grand


utilisateur de statistique. Le data mining y est donc
naturellement répandu, tant dans les applications
descriptives que prédictives. Parmi les premières, on
rencontre la détermination de groupes de patients
susceptibles d'être soumis à des protocoles
thérapeutiques déterminés, chaque groupe rassemblant
tous les patients réagissant de la même façon.
 
A quoi sert le data mining?

Le data mining par secteur d'activité

On a aussi les études sur les associations de médicaments,


en vue notamment de détecter des anomalies de
prescription. Parmi les applications prédictives, on
trouve la recherche des facteurs de décès ou de survie
dans certaines pathologies (infarctus, cancers ... ), à partir
des données recueillies lors des essais cliniques, afin de
choisir le traitement le plus approprie en fonction de la
pathologie et de l'individu.  
A quoi sert le data mining?

Le data mining par secteur d'activité

De façon générale, la biologie utilise beaucoup la


statistique. On la rencontre depuis longtemps dans la
classification des espèces vivantes et nous reparlerons
de l'exemple classique du classement de trois espèces
d‘Iris par Fisher grâce à son analyse discriminante
linéaire. L'agronomie demande à la statistique d'évaluer
rigoureusement l'effet d'engrais ou de pesticides. Autre
utilisation du data mining à la mode: la détection des
facteurs expliquant la pollution de l'air.
 
A quoi sert le data mining?

Le data mining par type d'application

Comme le domaine médical, l‘industrie utilise aussi les


analyses de survie, pour prédire ici la durée de vie d'une
pièce manufacturée;
•le profilage des demandeurs d'emploi afin de détecter les
chômeurs ayant les plus forts risques de chomage de
longue durée et de les aider le plus rapidement possible et
de manière adaptée à leur situation personnelle ;
A quoi sert le data mining?

Le data mining par type d'application

• La reconnaissance de motifs ou formes (« patterns »)


dans de grands volumes de données, par exemple en
astrophysique pour classer en « étoile» ou « galaxie »
un nouveau corps céleste découvert au télescope
(système SKICAT s'appuyant sur quarante
caractéristiques mesurées) ;
•la reconnaissance du signal, dans le domaine militaire,
pour distinguer les vraies cibles des fausses.
 
 
A quoi sert le data mining?

Le data mining par type d'application

Une application (plus) amusante du data mining


concerne la prédiction des parts d'audience d'une
chaine de télévision (BBC) pour une nouvelle émission,
en fonction des caractéristiques de l'émission (genre,
horaire, durée, présentateur ... ), des programmes
précédent et suivant cette émission sur la même
chaine, des programmes diffusés simultanément sur les
chaines concurrentes, des conditions météorologiques. de
l'époque de l'année (saison, vacances ... ) et des
grands événements ou manifestations se déroulant au
même moment.
 
USA - Module “Modélisation et statistique Multidimentionnelle” - Niveau 2

La régression linéaire
Regression to the mean

Mohcen MENAA, PhD.st

RNAMS Laboratory, Faculty of Sciences, Larbi Ben M’Hidi


University of Oum El Bouaghi

P.O. 321, Canstantine Road, Oum El Bouaghi, Algeria


Introduction
Introduction

Regression towards mediocrity in hereditary stature, Journal of the


Anthropological Institute 15 : 246-63 (1886)
Introduction

La méthode de la régression a pour but de décrire la


relation entre une variable aléatoire dépendante (y) et un
ensemble de variables indépendantes ou prédictives x. Le
modèle obtenu permet d’estimer la valeur de y à l’aide
des variables prédictives x1, x2, … , xm.

Lorsque l’estimation est fondée sur plusieurs variables prédictives,


le problème en est un de régression multiple. x1
Modèle: x2 y
x3
Si le problème n’implique qu’une seule variable
prédictive, utilisée simplement au premier degré (et
non pas sous la forme x2, x3, etc.), il s’agit de
régression linéaire simple. Modèle: x →y
Introduction

La régression est une forme de modélisation. Elle


peut avoir plusieurs objectifs:

• Description: trouver le meilleur modèle fonctionnel liant la


variable dépendante y à la (aux) variable(s) indépendante(s)
x. Estimer la valeur la plus probable des paramètres du
modèle, ainsi que leur intervalle de confiance.

• Inférence: tester des hypothèses précises se rapportant


aux paramètres du modèle dans la population statistique:
ordonnée à l’origine, pente(s).

• Prédiction: prévoir ou prédire les valeurs de la variable


dépendante pour de nouvelles valeurs de la (des) variable(s)
indépendante(s).
Un exemple : la pollution de l’air

Un exemple : la pollution de l’air


La pollution de l’air constitue actuellement une des
préoccupations majeures de santé publique. De nombreuses
études épidémiologiques ont permis de mettre en évidence
l’influence sur la santé de certains composés chimiques: SO2,
NO2, O3 ou des particules sous forme de poussières
contenues dans l’air.

L’influence de cette pollution est notable sur les


personnes sensibles (nouveau-nés, asthmatiques,
personnes âgées).
Un exemple : la pollution de l’air

Un exemple : la pollution de l’air


La prévision des pics de concentration de ces composés est
donc importante. Nous nous intéressons plus particulièrement à
la concentration en ozone.
La ??? est fonction de la ??? ; plus la température est élevée,
plus la concentration est importante. Cette relation très vague
doit être améliorée afin de pouvoir prédire les pics d’ozone.

Afin de mieux comprendre ce phénomène, l’association


Air Breizh (surveillance de la qualité de l’air en
Bretagne) mesure depuis 1994 la concentration en O3
(en μg/ml) toutes les 10 minutes et obtient donc le
maximum journalier de la concentration en O3
Un exemple : la pollution de l’air

Un exemple : la pollution de l’air


Air Breizh collecte également à certaines heures de la journée des
données météorologiques comme la température, la nébulosité,
le vent... Les données sont disponibles en ligne. Le tableau
suivant donne les 5 premières mesures effectuées.

Tableau 1.1 – 5 données de température à 12 h et teneur


maximale en ozone.
Un exemple : la pollution de l’air

Un exemple : la pollution de l’air

Nous allons donc chercher à expliquer le maximum de O3 de


la journée par la température à 12 h. Le but de cette
régression est double :

– ajuster un modèle pour expliquer la concentration en O3 en


fonction de T12 ;

– prédire les valeurs de concentration en O3 pour de


nouvelles valeurs de T12.
Un exemple : la pollution de l’air

Avant toute analyse, il est intéressant de représenter les données.

Chaque point du graphique (fig.1.1) représente, pour un jour donné,


une mesure de la température à 12 h et le pic d’ozone de la journée.
Pour analyser la relation entre les xi (température) et les yi (ozone),
nous allons chercher une fonction f telle que:
Un deuxième exemple : la hauteur des arbres

Un deuxième exemple : la hauteur des arbres


Cet exemple utilise des données fournies par l’UR2PI et le
CIRAD forêt. Lorsque le forestier évalue la vigueur d’une
forêt, il considère souvent la hauteur des arbres qui la
compose.
Plus les arbres sont hauts, plus la forêt ou la plantation
produit. Pour mesurer la hauteur d’un arbre d’une
vingtaine de mètres n’est pas aisé et demande un
dendromètre.

Nous possédons des mesures sur des eucalyptus dans une


parcelle plantée et nous souhaitons à partir de ces mesures
élaborer un modèle de prévision de la hauteur.
Un deuxième exemple : la hauteur des arbres

Un deuxième exemple : la hauteur des arbres


Les eucalyptus étant plantés pour servir de matière première
dans la pâte à papier, ils sont vendus au volume de bois. Il
est donc important de connaître le volume et par là même la
hauteur, afin d’évaluer la réserve en matière première dans la
plantation.

Les surfaces plantées sont énormes, il n’est pas question


de prendre trop de temps pour la mesure et prévoir la
hauteur par la circonférence est une méthode permettant la
prévision du volume sur pied. La parcelle d’intérêt est
constituée d’eucalyptus de 6 ans, âge de « maturité » des
eucalyptus, c’est-à-dire l’âge en fin de rotation avant la
coupe.
Un deuxième exemple : la hauteur des arbres

Un deuxième exemple : la hauteur des arbres


Dans cette parcelle, nous avons alors mesuré n = 1429
couples circonférence-hauteur. Le tableau suivant donne les 5
premières mesures effectuées.

Tableau 1.2 – Hauteur et circonférence (ht et circ) des 5 premiers


eucalyptus.
Un deuxième exemple : la hauteur des arbres

Un deuxième exemple : la hauteur des arbres


Nous souhaitons expliquer la hauteur par la circonférence. Avant
toute modélisation, nous représentons les données. Chaque point
représente une mesure du couple cir/ht sur un eucalyptus.

Fig. 1.2 – Représentation des mesures pour les n = 1429


eucalyptus mesurés.
Modélisation statistique

Modélisation statistique
Lorsque nous ajustons par une droite les données, nous
supposons implicitement qu’elles étaient de la forme.
Y = β1 + β2X.

 
Modélisation statistique

Modélisation statistique
Nous supposons alors que la concentration d’ozone dépend
linéairement de la température mais cette liaison est perturbée
par un « bruit ». Nous supposons en fait que les données
suivent le modèle suivant :

Y = β1 + β2X + ε. (1.2)

Nous supposons que nous avons collecté n couples de


données (xi, yi) où yi est la réalisation de la variable aléatoire
Yi. Par abus de notation, nous confondrons la variable aléatoire
Yi et sa réalisation, l’observation yi. Avec la notation εi, nous
confondrons la variable aléatoire avec sa réalisation. Suivant le
modèle (1.2), nous pouvons écrire

yi = β1 + β2xi + εi, i = 1, · · · , n
Modélisation statistique

Modélisation statistique

– les xi sont des valeurs connues non aléatoires ;
– les paramètres βj, j = 1,2 du modèle sont inconnus ;
– les εi sont les réalisations inconnues d’une variable aléatoire ;
– les yi sont les observations d’une variable aléatoire.
Estimateurs des moindres carrés

Estimateurs des moindres carrés


On appelle estimateurs des moindres carrés (MC) de β1 et β2,
les estimateurs et

yi = β1 + β2xi + εi, i = 1, · · · , n
Estimateurs des moindres carrés

Estimateurs des moindres carrés


On appelle estimateurs des moindres carrés (MC) de β1 et β2,
les estimateurs et

Une fois déterminés les estimateurs, nous pouvons estimer la droite


de régression par la formule
Estimateurs des moindres carrés

Estimateurs des moindres carrés


Si nous évaluons la droite aux points xi ayant servi à estimer
les paramètres, nous obtenons des ŷi et ces valeurs sont
appelées les valeurs ajustées. Si nous évaluons la droite en
d’autres points, les valeurs obtenues seront appelées les
valeurs prévues ou prévisions. Représentons les points initiaux
et la droite de régression estimée.
La droite de régression passe par le centre de gravité du nuage
de points (x,ȳ) comme l’indique l’équation (1.3).
Estimateurs des moindres carrés

Estimateurs des moindres carrés


Estimateurs des moindres carrés

Estimateurs des moindres carrés


Nous avons réalisé une expérience et avons mesuré n
valeurs (xi, yi). A partir de ces n valeurs, nous avons
obtenu un estimateur de β1 et de β2. Si nous refaisions une
expérience, nous allons mesurer n nouveaux couples de
données (xi, yi). A partir de ces données, nous aurions un
nouvel estimateur de β1 et de β2. Les estimateurs sont
fonction des données mesurées et changent donc avec les
observations collectées (fig. 1.9). Les vraies valeurs de β1
et β2 sont inconnues et ne changent pas.
Estimateurs des moindres carrés

Estimateurs des moindres carrés

Vous aimerez peut-être aussi