Vous êtes sur la page 1sur 30

INTELLIGENCE ARTIFICIELLE ET SYSTÈMES EXPERTS

I. DATA MINING
MÉTHODES DESCRIPTIVES

ANALYSE
EN COMPOSANTES
PRINCIPALES
Mohamed Heny SELMI
DEUX FAMILLES
DE TECHNIQUES
Méthodes Méthodes
Descriptives Prédictives
Arbres de Décisions

Analyse en
Composantes
Principales ACP
Analyse Discriminante

Méthodes des Centres


Mobiles Régression Linéaire
K-means

Régression Logistique
Classification
Ascendante
Hiérarchique
Réseaux de Neurones

Mohamed Heny SELMI © ESPRIT 2012-2013


OBJECTIFS DES
TECHNIQUES DESCRIPTIVES
visent à mettre en évidence des informations présentes mais cachées par
le volume des données

il n’y a pas de variable « cible » à prédire

projection du nuage de points sur un espace de dimension inférieure


pour obtenir une visualisation de l’ensemble des liaisons entre variables
tout en minimisant la perte d’information
trouver dans l’espace de travail des groupes homogènes d’individus ou
de variables

détection d’associations entre des objets

Mohamed Heny SELMI © ESPRIT 2012-2013


INTRODUCTION

Mapping de Rn dans Rk : avec k<=n.

Projection dans un espace 2D d'un problème a n dimensions.

Système d'axes indépendants.

Réduction de la dimensionnalité d'un problème.

Perte d'information.

Décomposition en valeurs propres.


Le nouvel espace est une combinaison linéaire de l'espace
d'origine.

Mohamed Heny SELMI © ESPRIT 2012-2013


INTÉRÊT DE L’ACP

Représentation assez fidèle des individus d’une population en 2 ou 3


dimensions via de nouvelles variables appelées composantes principales.

Détection des facteurs les plus pertinents dans une dynamique observée

Mesure du taux de dépendance entre les variables

Mohamed Heny SELMI © ESPRIT 2012-2013


PROBLÉMATIQUE

Difficulté à mettre en évidence les relations globales


existant entre les variables dès que p>3,
car c’est impossibles à visualiser.

Mohamed Heny SELMI © ESPRIT 2012-2013


OBJECTIFS
 Condenser l’information du tableau de manière à retirer les relations
vraiment caractéristiques (proximités entre variables et individus),
ceci en limitant la perte d’information.
 Déterminer un sous-espace de dimension q<p
(q nouveaux axes) sur lequel projeter les nuages de points relatifs au
tableau de données qui soit :
 « compréhensible » par l’œil: q faible, de préférence q=1,2 ou 3
 le moins déformant possible (projection la plus fidèle possible)

Ce sous-espace est appelé espace factoriel du nuage.

Mohamed Heny SELMI © ESPRIT 2012-2013


CONSTRUCTION DE L’ESPACE
FACTORIEL
On effectue un changement de repère, passant du repère défini par les p
variables à un repère de dimension p le moins déformant possible pour le
nuage.

Il est défini par p nouveaux axes, appelés axes factoriels.

On retient ensuite les q premiers axes du nouveau repère, ce qui nous


donnera l’espace factoriel de dimension q.

Il permet de récupérer les liens les plus significatifs contenus dans le tableau

Mohamed Heny SELMI © ESPRIT 2012-2013


CONSTRUCTION DE L’ESPACE
FACTORIEL
Les p axes factoriels sont définis séquentiellement :
1. On détermine l’axe (premier axe factoriel) sur lequel le nuage se déforme
le moins possible en projection,
2. On cherche un second axe, sur lequel le nuage se déforme le moins en
projection, après le premier axe, tout en étant orthogonal au premier,
3. On réitère jusqu’à l’obtention de p axes.

Dans le second repère, les axes ne véhiculent pas la même information selon
leur rang : leur capacité à « résumer » le nuage se dégrade au fur et à mesure
que l’on observe des axes de rang élevé.

Mohamed Heny SELMI © ESPRIT 2012-2013


MATRICE DE DONNÉES
On possède un tableau rectangulaire dont :
 les colonnes sont des variables quantitatives
(mensurations, taux,…)
 les lignes représentent des individus statistiques
(unités élémentaires telles que des êtres humains, des pays, des années…)

Mohamed Heny SELMI © ESPRIT 2012-2013


LES ÉTAPES DE L'ACP

Choix du tableau X

Analyse directe : Construction de l’espace factoriel du nuage de points


individus associé au tableau . On garde pour l’instant les p axes factoriels

Analyse duale : Construction de l’espace factoriel du nuage de points


variables : elle est déduite de la première

Interprétation de ces analyses : choix du nombre d’axes q à retenir,


construction des nuages de points projetés sur ces axes, interprétation des
axes principaux et étude des proximités entre points.

Synthèse des résultats, construction éventuelle du tableau réduit


(tableau des composantes principales) et visualisation des nuages de points
associés.

Mohamed Heny SELMI © ESPRIT 2012-2013


EXPLICATION DES
COMPOSANTES PRINCIPALES
Les composantes principales : permettent d’exprimer les
variables initiales selon de nouveaux axes: les axes principaux, qui
sont les vecteurs propres de la matrice :

- des covariances si on a des données hétérogènes, avec des ordres de


grandeur différents

- des corrélations lorsque les unités de mesure ne sont pas les mêmes pour
toutes les variables

Mohamed Heny SELMI © ESPRIT 2012-2013


INTERPRÉTATION DES
RÉSULTATS
 La décomposition précédente est faite par des logiciels
statistiques (R , SAS….).

 Non automatique (interprétation des résultats):


 Choisir le nombre q d’axes factoriels (ou de composantes principales) à
retenir pour obtenir un résumé suffisamment précis de l’information
contenue dans le tableau initial
 Construire les graphiques
 Donner une signification aux nouvelles variables.
 Evaluer la qualité de ce résumé

Mohamed Heny SELMI © ESPRIT 2012-2013


ETUDES DE CAS

Mohamed Heny SELMI © ESPRIT 2012-2013


1. ETUDES DE LA CONSOMMATION DE PROTÉINES EN EUROPE
Ce fichier de données donne les mesures de la consommation de protéines dans 25 pays européens par rapport à 9 groupes d’aliments

Mohamed Heny SELMI © ESPRIT 2012-2013


CHOIX DU NOMBRE D’AXES À RETENIR

Deux critères empiriques pour sélectionner le nombre d’axes :


- Critère de Kaiser: on ne retient les axes associés à des valeurs propre supérieures à 1
- Critère du coude : sur l’évolution des valeurs propres, on observe un décrochement (coude) suivi
d’une décroissance régulière. On sélectionne les axes avant le décrochement

Mohamed Heny SELMI © ESPRIT 2012-2013


CHOIX DU NOMBRE D’AXES À RETENIR

Deux critères empiriques pour sélectionner le nombre d’axes :


- Critère de Kaiser: on ne retient les axes associés à des valeurs propre supérieures à 1
- Critère du coude : sur l’évolution des valeurs propres, on observe un décrochement (coude) suivi
d’une décroissance régulière. On sélectionne les axes avant le décrochement

Mohamed Heny SELMI © ESPRIT 2012-2013


CHOIX DU NOMBRE D’AXES À RETENIR

Conclusion :
On peut retenir 4 axes, qui
représentent presque 86%
de l’inertie totale
(on explique 86% de l’information du
tableau)

Mohamed Heny SELMI © ESPRIT 2012-2013


CONSTRUCTION DES PROJECTIONS
SUR LES PLANS FACTORIELS

Chaque nuage de points (variables et individus) est construit en projection


sur les plans factoriels

un plan factoriel est un repère du plan défini par deux des q axes factoriels
retenus.

L’examen des plans factoriels permettra de visualiser les corrélations entre


les variables et d’identifier les groupes d’individus ayant pris des valeurs
proches sur certaines variables.

Mohamed Heny SELMI © ESPRIT 2012-2013


CONSTRUCTION DES NUAGES DE POINTS PROJETÉS
1X2

Plus les variables sont proches du bord du cercle et plus les variables sont bien
représentées par le plan factoriel, c'est-a-dire que la variable est bien corrélée avec les
deux facteurs constituant ce plan.
Mohamed Heny SELMI © ESPRIT 2012-2013
CONSTRUCTION DES NUAGES DE POINTS PROJETÉS
1X3

Comment interpréter la proximité entre les points


(individus et variables) ?

Mohamed Heny SELMI © ESPRIT 2012-2013


ETUDE DE PROXIMITÉ ENTRE LES POINTS

Regarder les graphiques et analyser plus finement les proximités


entre points.

Un point est dit bien représenté sur un axe ou un plan factoriel


s’il est proche de sa projection sur l’axe ou le plan. S’il est
éloigné, on dit qu’il est mal représenté.

Indicateur = angle formé entre le point et sa projection sur l’axe :

au plus il est proche de 90 degrés, au moins le point est bien représenté

L’analyse se fera à l’aide des individus et variables contribuant


le plus à l’axe : si une variable a une forte contribution positive à
l’axe, les individus ayant une forte contribution positive à l’axe
sont caractérisés par une valeur élevée de la variable.

Mohamed Heny SELMI © ESPRIT 2012-2013


ETUDES DE PROXIMITÉ ENTRE LES POINTS

Qualité de représentation de l’individu i sur l’axe k :

 Lorsque l’angle est proche de 0, c'est-à-dire que l’individu est


bien représenté, le cosinus est proche de 1.
 Dans le cas inverse, l’angle est proche de 90° et le cosinus est
proche de 0.

Mohamed Heny SELMI © ESPRIT 2012-2013


ETUDES DE PROXIMITÉ ENTRE LES POINTS

 La proximité dans l’espace entre deux individus bien représentés traduit la

ressemblance de ces deux individus du point de vue des valeurs prises par les

variables. Lorsque la qualité de représentation de deux individus est bonne, leur

proximité observée retrace leur proximité réelle (dans l’espace).

 La proximité entre deux variables sur un axe donne, si les deux variables sont bien

représentées sur l’axe ( proches de l’axe et du bord du cercle) , une approximation de

leur corrélation.

– Deux variables proches sont corrélées positivement

– Deux variables qui s’opposent sont corrélées négativement

– Deux variables orthogonales sont non corrélées.


Mohamed Heny SELMI © ESPRIT 2012-2013
QUALITÉ DE REPRÉSENTATION : EXEMPLE

Mohamed Heny SELMI © ESPRIT 2012-2013


ÉTUDE DES POINTS BIEN REPRÉSENTÉS
1X2

Carte des individus Cercle de corrélation

Les pays de l'Europe du nord


les Balkans ayant une importante
et de l’ouest consomment de la
consommation de graines
viande, des œufs et du lait

Mohamed Heny SELMI © ESPRIT 2012-2013


ÉTUDE DES POINTS BIEN REPRÉSENTÉS
1X3 Cercle de corrélation

Carte des individus


Les pays scandinaves
consomment beaucoup le lait et Les pays de l'Europe de l’Est
la viande rouge consomment beaucoup
les noix et les céréales
Mohamed Heny SELMI © ESPRIT 2012-2013
2. ÉTUDES D’UN ÉCHANTILLON DE VOITURES

 On propose d’analyser un échantillon de 37 véhicules caractérisés par 11 variables


quantitatives via une Analyse en Composantes Principales.

 Liste des variables actives :


PUIS puissance,
CYLI cylindrée,
VITE vitesse,
LONG longueur,
LARG largeur,
HAUT hauteur,
POID poids,
COFF coffre,
RESE réservoir,
CONS consommation,
CO2 emission_CO2

 Liste des variables illustratives : PRIX prix

Mohamed Heny SELMI © ESPRIT 2012-2013


TABLEAU DES VALEURS PROPRES

Mohamed Heny SELMI © ESPRIT 2012-2013


Cercle de corrélation

Carte des individus

Mohamed Heny SELMI © ESPRIT 2012-2013