DM - 00 - Résumé

Data Mining
DM - Résumé
I. Apprentissage non supervisé

1. Mesure de distance entre clusters
Plus proche voisin : Diamètre maximum :
( ) { ( ) } ( ) { ( ) }
Distance des centres de gravité :
( ) ( ) Distance de Ward :
Distance moyenne : ( ) ( )
√
∑ ∑ ( )
( )
2. Qualité d’un clustering

Inertie intra-cluster (within) : Inertie inter-cluster (between) :
Variance des points dans leur cluster Eloignement des centres de gravité
∑ ( ) ∑ ∑ ( )
II. Apprentissage supervisé

1. Décision Bayésienne
a. Définitions et formules
{ } { } ( )
Classes Espace des Ensemble des actions Coût de l’action pour une
caractéristiques observation de
( | ) ( )
( ) ( | ) ( | ) ( ) ∑ ( | ) ( )
( )
Proba. à Proba. à posteriori Loi conditionnelle de Loi marginale de
priori à
( ) ∫ ( ( )| ) ( )
( | ) ∑ ( | ) ( | )
Risque conditionnel de l’action Risque moyen d’une règle de décision Règle de décision de bayes
pour
b. Discrimination entre 2 classes
( | ) ( ) ( ) ( )
( ) ( ) {
( | ) ( ) ( ) ( )
c. Classification binaire à coût 0-1 et rejet
Classification binaire Classification binaire avec rejet ( )
( | ) ( | )
( | ) ( | )
Risques ( | ) ( | )
( | ) ( | )
( | )
( | ) ( | )
( | ) ( ) { ( | ) ( | )
Décision ( ) {
[ ] [ ]
Thomas v1
ROBERT Page 1
Data Mining
DM - Résumé
d. Cas gaussien et fonctions discriminantes

i. Matrices de covariance identiques : LDA
( ) ( | ) ( ) ( )
ii. Matrices de covariance différentes : QDA

( ) | | ( )
III. Régression logistique

( | )
[ ] ( | ) ( | ) {
( | )
̃ ∑ ( ) ( ) ∑ ( ) ̃ ̃
IV. SVM
{ } On veut une frontière de décision linéaire ( )
La distance du point au plan séparant les données ( ( ) ) est :
( )
( )
‖ ‖ ‖ ‖ ‖ ‖
On veut ( ) | ( )| ( ) ] [ ] [ La marge est ‖ ‖
∑ ∑
‖ ‖
( )
∑
Les vecteurs supports sont ceux tel que ( )
se détermine grâce aux vecteurs supports. √∑
Cas non séparable :

On rajoute une variable de relâchement et un coefficient de pénalité
∑ ∑
‖ ‖
( )
∑
pour les points mal classés.

Thomas v1
ROBERT Page 2
Data Mining
DM - Résumé
V. Dérivées
1. Dérivée première
a. Gradient
( ) [ ]
Propriété : Au point , ( ) est ⏊ à la ligne de niveau, son sens va dans le sens de croissant.
b. Dérivée directionnelle
( )
( ) ( ) ⏞( )
( ) ( ) ( )
c. Règles de calcul pour la dérivée

( ) ( ( )) ( ) ( )
2. Dérivées secondes
a. Dérivée directionnelle au sens de Gâteaux
( ) ( )
( )
b. Matrice Hessienne
( )
[ ( )]
Calcul partique : A partir de la dérivée de ( ) ( ), identifier ( ) ( )

c. Développements limités
( ) ( ) ( ) ( ) ( )
VI. Généralités sur l’optimisation

variables, contraintes d’égalité, contraintes d’inégalité
Contraintes ( ) ( ) ( )
{ {
( ) ( ) ( )
Domaine de faisabilité { ( ) ( ) }
Fonction coût
Domaine de la fonction coût { ( ) }
Si , fonction coût impropre : pas de solution
Minimum global ( ) ( )
Minimum local ̂ ( ̂) ( ) | ‖̂ ‖
Thomas v1
ROBERT Page 3
Data Mining
DM - Résumé
VII. Optimisation convexe sans contraintes

1. Condition d’optimalité
a. Existence de solution
est coercivité ‖ ‖ ( ) (f f à ’ f )
est propre | ( )
solution globale Si continue, propre, coercive, ( ) admet une solution globale
b. Conditions d’optimalité
1er ordre ( )
2ème ordre ( ) ( ) f
( ) ( ) f
Convexité est convexe et ’
solution globale
2. Optimisation itérative
( )
i.
Direction de descente ( )
 Gradient : ( )
 Gradient conjugué : ( )
 Quasi-Newton : ( ( ) ) ( )
 Newton : ( )
VIII. Optimisation convexe sous contraintes

1. Avec contraintes d’égalités
Problème Lagrangien Conditions d’optimalité
( ) ( ) ( ) ∑ ( ) ( ) ∑ ( )
{
( )
multiplicateurs de Lagrange ( )
2. Avec contraintes d’inégalités
a. Lagrangien et conditions d’optimalité
Problème Lagrangien Conditions d’optimalité KKT
Stationarité : ( )
( ) ( )
( ) ( ) ∑ ( ) ∑ ( Adm.
) primale :
( )
{ ( )
( ) Adm. duale :
multiplicateurs de Lagrange
Complémentarité : ( )
b. Problème dual
Le problème dual est ( ) ( )
Thomas v1
ROBERT Page 4

DM - 00 - Résumé

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

DM - 00 - Résumé

Transféré par

Droits d'auteur :

Formats disponibles

Data Mining

I. Apprentissage non supervisé

2. Qualité d’un clustering

II. Apprentissage supervisé

d. Cas gaussien et fonctions discriminantes

ii. Matrices de covariance différentes : QDA

III. Régression logistique

On veut ( ) | ( )| ( ) ] [ ] [ La marge est ‖ ‖

Les vecteurs supports sont ceux tel que ( )

se détermine grâce aux vecteurs supports. √∑

Cas non séparable :

pour les points mal classés.

c. Règles de calcul pour la dérivée

Calcul partique : A partir de la dérivée de ( ) ( ), identifier ( ) ( )

VI. Généralités sur l’optimisation

VII. Optimisation convexe sans contraintes

VIII. Optimisation convexe sous contraintes

Vous aimerez peut-être aussi