Vous êtes sur la page 1sur 2

L’analyse de données est l’ensemble de méthodes  Régression simple et multiple : expliquer et prédire les

statistiques ayant pour objectif de résumer et visualiser valeurs d’une variable quantitative Y à partir de
l’information pertinente contenue dans un grand tableau de variable(s) quantitative(s).
données. Le but est de dégager des tendances, des profils, des
comportements ou trouver des liens Algorithme (ou étapes) des différentes méthodes

Il existe 2 types de méthodes d’analyse de données : ACP :

A) Descriptives (décrire, comprendre la façon dont les - Importer le jeu de données


variables explicatives agissent sur la quantité à expliquer) - Choisir les variables et les individus actifs
- Standardiser ou non les variables
- Les méthodes factorielles (réduction de l’espace de - Choisir le nombre d’axes
représentation) - Analyser les résultats
- Décrire de façon automatique les principales
 ACP (Analyse en Composantes Principales) : résumer dimensions de variabilité
un tableau de données individus x variables. Etudier les - Retour aux données brutes
ressemblances entre les individus du point de vue de
l’ensemble des variables et dégager des profils ACM :
d’individus, réaliser un bilan des liaisons linéaires entre
les variables à partir de coefficients de corrélations - Importer le jeu de données
 ACM (Analyse des Correspondances Multiples) : - Choisir les variables et les individus actifs
résumer dans un tableau de données où les individus sont - Choisir le nombre d’axes
décrits par des variables qualitatives. Etudier les - Analyser les résultats
ressemblances entre les individus du point de vue de - Décrire de façon automatique les principales
l’ensemble des variables et dégager des profils dimensions de variabilité
d’individus, réaliser un bilan des liaisons linéaires entre - Retour aux données brutes par des tableaux croisés
les variables et d’étudier les associations de modalités AFC :
 AFC (Analyse Factorielle des Correspondances) :
résumer et visualiser un tableau de contingence. - Importer le jeu de données
Comparer les profils-lignes et profils-colonnes entre eux, - Choisir les lignes et les colonnes actives
interpréter les proximités entre les lignes et les colonnes) - Réaliser l’AFC
- Choisir le nombre d’axes
- Les méthodes de classification (Consiste à répartir en - Analyser les résultats
classes, en catégories, des choses, des objets, ayant des caractères
communs afin notamment d’en faciliter l’étude.) ACH :

 CAH : construire une hiérarchie sur les individus et se - Importer le jeu de données
présente sous la forme d’un dendrogramme. Elle permet - Standardiser ou non les variables
de regrouper des individus dans des classes les plus - Construire la CAH
homogènes possibles à partir d’un jeu de données - Couper l’arbre de classification
individus x variable. - Caractériser les classes
 K-means : repartir les individus dans k classes aussi
homogènes que possibles tel que les individus d’une ARBRE DE DECISION (1):
même classe soient le plus semblables possibles.
- Importer le jeu de données
- Construire et analyser l’arbre de décision
B) Prédictives (extrapoler de nouvelles informations à partir
- Choisir la taille de l’arbre
de celles déjà présentes)
- Estimer le taux de mauvais classement
- Classement/Classification (la variable à expliquer est - Prédire Y pour de nouveaux individus
qualitative)
RÉGRESSION LOGISTIQUE :
 Arbre de décision : expliquer et prédire une variable
- Importer le jeu de données
quantitative ou qualitative à partir de variables
- Construire le modèle
explicatives quantitatives et/ou qualitatives
- Sélectionner un modèle
(a) > Les nœuds de l’arbre testent les attributs - Faire de la prévision
> Il y a une branche pour chaque valeur possible de l’attribut
RÉGRESSION SIMPLE :
testé.
> Les feuilles spécifient les catégories. - Importer les données
- Représenter le nuage de points (xi, yi)
- Prédiction/régression (la valeur à expliquer est
- Estimer les paramètres
quantitative)
- Tracer la droite de régression
 Régression logistique : expliquer et/ou prédire les - Analyser les résidus
valeurs d’une variable qualitative Y, le + souvent binaire, - Prévoir une nouvelle valeur
par des variables explicatives quantitatives et qualitatives
RÉGRESSION MULTIPLE :  Dist : la distance de chaque individu au centre de gravité.
 % of var : pourcentage d’inertie cumulé associé à
- Importer les données
chaque dimension.
- Représenter les variables
 variables (qualitatives/quantitatives) supplémentaires :
- Estimer les paramètres
Les variables supplémentaires ne sont pas utilisées dans
- Choix de variables
la construction des axes mais servent à l’interprétation.
- Analyser les résidus
 Summary : permet de faire la statistique descriptive et
- Prévoir une nouvelle valeur
afficher un résumé du jeu de données afin de voir l'ordre
K-MEANS : de grandeur des variables.
 cumulative % of var : les pourcentages de variabilité
- Choisir K centres de classes au hasard ; cumulée par les différents axes.
- Affecter les individus au centre le plus proche ;
 Dim.n : donne les coordonnées sur la nième dimension.
- On obtient K classes ;
 Supplementary continuous variables : donne les
- Calculer les K centres de gravité des nouvelles
résultats des variables quantitatives supplémentaires.
classes obtenues et affecter les individus les plus
 v.test : donnent des valeurs permettant de mesurer si la
proches ;
modalité a des coordonnées significativement différentes
- Réitérer 3 et 4 jusqu’à ce que les classes ne changent
de zéro.
plus. Dans ce cas l’algorithme a convergé.

ARBRE DE DECISION (2) :

- Déterminer la variable qui divise au mieux les


individus ;
- Diviser les individus en deux catégories (la première
variable permettant la première division est appelée.
A partir de la racine, nous
obtenons deux branches et deux nœuds) ;
- Segmenter les nœuds obtenus afin de diviser les
individus en deux sous-groupes sur chaque nœud ;
- Réitérer le processus, jusqu’à ce qu’on ne puisse
plus segmenter les nœuds.

INFORMATIONS SUR LES ARBRES DE DÉCISION :

 Les arbres générés par la méthode CART sont binaires


(un nœud ne peut avoir que deux branches) et le critère
de segmentation est l’indice de Gini.
 Il n’y a aucune différence entre un arbre de segmentation
est un arbre de classification. La variable à prédire ou à
expliquer est catégorielle.
 Les ronds représentent les nœuds, les carrés représentent
les feuilles. A l’intérieur des nœuds 0 et 1 représentent
les classes des nœuds. Les nombres tel que X/Y
représentent le nombre d’individus bien classés et le
nombre d’individus mal classés. le nombre le plus
élevé, ici X, donne le nombre d’individus appartenant à
la classe 0 (bien classés) tandis que le nombre Y
représente le nombre d’individus appartenant à la classe
1 (mal classés).
 On peut élaguer l’arbre avec la validation croisée
récursive. Supposons n individus, il s’agit de s’entrainer
avec (n - 1) individus et prédire avec le dernier. Ensuite
s’entraîner avec (n - 2) individus et prédire avec les deux
restants. Réitérer le processus jusqu’à ce qu’on ne puisse
plus s’entraîner.
 Un arbre de décision est un classifieur (fonction
permettant de prédire une catégorie) représenté sous
forme d’arbre tel que (a).
INFORMATIONS SUR LE TP :

 Ctr : il s’agit de la colonne des contributions de chaque


individu dans la construction des différents axes ;
 Cos2 : la colonne de la qualité de représentation ;

Vous aimerez peut-être aussi