Poly TP

UNIVERSITÉ SULTAN MOULAY SLIMANE
Ecole Nationale des Sceinces Appliquées

Béni Mellal
F.Ing : Transformation Digitale INDUSTRIELLE
Support de Travaux Pratiques
Analyse de Données en R
Auteur :
Mohamed GOUSKIR
m.gouskir@usms.ma
Année Universitaire : 2022-2023

ii
Table des matières
Avant propos v
Introduction 1
1 Initiation à R 3
1. Les premiers pas sous R . . . . . . . . . . . . . . . . . . . . . 3
2. Simulation aléatoire . . . . . . . . . . . . . . . . . . . . . . . . 5
3. Descriptions empiriques . . . . . . . . . . . . . . . . . . . . . 5
4. Lecture de données contenues dans un fichier . . . . . . . . . . 6
5. Questions et exercices . . . . . . . . . . . . . . . . . . . . . . . 7
6. Premiers pas dans Rcmdr . . . . . . . . . . . . . . . . . . . . 8
2 Régression Linéaire et Analyse de Variance 9

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1. Régression linéaire simple : les données de Galton . . . . . . . 9
2. Régression Linéaire Multiple . . . . . . . . . . . . . . . . . . . 11
3. Analyse de variance à un facteur . . . . . . . . . . . . . . . . 12
3 Analyse en Composantes Principales 15

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1. Fichier de données . . . . . . . . . . . . . . . . . . . . . . . . 15
2. Procédure PRINCOMP . . . . . . . . . . . . . . . . . . . . . . 16
iii
Table des matières
4 Analyse Factorielle des Correspondances 21

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1. Analyse Factorielle des Correspondances Simple-AFC . . . . . 21
1.1. Objectif de l’étude . . . . . . . . . . . . . . . . . . . . 21
1.2. But : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3. Fichier de données . . . . . . . . . . . . . . . . . . . . 22
1.4. AFC via le package FactoMineR . . . . . . . . . . . . . 23
2. Analyse Factorielle des Correspondances Miltiple-AFCM . . . 24
2.1. Objectif de l’étude : L’exemple des races canines . . . . 24
2.2. But : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3. Fichier de données . . . . . . . . . . . . . . . . . . . . 25
2.4. La procédure MCA de FactoMineR . . . . . . . . . . . 26
2.5. Informations sur les individus . . . . . . . . . . . . . . 27
2.6. Informations sur les points modalités . . . . . . . . . . 27
2.7. Les graphiques proposés par MCA . . . . . . . . . . . 28
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 Classification automatique 29
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1. Traitements réalisés . . . . . . . . . . . . . . . . . . . . . . . . 29
2. Classification Hiérarchique Ascendante . . . . . . . . . . . . . 29
2.1. DONNÉES . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2. La procédure hclust() de R . . . . . . . . . . . . . . . 30
2.3. Découpage en classes . . . . . . . . . . . . . . . . . . . 31
3. K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Bibliographie 33
iv
Avant propos
Ce polycopie propose de découvrir comment faire pour se mettre à l’ana-

lyse des données issues d’un tableau de données, en vous aidant d’accéder
à des méthodes et algorithmes de l’analyse de données très utilisées. Vous
apprendrez notamment à réaliser simplement et rapidement quatre méthodes
d’Analyse de données parmi celles contenues dans le logiciel R : commencent
par la statistique élementaire, les méthodes linéaires et des méthodes explora-
toire à savoir l’analyse en composantes principales (ACP), l’analyse factorielle
des correspondances (AFC) et une Classification Hiérarchique Ascendante
(CAH). Vous apprendrez également à visualiser vos données très simplement
de différentes façons avec toute la puissance du logiciel R.
v
INTRODUCTION
Les TP seront illustrés à l’aide du logiciel R, version libre du logiciel S-

plus. Ce logiciel développé par des statisticiens pour des statisticiens est par-
ticulièrement bien adapté à l’analyse statistique descriptive, inférentielle et
exploratoire. Pour faciliter son utilisation, nous utilisons une interface appelé
R commander. Pour l’analyse factorielle nous recommandons l’usage de ade4
développé par l’université de Lyon.
L’apprentissage de ce logiciel R est sans doute plus délicat que les logiciels
commerciaux mais permet à tous de disposer d’un outil gratuit, très perfor-
mant, en perpétuelle évolution, exploitable dans toutes les circonstances et
permettant à l’utilisateur une totale liberté dans ses choix d’analyse.
Le système R est un logiciel distribué gratuitement depuis le site :
http ://www.r-project.org
Le système R fournit un environnement intégrant un grand nombre de

fonctionnalités statistiques et graphiques qui en font un outil particulièrement
adapté au traitement et à l’analyse des données.
Un fichier executable permettant l’installation rapide de R sous Windows

peut être télechargé depuis le site http ://cran.us.r-project.org/bin/windows/base/
– Ouvrez une session sous Windows.
1
INTRODUCTION
– Lancez le logiciel R.
– Essayez les commandes ci-après. Ne vous contentez pas à un

simple copier-coller des commandes. Cherchez absolument à com-
prendre chacune des commandes utilisées. Si vous avez des doutes,
n’hésitez pas à solliciter l’aide de l’enseignant.
2
TP 1
INITIATION À R
1. Les premiers pas sous R
1. Faire quelques essais :

pi*sqrt(10)+exp(4)
3 :10
seq(3,10)
x = c(2,3,5,7,2,1)
y = c(10,15,12)
z = c(x,y)
z2
x*x
w=rep(x,3)
w=rep(x, each=3)
?rep : Aide
ls() : liste des variables saisies
rm(x)
x
ls()
2. Pour mieux connaı̂tre R :

?help
help(rep)
3
TP 1. INITIATION À R
help(demo)
demo(graphics)
3. Passons aux matrices :

x = 1 :12
dim(x) = c(3,4)
?dim
x
y = matrix(1 :12, nrow=3, byrow=T)
t(y)
z = matrix(1 :4, nrow=2, byrow=T)
z2̂
z*z
z%*%z
4. Graphique :
x = runif(50, 0, 2)
y = runif(50, 0, 2)
plot(x, y, main=”Titre”, xlab=”abscisse”,
ylab=”ordonnée”,col=”darkred”)
abline(h=.6,v=.6)
text(.6,.6, ”placer un commentaire”)
colors()
5. Gestion de la fenêtre graphique :

Toute commande graphique ouvre une fenêtre adaptée mais
x11() : ouvre une autre fenêtre pour éviter d’écraser le graphe précédent,
dev.off() : ferme correctement la dernière fenêtre,
split.screen(c(1,2)) : partage la fenêtre en 2 de même que l’option
mfrow de la commande par.
4
2. Simulation aléatoire
Dans les approches de modélisation, il est souvent utile de générer artifi-
ciellement des nombres (pseudo-)aléatoires.
1. Effectuer les essais suivants :

rnorm(10) génère 10 réalisations de la loi N(0,1)
rnorm(10)
rnorm(10)
plot(rnorm(100))
rbinom(10, size=20, prob=.5)
rcauchy(10)
runif(10, min=0, max=1)
sample(1 :40, 5)
sample(1 :10, 10, replace=T)
sample(c(”echec”, ”succes”), 10, replace=T, prob=c(0.7, 0.3))
2. Voici les loi les plus utilisées dont les tables statistiques sont intégrées
dans R : beta, binom, cauchy, chisq, exp, f, gamma, norm, pois, t, unif.
3. Descriptions empiriques
1. Statistique d’ordre :
x = rnorm(10) (Echantillon i.i.d.)
y = sort(x) (Statistique d’ordre)
2. Fonction de répartition empirique :
x = rnorm(100)
n=length(x)
plot(sort(x), 1 :n/n, type=”s”, ylim=c(0,1), xlab=””, ylab=””)
?pnorm
curve(pnorm(x,0,1), add=T, col=”blue”)
3. Histogramme :
x = rnorm(100)
hist(x, breaks=20)
5
hist(x, breaks=20, freq=F, col=”cyan”)

curve(dnorm(x), add=T,col=”darkblue”)
x = rnorm(50)
h = hist(x, plot=F)
h$breaks
h$counts
?hist
4. Boxplot :
x = rnorm(100)
y = (rnorm(400))2−1
z= rnorm(50)3
par(bg=”lightcyan”)
boxplot(x,y,z,col=c(”blue”,”white”,”red”),
border=c(”black”,”darkblue”),lwd=1.5)
5. QQ-plots :
x = rnorm(100)
y = (rnorm(400))2−1
z = rnorm(200,m=4,sd=5)
par(bg=”lightcyan”,mfrow=c(2,2))
qqplot(x,y,pch=21,bg=”red”,fg=”darkblue”,lwd=2)
qqplot(x,z,pch=21,bg=”red”,fg=”darkblue”,lwd=2)
qqnorm(y,pch=21,bg=”orange”,fg=”darkblue”,lwd=2)
qqline(y,pch=21,col=”blue”,lwd=2)
qqnorm(z,pch=21,bg=”orange”,fg=”darkblue”,lwd=2)
qqline(z,pch=21,col=”blue”,lwd=2)
4. Lecture de données contenues dans un fichier
1. Les jeux de données sont généralement stockés dans des fichiers externes.
La commande read. Table permet de lire ce type de données. Pour tester
cette commande
— Placez le fichier, contenant les données, dans votre répertoire de tra-
vail
6
— Saisissez les commandes

Donnees = read.table(”AirQuality.data”) ♯ lire les données
summary(Donnees) ♯ résumer les données
hist(Donnees$Ozone, col=”gold”) ♯ histogramme de la va-
riable Ozone
attach(Donnes) ♯ permet d ommettre le nom du jeu de
données
hist(Ozone, freq=F, col=”gold”)
detach(Donnees)
hist(Ozone,freq=F,col=”gold”) ♯ erreur !
5. Questions et exercices
1. Produire des descriptions statistiques (moyenne,écart-type, médiane,

min, max,. . .) des données réelles :
library(MASS)
data(geyser)
attach(geyser)
help(geyser)
On pourra utiliser la commande summary ainsi que les commandes
graphiques présentées précédemment (histogramme, fonction de répartition).
2. Commenter les boxplots. Laquelle des trois séries de données (a) est
la plus dipersée ? (b) contient le plus grand nombre d’outliers (valeurs
aberrantes) ?
3. Les données suivantes représentent les charges maximales (en tonnes)

supportées par des câbles que fabrique une certaine usine :
10.1 12.2 9.3 12.4 13.7 10.8 11.6 10.1 11.2 11.3
12.2 12.6 11.5 9.2 14.2 11.1 13.3 11.8 7.1 10.5
a. Quelle est approximativement la valeur de la charge que les trois
quarts des câbles peuvent supporter ?
7
b. Tracer le boxplot de ces données. Y a-t-il des valeurs aberrantes ?

Dans ce diagramme, où visualise-t-on la valeur déterminée au point
(a) ?
c. D’après le boxplot, la répartition de ces données semble-t-elle être
symétrique ou pas ?
6. Premiers pas dans Rcmdr

Démarrez R et lancez Rcmdr par la commanande : > library(Rcmdr)
Vous verrez s’afficher une fenêtre similaire a celle de la figure ??. Nous
voulons maintenant travailler avec les données. La première chose à faire est
donc de dire à R dans quel répertoire se trouve le fichier des données que
vous avez préparé ci-dessus. Cliquez dans Rcmdr sur le menu Données − >
Importer des données − > depuis un fichier texte ..... donnez un nom
au tableau à importer (par exemple Data) et vérifiez que la case Noms de
variables dans le fichier est cochée (c’est comme ça qu’on a préparé les
données, la première ligne contient les noms des colonne).
8
TP 2
RÉGRESSION LINÉAIRE ET ANALYSE DE VARIANCE
Introduction
Rappelons que dans une régression linéaire multiple on cherche à prédire/expliquer

une variable réponse à l’aide de p variables explicatives. Le but de sélection
de modèle est de réduire au maximum l’ensemble des variables explicatives
tout en préservant la qualité prédictive/explicative du modèle.
NB : Il est inutile de se dépêcher de taper les commandes du TP en vitesse

(et de prendre une avance artificielle sans rien comprendre à leur signification
... surtout pour ceux qui ne viennent qu’irrégulièrement en cours). Replacez
ce TP dans le cadre de ce que vous connaissez déjà de R et du cours.
1. Régression linéaire simple : les données de Galton
On se proposemaintenant d’utiliser lemodèle de régression simple pour ana-

lyser les données des tailles utilisées par Galton.
1. Charger les données :

library(UsingR)
data(galton)
attach(galton)
2. Afficher les histogrammes des variables parent et child pour avoir une
9
TP 2. RÉGRESSION LINÉAIRE ET ANALYSE DE VARIANCE
idée de la façon dont elles sont réparties.

3. Déterminer les moyennes et les écart-types des variables parent et child.
La commande lm permet d’effectuer une régression linéaire multiple.

La syntaxe générale est :
fit=lm( formule , jeu de données , options )
Pour afficher l’aide sur ce package utiliser ?lm
4. Effectuer une régression linéaire :
LinReg=lm(child parent)
plot(parent,child,bg=”red”)
abline(LinReg, lwd=3, col=”blue”)
summary(LinReg)
En déduire les estimateurs des valeurs de β0 et de β1 tels que :
child = β0 + β1 · parent + ϵ. (2.1)
Quelle est la valeur estimée de la variance des erreurs ϵ ?

5. La valeur estimée de β1 confirme-t-elle la loi héréditaire proposée et
défendue par Galton ?
6. Au vu de la valeur du coefficient de détermination R2 , discuter de la
qualité prédictive du modèle linéaire ??.
7. La théorie de Galton a été étudiée de façon plus détaillée par Karl Pear-
son (1857–1936), l’un des fondateurs de la statistique mathématique. Il
a fait des statistiques sur un échantillon plus grand. Ces données se
trouvent dans le fichier father.son :
library(UsingR)
data(father.son)
names(father.son)
par(bg=”cornsilk”,pch=21)
plot(father.son,bg=”red”)
Tracer l’histogramme des résidus standardisés et le superposer avec la
courbe de la densité de la loi gaussienne centrée réduite.
Utilisez Rcmdr pour analyser la régression linéaire simple et interpreter les
résultats.
10
2. Régression Linéaire Multiple

Au debut du 17ème siècle, Galilei a effectué un certain nombre d’expériences
visant à étudier les lois physiques décrivant le mouvement d’un corps dans des
différentes conditions. Une de ces expériences consistait à mesurer la distance
horizontale parcourue par un objet placé à différentes hauteurs sur un plan
incliné, ce dernier se trouvant à une hauteur de 500 punti du sol (un punto
correspond à 169/180 millimètre).
Figure 2.1 – Le modèle de Galilei
1. Commencer par charger et afficher les données :

library(UsingR)
data(galileo)
g2=galileo$init.h-500
g1=galileo$h.d
par(bg=’cornsilk’)
plot(g1, g2, pch=20, col=”red”, cex=2, ylim=c(0,1000))
Au vu du nuage des points obtenu, est-il raisonnable de chercher une

relation affine entre les variables h.d et init.h ?
2. On cherche à déterminer init.h en fonction de h.d
Pour illustrer l’importance de la sélection de modèle, supposons que
seuls les 4 premières observations sont disponibles. Nous allons examiner
deux façons de déterminer une fonction f telle que init.h ≈ f (h.d) et,
ensuite, nous comparerons la qualité prédictive de ces deux fonctions
sur les 3 observations restantes.
a. On cherche d’abord un ajustement quadratique : f (x) = ax2 +bx+c.
Pour cela, on effectue une régression de h.d sur le vecteur (init.h,
11
init.h ⋏ 2).
f1=g1[1 :4]
f2=g2[1 :4]
LinReg1=lm(f2 ∼ f1+I(f1 ⋏ 2))
summary(LinReg1)
♦ Quelles sont les valeurs estimées des paramètres a, b et c ?
♦ Que vaut le coefficient de détermination ?
b. On cherche ensuite un ajustement par une fonction f qui s’écrit
comme f (x) = ax2 + bx + c + dexp(x/20).
LinReg2=lm(f2 ∼ f1+I(f1 ⋏ 2)+I(exp(f1/20)))
summary(LinReg2)
♦ Quelles sont les valeurs estimées des paramètres a, b, c et d ?
♦ Que vaut le coefficient de détermination ?
On constatera que le coefficient de détermination estmeilleur que

pour l’ajustement quadratique. Cela implique-t-il que la deuxième
fonction trouvée est meilleure que la première ?
c. Pour mieux répondre à la question précédente, on calcule et affiche
les prédictions fournies par chacune des deux fonctions :
t=(2500 :6000)/10
new=data.frame(f1=t)
pred1=predict(LinReg1, new, interval =”none”)
pred2=predict(LinReg2, new, interval =”none”)
par(bg=’cornsilk’)
plot(g1,g2,pch = 20,col=”black”,cex=2,ylim=c(0,1000))
points(t,pred1,pch = 20,col=”blue”,cex=0.2)
points(t,pred2,pch = 20,col=”red”,cex=0.2)
♦ Quelle est votre conclusion ?
3. Analyse de variance à un facteur
Nous allons effectuer une analyse de variance à un facteur sur les données
de qualité d’air de New York contenues dans airquality.
12
1. Commençons par charger les données :

data(airquality)
help(airquality)
D=airquality
summary(D)
par(bg=’cornsilk’,col=’red’)
plot(D,pch=19)
Nous voulons d’abord déterminer si les variations de la concentration
d’ozone d’un mois à l’autre ont été significatives ou pas. Pour cela, on
effectue une ANOVA à un facteur en considérant la variable Month
comme variable qualitative :
LR = lm(Ozone ∼ as.factor(Month), data=D)
anova(LR)
♦ Quel est le role de l’instruction as.factor ?
♦ Peut-on affirmer au seuil de 5% que la concentration d’ozone n’a pas
varié au fil des mois ?
2. Nous voulons maintenant savoir si le jour du mois a une influence sur
la concentration d’ozone ou pas.
Ecrire les instructions nécessaires pour répondre à la question ci-dessus.
3. Nous voulons Maintenant faire une anlyse de variance sur l’experience
de competition chez des plantes. Commencer à charger le fichier de
donner et realisez une ANOVA.
> results< −read.table(”compet.txt”,header=T)
> results
> plot(biomass clipping, data=results)
écriture du modèle
lm(variable à expliquer ∼ variable(s) explicative(s), ...)
model< −lm(biomass clipping)
model< −aov(biomass clipping)
summary(model)
13
14
TP 3
ANALYSE EN COMPOSANTES PRINCIPALES
Introduction
Traitements à réaliser
— Réaliser une ACP sur un fichier de données.
— Afficher les valeurs propres. Construire le graphiques éboulis des valeurs
propres.
— Construire le cercle de corrélations.
— Projeter les observations dans le premier plan factoriel.
— Positionner des variables illustratives quantitatives dans le cercle des
corrélations.
— Positionner les modalités d’une variable illustrative catégorielle.
— Positionner des observations illustratives.
Individus actifs (Données disponibles)
1. Fichier de données
Importation, statistiques descriptives et graphiques
library(xlsReadWrite)
- changement de répertoire
setwd(”lien du fichier”)
- chargement des données dans la première feuille de calcul
- première colonne = label des observations
- les données sont dans la première feuille
15
TP 3. ANALYSE EN COMPOSANTES PRINCIPALES
autos < − read.xls(file=”autos acp pour r · xls”,rowNames=T,sheet=1)

- qqs vérifications - affichage
print(autos)
- statistiques descriptives
summary(autos)
- nuages de points
pairs(autos)
♢ Interpreter le nuage du points obtenu

- partition des données (var. actives et illustratives)
autos.actifs < − autos[,1 :6]
autos.illus < − autos[,7 :9]
- nombre d’observations
n < − nrow(autos.actifs)
print(n)
2. Procédure PRINCOMP
1- Utiliser la procédure ≪ princomp ≫ pour obtenir les résultats d’ACP
16
- centrage et réduction des données → cor = T

- calcul des coordonnées factorielles → scores = T
acp.autos < − princomp(autos.actifs, cor = T, scores = T)
- print
print(acp.autos)
- summary
print(summary(acp.autos))
- quelles les propriétés associées à l’objet ?
print(attributes(acp.autos))
PRINCOMP fournit les écarts-types associés aux axes. Le carré corres-

pond aux variances = valeur propres. Nous avons également le pourcentage
cumulé. Avec ATTRIBUTES, nous avons la liste des informations que nous
pourrons exploiter par la suite.
2- Valeurs propres associés aux axes
- obtenir les variances associées aux axes c.-à-d. les valeurs propres
val.propres < − acp.autos$sdev2̂
print(val.propres)
- scree plot (graphique des éboulis des valeurs propres)
plot(1 :6,val.propres,type=”b”,ylab=”Valeurs propres”,
xlab=”Composante”,main=”Scree plot”)
- intervalle de confiance des val.propres à 95%
val.basse < −val.propres * exp(-1.96 * sqrt(2.0/(n-1)))
val.haute < − val.propres * exp(+1.96 * sqrt(2.0/(n-1)))
- affichage sous forme de tableau
tableau < − cbind(val.basse,val.propres,val.haute)
colnames(tableau) < − c(”B.Inf.”,”Val.”,”B.Sup”)
print(tableau,digits=3)
3- Cercle des corrélations
- corrélation variables-facteurs
c1 < − acp.autos$loadings[,1]*acp.autos$sdev[1]
17
c2 < − acp.autos$loadings[,2]*acp.autos$sdev[2]
- affichage
correlation < − cbind(c1,c2)
print(correlation,digits=2)
- carrés de la corrélation (cosinus)
print(correlation2̂,digits=2)
- cumul carrés de la corrélation
print(t(apply(correlation2̂,1,cumsum)),digits=2)
- *** cercle des corrélations - variables actives ***
plot(c1,c2,xlim=c(-1,+1),ylim=c(-1,+1),type=”n”)
abline(h=0,v=0)
text(c1,c2,labels=colnames(autos.actifs),cex=0.5)
symbols(0,0,circles=1,inches=F,add=T)
4- Carte des individus sur les 2 premiers axes
- l’option ”scores” demandé dans princomp est très important ici

plot(acp.autos$scores[,1],acp.autos$scores[,2],type=”n”,
xlab=”Comp.1 - 74%”,ylab=”Comp.2 - 14%”)
abline(h=0,v=0)
text(acp.autos$scores[,1],acp.autos$scores[,2],
labels=rownames(autos.actifs),cex=0.75)
5- Carte des individus et des variables
Individus actifs et variables actives

- *** représentation simultanée : individus x variables
biplot(acp.autos,cex=0.75)
6- CONTRIBUTION des individus aux composantes
Déterminer les individus qui pèsent le plus dans la définition d’une com-
posante
- contributions à une composante - calcul pour les 2 premières composantes
18
all.ctr < − NULL

for (k in 1 :2){all.ctr < − cbind(all.ctr,100.0*(1.0/n)*
(acp.autos$scores[, k]2 )/(acp.autos$sdev[k]2 ))}
print(all.ctr)
7- Variables quantitatives illustratives
Positionnement dans le cercle des corrélations
- corrélation de chaque var. illustrative avec le premier axe

ma cor 1 < − function(x){return(cor(x,acp.autos$scores[,1]))}
s1 < − sapply(autos.illus[,2 :3],ma cor 1)
- corrélation de chaque variable illustrative avec le second axe
ma cor 2 < − function(x){return(cor(x,acp.autos$scores[,2]))}
s2 < − sapply(autos.illus[,2 :3],ma cor 2)
- position sur le cercle plot(s1,s2,xlim=c(-1,+1),ylim=c(-1,+1),type=”n”,
main=”Variables illustratives”,xlab=”Comp.1”,ylab=”Comp.2”)
abline(h=0,v=0)
text(s1,s2,labels=colnames(autos.illus[2 :3]),cex=1.0)
- représentation simultanée (avec les variables actives)
plot(c(c1,s1),c(c2,s2),xlim=c(-1,+1),ylim=c(-1,+1),type=”n”,
main=”Variables illustratives”,xlab=”Comp.1”,ylab=”Comp.2”)
text(c1,c2,labels=colnames(autos.actifs),cex=0.5)
text(s1,s2,labels=colnames(autos.illus[2 :3]),cex=0.75,col=”red”)
abline(h=0,v=0)
NB : Interpréter les résultats obtenus dans chaque étape ci-dessous
19
20
TP 4
ANALYSE FACTORIELLE DES CORRESPONDANCES
Introduction
Analyse Factorielle des Correspondances sert à déterminer les éléments

structurant les données (axes de projection) et à réduire les dimensions de l’es-
pace de représentation des données (sélection des p premiers axes). Sur les
données représentées sur un tableaux de contingence, tableaux de variables
continues (valeurs > 0), tableaux logiques (présence-absence), etc ... . Deux
méthodes de l’AFC :
— AFC : Analyse factorielle des correspondances simples pour un
ensemble homogène de valeurs assimilable à un tableau de contingence
entre 2 variables.
— AFCM : Analyse factorielle des correspondances multiples pour
un tableau de modalités de q (q > 2) variables qualitatives ou un en-
semble non homogène de données.
1. Analyse Factorielle des Correspondances Simple-AFC
1.1. Objectif de l’étude
Ce tutoriel reproduit sous le logiciel R, l’analyse menée dans l’ouvrage de

Lebart et al., pages 103 à 107. Les justifications théoriques et les formules
sont disponibles dans le même ouvrage, pages 67 à 103.
21
TP 4. ANALYSE FACTORIELLE DES CORRESPONDANCES
Les mêmes calculs ont été reproduits dans Tanagra. D’autres packages de
R peuvent réaliser également une AFC, nous avons choisi FactorMineR pour
sa simplicité et son adéquation avec les sorties usuelles des logiciels qui font
référence (et que l’on retrouve dans notre ouvrage ci-dessus).
1.2. But :
— Réaliser une AFC sur un fichier de données.

propres.
— Calculer les coordonnées factorielles, les cos2 et les contributions des
points lignes
points colonnes
— Projeter les points dans le premier plan factoriel (représentation simul-
tanée)
1.3. Fichier de données
Importation des données, valeurs et profils
#chargement des données

importer le fichier file=”media prof afc.xls” et sous le nom media
22
print(media)
#fonction : calcul du profil

profil < − function(x)x/sum(x)*100
#profil ligne
prof.ligne < − t(apply(media,1,profil)) print(round(prof.ligne,1))
#profil colonne
prof.colonne < −apply(media,2,profil)
print(round(prof.colonne,1))
♢ Interpreter les profiles ligne et colonne
1.4. AFC via le package FactoMineR
a. Calculs et quelques statistiques
#charger le package
library(FactoMineR)
#lancer l’AFC
media.afc < − CA(media,ncp=2,graph=FALSE)
#liste des objets disponibles

print(attributes(media.afc))
#quelques statistiques sur le tableau de données

print(media.afc$call)
♢ Interpreter la distribution marginale par colonne et par ligne
b. Valeurs propres et Scree plot
23
#tableau des valeurs propres et Scree plot

print(media.afc$eig)
plot(media.afc$eig[,1],type=”b”,main=”Scree plot”)
♢ Expliquer la figure obtenue
c. Coordonnées, cosinus2 et contributions des lignes
#coordonnées, contributions et cos2 - lignes

print(media.afc$row)
♢ Interpreter la contribution des modalitées sur les axes facto-

riels
#coordonnées, contributions et cos2 - colonnes
print(media.afc$col)
♢ Interpreter la contribution des modalitées sur les axes facto-

riels
d. Représentation simultanée dans le 1er plan factoriel
#graphique
plot(media.afc,cex=0.75)
♢ Interpreter le graphique (biplot) obtenu
2. Analyse Factorielle des Correspondances Miltiple-

AFCM
2.1. Objectif de l’étude : L’exemple des races canines
Ce tutoriel reproduit sous le logiciel R, l’analyse menée dans l’ouvrage de

Tenenhaus, pages 266 à 276. Les justifications théoriques et les formules sont
24
disponibles dans le même ouvrage, pages 253 à 264.
Les mêmes calculs ont été reproduits dans Tanagra. D’autres packages de
R peuvent réaliser également une AFCM (ou ACM –Analyse des correspon-
dances multiples), nous avons choisi FactorMineR pour sa simplicité et son
adéquation avec les sorties usuelles des logiciels qui font référence (et que l’on
retrouve dans notre ouvrage ci-dessus).
2.2. But :
— Réaliser une AFCM (ACM) sur un fichier de données.

propres.
individus
points modalités
— Projeter les points dans le premier plan factoriel (représentation pseudo-
barycentrique)
— Projeter les points dans le premier plan factoriel (représentation bary-
centrique)
— Positionner les modalités d’une variable illustrative qualitative
— Commenter les autres sorties/graphiques produits par la procédure MCA
de FactoMineR
2.3. Fichier de données
Importation, statistiques descriptives et graphiques

#statistiques descriptives
summary(canines)
#distribution de fréquences (graphique) des variables actives
par(mfrow=c(2,3))
for (j in 1 :6)plot(canines[,j],main=colnames(canines)[j])
layout(1)
25
Figure 4.1 – chien : Label des observations, Taille ... Agressivite : Variables actives et
Fonction :Variable illustrative qualitative
2.4. La procédure MCA de FactoMineR
#charger le package
library(FactoMineR)
#lancer l’ACM
#voir l’aide pour plus de détails sur les options
#notamment -¿ ind. supplémentaires, var. quanti. supplémentaires
canines.acm < − MCA(canines,ncp=2,quali.sup=c(7),graph=F)
print(canines.acm)
#les valeurs propres

print(canines.acm$eig)
#scree plot
plot(canines.acm$eig[,1],type=”b”,main=”Scree plot”)
26
2.5. Informations sur les individus
#coordonnées, cos2 et contribution des individus

individus < − cbind(canines.acm$ind$coord, canines.acm$ind$cos2,
canines.acm$ind$contrib)
colnames(individus) < − c(”Coord.1”,”Coord.2”, ”COS2.1”, ”COS2.2”,
”CTR.1”, ”CTR.2”)
print(round(individus,2))
#graphique associé
plot(individus[,1],individus[,2],main=”Projection des observations”,
xlab=”Comp.1”,ylab=”Comp.2”,type=”n”)
abline(h=0,v=0)
text(individus[,1],individus[,2],labels=rownames(individus),cex=0.75)
2.6. Informations sur les points modalités
#coordonnées, cos2 et contribution des modalités

modalites < − cbind(canines.acm$var$coord, canines.acm$var$cos2,
canines.acm$var$contrib, canines.acm$var$v.test)
colnames(modalites) < − c(”Comp.1”,”Comp.2”, ”COS2.1”,”COS2.2”,
”CTR.1”,”CTR.2”,”VT.1”,”VT.2”)
print(round(modalites,2))
#graphique associé
plot(modalites[,1],modalites[,2], main=”Projection des modalités”,
xlab=”Comp.1”, ylab=”Comp.2”,type=”n”)
abline(h=0,v=0)
text(modalites[,1],modalites[,2], labels=rownames(modalites), cex=0.75)
27
2.7. Les graphiques proposés par MCA
#graphiques automatiques de MCA

plot(canines.acm,cex=0.75,choix=”ind”)
plot(canines.acm,cex=0.75,choix=”var”)
Représentation barycentrique de type (a)
c.-à-d. chaque point modalité est au barycentre des individus possédant cette
modalité
#composantes principales réduites pour les individus
f1etoile < − canines.acm$ind$coord[,1]/sqrt(canines.acm$eig[1,1])

f2etoile < − canines.acm$ind$coord[,2]/sqrt(canines.acm$eig[2,1])
#composantes principales non modifiées pour les modalités

g1 < − canines.acm$var$coord[,1]
g2 < − canines.acm$var$coord[,2]
#graphique
plot(c(f1etoile,g1),c(f2etoile,g2), type=”n”, main=”Représentation
barycentrique de type (a)”)
abline(h=0,v=0)
text(f1etoile,f2etoile,labels=names(f1etoile),cex=0.5)
text(g1,g2,labels=names(g1),cex=0.5,col=”red”)
Conclusion
28
TP 5
CLASSIFICATION AUTOMATIQUE
Introduction
Ce document retranscrit une démarche de classification automatique d’un

ensemble de fromages (29 observations) décrits par leurs propriétés nutritives
(ex. protéines, lipides, etc. ; 9 variables). L’objectif est d’identifier des groupes
de fromages homogènes, partageant des caractéristiques similaires.
Nous utiliserons essentiellement deux approches en nous appuyant sur deux
procédures du logiciel R : la classification ascendante hiérarchique (CAH) avec
hclust() ; la méthode des centres mobiles (k-means) avec kmeans().
1. Traitements réalisés
Chargement et description des données

Classification automatique avec hclust() et kmeans()
Pistes pour la détection du nombre adéquat de classes
Description – interprétation des groupes
2. Classification Hiérarchique Ascendante
2.1. DONNÉES
#modifier le répertoire par défaut

setwd(” . . . mon dossier . . . ”)
29
TP 5. CLASSIFICATION AUTOMATIQUE
#charger les données - attention aux options

fromage < − read.table(file=”fromage.txt”, header=T, sep=””,dec=”.”)
#afficher les 6 premières lignes
print(head(fromage))
#stat. descriptives
print(summary(fromage))
#graphique - croisement deux à deux
pairs(fromage)
2.2. La procédure hclust() de R
#centrage réduction des données

#pour éviter que variables à forte variance prèsent indûment sur les résultats
fromage.cr < − scale(fromage,center=T,scale=T)
#matrice des distances entre individus
d.fromage < − dist(fromage.cr)
#CAH - critère de Ward, method = ≪ ward.D2 ≫ correspond au vrai critère
de Ward
#utilisant le carré de la distance
cah.ward < − hclust(d.fromage,method=”ward.D2”)
#affichage dendrogramme
plot(cah.ward)
30
2.3. Découpage en classes
#dendrogramme avec matérialisation des groupes

rect.hclust(cah.ward,k=4)
#découpage en 4 groupes
groupes.cah < − cutree(cah.ward,k=4)
#liste des groupes
print(sort(groupes.cah))
3. K-means
31
32
Bibliographie
33

Poly TP

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly TP

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITÉ SULTAN MOULAY SLIMANE

Ecole Nationale des Sceinces Appliquées

F.Ing : Transformation Digitale INDUSTRIELLE

Support de Travaux Pratiques

Année Universitaire : 2022-2023

2 Régression Linéaire et Analyse de Variance 9

3 Analyse en Composantes Principales 15

4 Analyse Factorielle des Correspondances 21

Ce polycopie propose de découvrir comment faire pour se mettre à l’ana-

Les TP seront illustrés à l’aide du logiciel R, version libre du logiciel S-

Le système R est un logiciel distribué gratuitement depuis le site :

Le système R fournit un environnement intégrant un grand nombre de

Un fichier executable permettant l’installation rapide de R sous Windows

– Ouvrez une session sous Windows.

– Essayez les commandes ci-après. Ne vous contentez pas à un

1. Les premiers pas sous R

1. Faire quelques essais :

2. Pour mieux connaı̂tre R :

3. Passons aux matrices :

5. Gestion de la fenêtre graphique :

1. Effectuer les essais suivants :

hist(x, breaks=20, freq=F, col=”cyan”)

4. Lecture de données contenues dans un fichier

— Saisissez les commandes

1. Produire des descriptions statistiques (moyenne,écart-type, médiane,

3. Les données suivantes représentent les charges maximales (en tonnes)

b. Tracer le boxplot de ces données. Y a-t-il des valeurs aberrantes ?

6. Premiers pas dans Rcmdr

RÉGRESSION LINÉAIRE ET ANALYSE DE VARIANCE

Rappelons que dans une régression linéaire multiple on cherche à prédire/expliquer

NB : Il est inutile de se dépêcher de taper les commandes du TP en vitesse

1. Régression linéaire simple : les données de Galton

On se proposemaintenant d’utiliser lemodèle de régression simple pour ana-

1. Charger les données :

idée de la façon dont elles sont réparties.

La commande lm permet d’effectuer une régression linéaire multiple.

child = β0 + β1 · parent + ϵ. (2.1)

Quelle est la valeur estimée de la variance des erreurs ϵ ?

2. Régression Linéaire Multiple

Figure 2.1 – Le modèle de Galilei

1. Commencer par charger et afficher les données :

Au vu du nuage des points obtenu, est-il raisonnable de chercher une

On constatera que le coefficient de détermination estmeilleur que

3. Analyse de variance à un facteur

1. Commençons par charger les données :

autos < − read.xls(file=”autos acp pour r · xls”,rowNames=T,sheet=1)

♢ Interpreter le nuage du points obtenu

1- Utiliser la procédure ≪ princomp ≫ pour obtenir les résultats d’ACP

- centrage et réduction des données → cor = T

PRINCOMP fournit les écarts-types associés aux axes. Le carré corres-

3- Cercle des corrélations

4- Carte des individus sur les 2 premiers axes

- l’option ”scores” demandé dans princomp est très important ici

5- Carte des individus et des variables

Individus actifs et variables actives

6- CONTRIBUTION des individus aux composantes

all.ctr < − NULL

7- Variables quantitatives illustratives

Positionnement dans le cercle des corrélations

- corrélation de chaque var. illustrative avec le premier axe

NB : Interpréter les résultats obtenus dans chaque étape ci-dessous

Analyse Factorielle des Correspondances sert à déterminer les éléments

1. Analyse Factorielle des Correspondances Simple-AFC

Chargement et description des données