Vous êtes sur la page 1sur 2

Act. 2/ Sem.

2 C106
Analyse et fouille de données – Jérôme BOSCHE - UPJV - France
Préambule:
Dans le cadre de ce TD, le logiciel Scilab sera utilisé pour répondre aux différentes questions de
l’énoncé. Certaines informations pertinentes permettront de vous guider dans le cadre de votre
travail. Il s’agit de cadres bleus associés à des conseils/remarques et de cadres rouges associés à
des notions/rappels de cours.

Contexte
Il est ici question d’analyser l’évolution de la fréquence cardiaque de 5 individus nommés A, B, C ,
D et E, au cours d’un exercice physique. Les vecteurs de données correspondant à ces mesures
sont disponibles dans le fichier FC.sce associé à cet énoncé.

Éléments statistiques
1. À l’aide de la fonction size de Scilab, indiquer combien de pulsations cardiaques sont mesurées
pour chaque individu. On notera N le nombre de pulsations.
2. A l’aide de la fonction plot de Scilab, tracer sur le même graphe, les 5 courbes correspondant aux
fréquences cardiaques de A, B, C, D et E. On veillera à insérer une légende afin de différencier
les 5 courbes.

L’écart-type est utilisé pour mesurer la dispersion autour de la moyenne d’un ensemble de données.
Dans le cas de notre étude, il pourra par exemple être un bon indicateur du degré de sollicitation du
système cardiaque.
3. Calculer l’écart-type σA du signal A donné par :

v
uN
uX 1
σA = t (Aj − A)2 (1)
j=1
N

Aj correspond à la jème mesure du signal A alors que A est sa moyenne.


Les fonctions mean et sqrt pourront être utilisées.

4. Retrouver le résultat de la question précédente à l’aide de la fonction stdev.

Par défaut, la fonction stdev calcule l’écart-type sur (N − 1) échantillons. Il est donc nécessaire
de la paramétrer en faisant apparaître la valeur de la moyenne dans les arguments d’entrée afin
d’obtenir exactement la même valeur que pour la question 3.
5. Réitérer l’opération de la question 4 pour calculer l’écart-type des personnes B, C , D et E. En
déduire la personne qui sollicite le plus son système cardiaque. Cela vous semble-t-il cohérent
avec le tracé des courbes obtenues question 2? Justifier.

B jerome.bosche@u-picardie.fr
Analyse & fouille de données
6. Créer la matrice T ∈ RN ×5 correspondant à la concaténation des vecteurs A, B, C, D et E en
les associant aux colonnes de T .

La matrice T considère donc 5 variables. Comme précisé dans la première partie du cours, il est
nécessaire, dans le cadre d’une analyse de données, d’effectuer un traitement des données dans un
premier temps. Cela consiste à réduire les données de façon à ramener toutes les variables à un
même écart-type. Les quantités

Tij − Tj
xij = (2)
σj
représentent alors les valeurs centrées et réduites xij quelque-soit (i, j) ∈ ({1, .., N } × {1, .., 5}).
Tij correspond à la mesure de la ième ligne et jème colonne (ou ième individu et jème variable).
Tj et σj sont respectivement la moyenne et l’écart-type de la jème variable.

7. Générer la matrice centrée réduite notée x ∈ RN ×5 à partir de la matrice T .

A partir de la matrice x, il est maintenant question de calculer un coefficient de corrélation pour


chaque couple de variables Tj et Tk . Ce coefficient de corrélation constitue un critère de ressemblance
entre les deux variables correspondantes. On définit la corrélation cor(Tj , Tk ) entre deux variables
Tj et Tk par :
N
X
cor(Tj , Tk ) = xij xik (3)
i=1

où xij sont les éléments de x.


La matrice COR considérant l’ensemble des coefficients de corrélation est ainsi définie:
 
α11 ...α1j ...α15
 . .. .. 
 .. . . 
 
COR = αj1 ...αjj ...αi5  (4)
 
 . .. .. 
 .
 . . . 

α51 ...α5j ...α55


8. Calculer la matrice de corrélation notée COR ∈ R5×5 de la matrice T .

9. A partir de la question précédente, déduire le couple de variables (Ti ; Tk ) présentant la plus forte
corrélation. Expliquer comment il aurait été possible d’aboutir à la même conclusion à partir du
graphe de la question 2.

La fonction spec permet de calculer les valeurs propres ainsi que les vecteurs propres d’une matrice.
10.
À partir de la matrice COR, déduire la valeur des axes factoriels principaux nécessaires pour
restituer au moins 90% de l’inertie du nuage des individus en précisant la qualité de la représenta-
tion ainsi obtenue (en %) .

B jerome.bosche@u-picardie.fr

Vous aimerez peut-être aussi