Académique Documents
Professionnel Documents
Culture Documents
2 C106
Analyse et fouille de données – Jérôme BOSCHE - UPJV - France
Préambule:
Dans le cadre de ce TD, le logiciel Scilab sera utilisé pour répondre aux différentes questions de
l’énoncé. Certaines informations pertinentes permettront de vous guider dans le cadre de votre
travail. Il s’agit de cadres bleus associés à des conseils/remarques et de cadres rouges associés à
des notions/rappels de cours.
Contexte
Il est ici question d’analyser l’évolution de la fréquence cardiaque de 5 individus nommés A, B, C ,
D et E, au cours d’un exercice physique. Les vecteurs de données correspondant à ces mesures
sont disponibles dans le fichier FC.sce associé à cet énoncé.
Éléments statistiques
1. À l’aide de la fonction size de Scilab, indiquer combien de pulsations cardiaques sont mesurées
pour chaque individu. On notera N le nombre de pulsations.
2. A l’aide de la fonction plot de Scilab, tracer sur le même graphe, les 5 courbes correspondant aux
fréquences cardiaques de A, B, C, D et E. On veillera à insérer une légende afin de différencier
les 5 courbes.
L’écart-type est utilisé pour mesurer la dispersion autour de la moyenne d’un ensemble de données.
Dans le cas de notre étude, il pourra par exemple être un bon indicateur du degré de sollicitation du
système cardiaque.
3. Calculer l’écart-type σA du signal A donné par :
v
uN
uX 1
σA = t (Aj − A)2 (1)
j=1
N
Par défaut, la fonction stdev calcule l’écart-type sur (N − 1) échantillons. Il est donc nécessaire
de la paramétrer en faisant apparaître la valeur de la moyenne dans les arguments d’entrée afin
d’obtenir exactement la même valeur que pour la question 3.
5. Réitérer l’opération de la question 4 pour calculer l’écart-type des personnes B, C , D et E. En
déduire la personne qui sollicite le plus son système cardiaque. Cela vous semble-t-il cohérent
avec le tracé des courbes obtenues question 2? Justifier.
B jerome.bosche@u-picardie.fr
Analyse & fouille de données
6. Créer la matrice T ∈ RN ×5 correspondant à la concaténation des vecteurs A, B, C, D et E en
les associant aux colonnes de T .
La matrice T considère donc 5 variables. Comme précisé dans la première partie du cours, il est
nécessaire, dans le cadre d’une analyse de données, d’effectuer un traitement des données dans un
premier temps. Cela consiste à réduire les données de façon à ramener toutes les variables à un
même écart-type. Les quantités
Tij − Tj
xij = (2)
σj
représentent alors les valeurs centrées et réduites xij quelque-soit (i, j) ∈ ({1, .., N } × {1, .., 5}).
Tij correspond à la mesure de la ième ligne et jème colonne (ou ième individu et jème variable).
Tj et σj sont respectivement la moyenne et l’écart-type de la jème variable.
9. A partir de la question précédente, déduire le couple de variables (Ti ; Tk ) présentant la plus forte
corrélation. Expliquer comment il aurait été possible d’aboutir à la même conclusion à partir du
graphe de la question 2.
La fonction spec permet de calculer les valeurs propres ainsi que les vecteurs propres d’une matrice.
10.
À partir de la matrice COR, déduire la valeur des axes factoriels principaux nécessaires pour
restituer au moins 90% de l’inertie du nuage des individus en précisant la qualité de la représenta-
tion ainsi obtenue (en %) .
B jerome.bosche@u-picardie.fr