Vous êtes sur la page 1sur 2

Act. 1/ Sem.

1 C106
Intitulé : Analyse et fouille de données
Responsable : Jérôme BOSCHE - UPJV - France
Préambule :
Dans le cadre de ce devoir, le logiciel Scilab sera utilisé pour répondre aux différentes questions de l’énoncé.
Scilab est un logiciel open source de calcul numérique possédant de nombreuses fonctionnalités adaptées à ce
type de problèmes.

Contexte
On mène une campagne de dépistage d’une maladie infectieuse sur 100 personnes. Il est question
de quantifier le nombre de globules blancs dans l’organisme. Pour chaque personne, l’analyse est
confiée à 10 laboratoires différents afin d’éviter tous risques d’erreur. A chaque personne, correspond
donc 10 taux de globules blancs.
L’ensemble de ces résultats est concaténé dans une matrice notée R dans laquelle les données
correspondent au nombre de globules blancs de chaque échantillon par mm3 de sang. Les résultats
de ces 100 analyses sont enregistrés dans la fichier act1.sod .
Pour extraire sous Scilab la matrice R, il suffit de taper la ligne de code suivantes :

load("act1.sod");

Tableaux de données multidimensionnelles


I - Tableaux des individus et des variables
Aide Scilab : " #
1 2 3
1 - Pour créer la matrice A ∈ R2×3 telle que A = , la ligne de commande est
4 5 6
A=[1 2 3;4 5 6]; Pour des informations supplémentaires, taper help matrix
2 - la fonction size donne la taille d’un objet.
1. A partir de la matrice R, indiquer à quoi sont respectivement associés les variables et les individus.
2. A l’aide de la fonction size, proposer une commande permettant de générer directement le nombre
n d’individus et pde variables associés à l’étude d’une population représentée par un tableau ou
une matrice R ∈ Rn×p .
3. Donner un moyen simple de générer le vecteur ligne associé à l’ensemble des 10 taux de globules
blancs mesurés par les 10 différents laboratoires pour le patient no 27, c’est-à-dire la 27ème ligne
de la matrice R.
4. De la même façon, proposer une commande permettant de donner directement le taux de globules
blancs du patient no 27 donné par le laboratoire no 3.

Transformation des données


Aide Scilab :
3 - la fonction mean calcule la moyenne d’un vecteur ou d’une matrice.
4 - la fonction stdev calcule l’écart-type d’une matrice.

Q jerome.bosche@u-picardie.fr
5. Calculer R̄ = [R̄1 ...R̄j ... R̄p ] tel que les p moyennes des différentes variables sont définies:
n
1X
R̄j = Rij (1)
n i=1
6. Calculer S = [S1 ...Sj ... Sp ] tel que les p écart-types des différentes variables sont définies:
v
u n
u1 X
Sj = t (Rij − R̄j )2 (2)
n i=1

7. A partir des question 5. et 6., donner le tableau centré réduit, noté X, correspondant au tableau
R en considérant (3).

Rij − R̄j
Xij = (3)
Sj

Covariances et Corrélations
Aide Scilab :
5 - Lorsque deux matrices A et B sont de mêmes dimensions, A.*B génère leur produit terme à terme.
6 - la fonction spec calcule les valeurs propres et les vecteurs propres d’une matrice.
On définit la covariance cov(Rj , Rk ) et la corrélation cor(Rj , Rk ) entre deux variables Rj et Rk
par :
n
X
cor(Rj , Rk ) = ρi Xij Xik (4)
i=1

cov(Rj , Rk ) = cor(Rj , Rk )Sj Sk (5)


8. Générer alors les matrices COR et COV définies telles que:
 
cor(R1 , R1 )...cor(R1 , Rk )...cor(R1 , Rp )
 .. .. .. 

 . . . 

COR = cor(Rj , R1 )...cor(Rj , Rk )...cor(Rj , Rp )
 
 .. .. .. 
. . .
 
 
cor(Rp , R1 )...cor(Rp , Rk )...cor(Rp , Rp )
et
 
cov(R1 , R1 )...cov(R1 , Rk )...cov(R1 , Rp )
 .. .. .. 

 . . . 

COV = cov(Rj , R1 )...cov(Rj , Rk )...cov(Rj , Rp )
 
 .. .. .. 
. . .
 
 
cov(Rp , R1 )...cov(Rp , Rk )...cov(Rp , Rp )

9. Conclure quant à la corrélation des différentes variables.


10. Calculer les valeurs propres et les vecteurs propres associés de la matrice COR.
11. Calculer la somme des valeurs propres de COR. Conclusion.
12. Montrer par le calcul que les vecteurs propres de COR sont orthonormés.

Q jerome.bosche@u-picardie.fr

Vous aimerez peut-être aussi