1 C106
Intitulé : Analyse et fouille de données
Responsable : Jérôme BOSCHE - UPJV - France
Préambule :
Dans le cadre de ce devoir, le logiciel Scilab sera utilisé pour répondre aux différentes questions de l’énoncé.
Scilab est un logiciel open source de calcul numérique possédant de nombreuses fonctionnalités adaptées à ce
type de problèmes.
Contexte
On mène une campagne de dépistage d’une maladie infectieuse sur 100 personnes. Il est question
de quantifier le nombre de globules blancs dans l’organisme. Pour chaque personne, l’analyse est
confiée à 10 laboratoires différents afin d’éviter tous risques d’erreur. A chaque personne, correspond
donc 10 taux de globules blancs.
L’ensemble de ces résultats est concaténé dans une matrice notée R dans laquelle les données
correspondent au nombre de globules blancs de chaque échantillon par mm3 de sang. Les résultats
de ces 100 analyses sont enregistrés dans la fichier act1.sod .
Pour extraire sous Scilab la matrice R, il suffit de taper la ligne de code suivantes :
load("act1.sod");
Q jerome.bosche@u-picardie.fr
5. Calculer R̄ = [R̄1 ...R̄j ... R̄p ] tel que les p moyennes des différentes variables sont définies:
n
1X
R̄j = Rij (1)
n i=1
6. Calculer S = [S1 ...Sj ... Sp ] tel que les p écart-types des différentes variables sont définies:
v
u n
u1 X
Sj = t (Rij − R̄j )2 (2)
n i=1
7. A partir des question 5. et 6., donner le tableau centré réduit, noté X, correspondant au tableau
R en considérant (3).
Rij − R̄j
Xij = (3)
Sj
Covariances et Corrélations
Aide Scilab :
5 - Lorsque deux matrices A et B sont de mêmes dimensions, A.*B génère leur produit terme à terme.
6 - la fonction spec calcule les valeurs propres et les vecteurs propres d’une matrice.
On définit la covariance cov(Rj , Rk ) et la corrélation cor(Rj , Rk ) entre deux variables Rj et Rk
par :
n
X
cor(Rj , Rk ) = ρi Xij Xik (4)
i=1
Q jerome.bosche@u-picardie.fr