Vous êtes sur la page 1sur 5

Eléments de base de l’Analyse de

données.

1• Définitions :
- Population : ensemble fini d’objets noté Ω.
Exemple : les étudiants d’une classe / livres d’une bibliothèque…

- Individu (objet) : élément de Ω.


Exemple : un étudiant / un livre…

- Variable (caractère) : c’et l’entité qui caractérise un individu. Elle peut être
quantitative ou qualitative.
Exemple : note, spécialité, etc. / titre, auteur,…

- Tableau de données : c’est une matrice {Xij} ; i=1..n ; j=1..p.


On trouve différents types de tableaux de données.

A○ Tableaux quantitatifs :
Toues les variables sont quantitatives, alors Xij des valeurs quantitatives.
B○ Tableaux de contingence (Tableau croisé / Tableau de fréquences):

Chaque variable est connue par les valeurs qu’elle prend (exacte /modularité).
Θ (espace d’observations/modalité).
Θx ={x1,…,xn}
Θv ={x1,…,xp}

nij : nombre d’individus de Ω ayant xi de X et yj de Y.


(la somme de ligne et la somme de colonne a un sens).

p
ni. = ∑ nij
j=1

n
n.j = ∑ nij
i=1

p n
∑ nij = ∑ nij = n
j=1 i=1

C○ Tableau de préférence :
Exemple : 4 machines ; ont les valeurs {1, 2, 3,4}.
M1 M2 M3 M4
X1 1 2 3 4
…………………. …….. ……….. ……. …..
Xn ….. . ….. …..

Eléments de base de l’analyse de données elmehdi23@gmail.com 1


D○ Tableau binaire : Xij = {0,1}
E○ Tableau de modalité :
F○ Tableau de proximité : degré de ressemblance.
xij = {0,…,10}

Machines\Machines M1 M2 M3 M4
M1 0
M2 0
M3 0
M4 0

G○ Tableau hétérogène : les p variable peuvent être quantitative ou


qualitatives.

2• Eléments descriptifs d’un tableau de données :


A ○ Cas des variables qualitatives :
X = Өx = {x1,..,xr}.
• Une seule variable à la fois :
- Effectif ni : nombre d’individu ayant xi de X. Sachant :
r
∑ xi =n.
i=1

- Fréquence : fi = ni / n ;
r
∑ fi =1.
i=1

- Représentation graphique.

• Deux variables à la fois :


- Effectif partiel : xi j : nombre d’individus ayant xi de X et yj de Y.

- Fréquence partielle : fi = ni / n.

p
- Effectif marginal : • ni . = ∑ ni j .
j=1

r
• n . j = ∑ ni j .
i=1

- Fréquence marginale : fi . =ni / n


f. j = nj / n
- Fréquence conditionnelle :

Eléments de base de l’analyse de données elmehdi23@gmail.com 2


• fi |j = fréquence d’apparition de xi sachant yj.
Dans le cas d’indépendance :

fi |j  fi |1 = fi |2 =….= fi |p .
 ni 1 / n. 1 = ni 2 / n . 2 = …= ni p / n . p
p p
= ∑ ni j ⁄ ∑ n. j = ni . / n .
j=1 j=1

• ni j / n. j  ni j = (ni . . n . j.)/ n.

- Tableau théorique : tant que : Vi j = (ni . . n . j.)/ n.

r p r p
X = ∑ ∑ [( Vi j – ni j ) ] / Vi j | ∑ ∑ ni j 2 / Vi j.
2 2
i j i j

B ○ Cas des variables quantitatives :


• Une seule variable à la fois :
Cas des non groupés (continue). Cas des groupés (discrète).

Өx = {x1,…,xr}. ; les r valeur sont


quantitatives.

• Moyenne : • Moyenne :
_ r r _ r
X = 1 / n ∑ xi = ∑ f i . x i . X = 1 / n ∑ ni. xi .
i=1 i=1 i=1

• Variance : • Variance :
_ r r _
δ = 1/n . ∑ (xi – X)2
x
2
δ = 1/n . ∑ ni (xi – X)2
x
2
i=1 i=1

Notation standard de la
moyenne :
_ r
X = ∑ fi . xi .
i=1

Notation commune :
_ r
δx = 1/n . ∑ fi (xi – X)2
2
i=1

Eléments de base de l’analyse de données elmehdi23@gmail.com 3


Өx = {x1,…,xr}. ; les r valeur sont
quantitatives.
• Moyenne :
_ p p
• Moyenne :
Y = 1 / n ∑ yi = ∑ fj . yj . _ p
j=1 j=1 Y = 1 / n ∑ nj. yj .
j=1
• Variance :
p _ • Variance :
δy = 1/n . ∑ fj (yj – Y)2
2 p _
j=1 δy2 = 1/n . ∑ nj (yj – Y)2
j=1
_ r
cov (x,y) = 1/n ∑ (xi-X)2. _r p

_ i=1 cov (x,y) = 1/n ∑ ∑ (xi-X).


i=1 j=1
(yi-Y). _
(yi-Y).nij.

Formule de KOENING

COV (x,y)
COV (x,y)
r
= 1/n ∑ (xi yi – r p _ _
i=1
_ _ __ = 1/n ∑ ∑ nij (xi yi ) – XY .
i=1 j=1
-xi Y- X yi + X Y).
r __ _ _ _ _
= 1/n ∑ xi yi - X Y + X Y - X Y.
i=1

r __
COV (x,y) =1/n ∑ xi yi - X Y.
i=1

Eléments de base de l’analyse de données elmehdi23@gmail.com 4


• Interprétation de la covariance :
r _ _
Cov (x,y) = 1/n ∑ (xi - X) . (yi - y)
i=1

On représente le nuage des points associé aux individus grâce aux valeurs :
_ _ _ _
I (xi , yj). On représente la droite X et Y, Ө(X , Y).
_ _
• Pour les points, tel que : xi < X et yi > Y  les individus
interviennent avec des valeurs positifs.
_ _
• Si xi > X et yi > Y  les individus interviennent avec des valeurs
positifs.
_ _
• Pour les points, tels que : xi < X et yi > Y  les individus
interviennent avec des valeurs négatifs.
_ _
• Pour les points, tels que : xi > X et yi < Y  les individus
interviennent avec des valeurs négatifs.

La covariance dépend de la fréquence de l’une ou de l’autre catégorie.

• Coefficient de corrélation :

Cov (x , y)
-1 ≤ ≤ +1.
δx . δ y
• Formule de SCHWARTZ :

|| Cov (x , y) || ≤ δx . δy
• Propriétés du coefficient de corrélation Cov(x , y) ou Γ(x , y):
1. Γ possède le même signe que la covariance.
2. Γ ∈[-1,+1].
3. Γ = 1 ; si tous les points observés, sont tout autour de la droite position
angulaire positive.
4. Γ ≈ 1 ; si tous les points observés, sont tout autour de la droite observée
(croissante).
5. ; si tous les points observés, sont tout autour de la droite décroissante.
6. Γ ≈ | = 1 ; si le nuage de points et de forme arrondie.

Eléments de base de l’analyse de données elmehdi23@gmail.com 5

Vous aimerez peut-être aussi