Vous êtes sur la page 1sur 11

Analyse exploratoire 2020/2021

Quelques Concepts Fondamentaux

Espace euclidien:
𝑈𝑛 𝑒𝑠𝑝𝑎𝑐𝑒 𝑣𝑒𝑐𝑡𝑜𝑟𝑖𝑒𝑙 𝐸 𝑑𝑒 𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛 𝑷 𝑒𝑠𝑡 𝑑𝑖𝑡 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑒𝑛 𝑠’𝑖𝑙 𝑒𝑠𝑡 𝑚𝑖𝑛𝑖 𝑑’𝑢𝑛 𝑝𝑟𝑜𝑑𝑢𝑖𝑡 𝑠𝑐𝑎𝑙𝑎𝑖𝑟𝑒
𝑑é𝑓𝑖𝑛𝑖 𝑝𝑎𝑟 : < 𝑥, 𝑦 > ∀ (𝑥, 𝑦) ∈ 𝐸 × 𝐸

Espace vectoriel
Espace euclidien

Produit scalaire

Est une forme

Définie
< 𝑥, 𝑥 >=‖𝑥‖2 = 0 ⟺ 𝑥 = 0 Symétrique
< 𝑥, 𝑦 >=< 𝑦, 𝑥 >

Positive
< 𝑥, 𝑥 >=‖𝑥‖2 ≥ 0 Bilinéaire
< 𝑥1 + 𝑥2 , 𝑦> : Linéaire à gauche
et
< 𝑥, 𝑦1 + 𝑦2 > : Linéaire à gauche

On définit la norme (ou longueur) d’un vecteur X en posant : ‖𝑥‖ = √< 𝑥, 𝑥 >= √𝑥12 + … + 𝑥𝑝2

Théorème de Pythagore :
Les coordonnées de u sont ∶ 𝒙 = 𝒙𝑩 − 𝒙𝑨 = 𝟒 𝒆𝒕 𝒚 = 𝒚𝑩 − 𝒚𝑨 = 𝟐 dans le triangle ABH
(Ci-dessous), on a AB²=AH²+HB² = x²+y²=20 d’où AB=‖𝑢‖ = 2√5

p. 1
Analyse exploratoire 2020/2021

Représentation matricielle du produit scalaire :

Soient (𝑒1 , 𝑒2 , …, 𝑒𝑝 ) une base de E, les vecteurs x et y de E s’écrivent :

𝑥 = ∑𝑝𝑖=1 𝛼𝑖 𝑒𝑖 , 𝑦 = ∑𝑝𝑗=1 𝛽𝑗 𝑒𝑗

𝒑 𝒑
< 𝒙, 𝒚 >= ∑𝒊=𝟏 ∑𝒋=𝟏 𝜶𝒊 𝜷𝒋 <𝒆𝟏 , 𝒆𝟏 >

Soit M la matrice carrée d’ordre p de terme général 𝒎𝒊𝒋 =<𝒆𝒊 , 𝒆𝒋 >

L’égalité précédente s’écrit alors matriciellement < 𝒙, 𝒚 >𝑴 = ′𝒙𝑴𝒚 = ′𝒚𝑴𝒙

Metriques:
Pour définir la distance euclidienne entre deux individus, on a besoin d’une métrique M.
Il s’agit d’une matrice symétrique définie positive de dimension p.

Remarques :
- Un produit scalaire : < 𝒙 , 𝒚 >𝑴 = 𝒙𝒕 𝑴𝒚

- Une norme : ‖𝑥‖𝑀 = √< 𝒙 , 𝒙 >𝑴

- Une distance : 𝑑²𝑀 (𝑥, 𝑦) = ‖𝑥 − 𝑦‖²𝑀 =< 𝒙 − 𝒚 , 𝒙 − 𝒚 >𝑴

<𝒙 ,𝒚 >𝑴
- Des angles : cos 𝜃𝑀 = ‖𝒙‖
𝑴 ∙ ‖𝒚‖𝑴

De plus pour 𝑴 donnée, on peut définir :

- Une Matrice A est M-symétrique si : (𝑴𝑨)𝒕 = 𝑴𝑨


- M-orthogonalité: deux vecteurs 𝒙 et 𝒚 𝑑𝑒 𝑬 sont dits M-orthogonaux si :
< 𝒙 , 𝒚 >𝑴 = 𝟎 …(*)

p. 2
Analyse exploratoire 2020/2021

- M-orthonormalité : deux vecteurs x et y de E sont dits M-orthonormés s’ils


vérifient (*)
de plus ‖𝒙‖²𝑴 = ‖𝒚‖²𝑴 = 𝟏

On muni l’espace ℝ𝑛 de la métrique 𝑴 pour mesurer la distance entre deux individux


𝒊 𝒆𝒕 𝒊′ :

𝒅²𝑴 (𝒙𝒊 , 𝒙𝒊′ ) = ′(𝒙𝒊 − 𝒙𝒊′ )𝑴(𝒙𝒊 − 𝒙𝒊′ )

Donc
2
⇒ si 𝑴 = 𝑰, 𝑑²𝑀 (𝑥𝒊 , 𝑥𝑖′ ) = ∑𝑝𝑗=1(𝑥𝒊𝒋 − 𝑥𝑖′𝑗 ) ⟶ 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑒𝑛𝑛𝑒 𝑑𝑒 𝑑𝑜𝑛𝑛é𝑒𝑠 𝑏𝑟𝑢𝑡𝑒𝑠

Exemple : 𝑑²𝑀 (1,2)=

Distance euclidienne de données


𝟏 𝟏 2
⇒ si 𝑴 = 𝑫 𝟏 , 𝒆𝒕 𝒎𝒋𝒋 = ,𝑑 2 (𝑥𝒊 , 𝑥𝑖′ ) = ∑𝑝𝑗=1 𝟐 (𝑥𝒊𝒋 − 𝑥𝑖 ′ 𝑗 ) ⟶ centrées - réduites
𝝈𝟐 𝒋 𝝈
𝝈𝟐 𝑀

𝑝
2
= ∑(𝑧𝒊𝒋 − 𝑧𝑖′ 𝑗 ) ⟶ 𝑑2 𝑫 𝟏 (𝑥𝒊 , 𝑥𝑖′ ) = 𝑑2 𝐼 (𝑧𝒊 , 𝑧𝑖′ )
𝑗=1 𝝈𝟐

𝝈𝟐 𝒋 ∶ é𝑡𝑎𝑛𝑡 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑑𝑒 𝑙𝑎 𝑗 è𝑚𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒

𝐸𝑥𝑒𝑚𝑝𝑙𝑒: 𝑑2 𝑫 𝟏 (1,2) =
𝝈𝟐

p. 3
Analyse exploratoire 2020/2021

Rappels Matriciels

Définitions
On représente la matrice 𝑀 par un tableau à 𝑛 lignes et 𝑝 colonnes, en mettant l’élément
𝑚𝑖𝑗 à l’intersection de la 𝑖 è𝑚𝑒 ligne et la 𝑗 è𝑚𝑒 colonne

 Une matrice M est dite carrée lorsque : n=p


 Une matrice M est dite symétrique lorsque 𝒎𝒊,𝒋 = 𝒎𝒋,𝒊
 Une matrice M est dite triangulaire supérieur (resp.inférieur) lorsque 𝒎𝒊,𝒋 = 𝟎 pour
couple (i,j) telle que 𝒊 ≥ 𝒋 = 𝟎 resp (𝒊 ≤ 𝒋)
 Une matrice M est dite diagonale lorsque 𝒎𝒊,𝒋 = 𝟎 pout tout couple (i,j) telle que 𝒊 ≠ 𝒋

Diagonalisation d'une matrice carrée :


Nous donnons ici un exemple à partir de la matrice symétrique définie positive suivante

⇒ Recherche des valeurs propres

p. 4
Analyse exploratoire 2020/2021

⇒ Recherche des vecteurs propres

p. 5
Analyse exploratoire 2020/2021

⇒ Diagonalisation :

p. 6
Analyse exploratoire 2020/2021

Le coefficient de corrélation linéaire

La corrélation est une mesure qui décrit la force et la direction d'une relation entre deux
variables. Il est couramment utilisé dans les statistiques, l'économie et les sciences sociales
pour les budgets, les plans d'entreprise, etc.

La méthode utilisée pour étudier le degré de corrélation entre les variables s'appelle l'analyse
de corrélation. Quelques exemples de corrélation forte :
- Le nombre de calories que vous mangez et votre poids (corrélation positive)
- La température extérieure et vos factures de chauffage (corrélation négative)

Un exemple de corrélation faible ou nulle :


- La couleur de vos yeux et votre taille

Définition

 Soient 𝑋 et Y deux variables quantitatives de ℝ𝑛 . On dit qu’il y a une corrélation s’il y


a une dépendance entre 𝑿 𝒆𝒕 𝒀. Si cette liaison est linéaire ⇒ le cas de la corrélation
linaire.
 La corrélation mesure dans quelle mesure une ligne droite passe par une dispersion
de points.

Le coefficient de corrélation linéaire sert à caractériser une liaison linéaire positive ou


négative, il est définie par :
𝟏 𝒏
𝝈𝑿𝒀 ̅ (𝒚 − 𝒀)
∑ (𝒙 − 𝑿) ̅
𝒏 𝒊=𝟏 𝒊 𝒊
𝚪𝑿𝒀 = =
𝝈𝑿 𝝈𝒀 𝟏 𝟏
√ ∑𝒏𝒊=𝟏(𝒙𝒊 − 𝑿̅ )²√ ∑𝒏𝒊=𝟏(𝒚𝒊 − 𝒀̅ )²
𝒏 𝒏
Avec 𝝈𝑿 et 𝝈𝒀 sont les écarts types de X et Y, 𝝈𝑿𝒀 la covariance entre X et Y.

 Formule de la moyenne de : ̅ = 𝟏 ∑𝒏𝒊=𝟏 𝒚𝒊


𝒀 et ̅ = 𝟏 ∑𝒏𝒊=𝟏 𝒙
𝑿
𝒏 𝒏

1
 ̅ =( 1 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 ) − 𝑋̅𝑌̅
̅ (𝑦 − 𝑌)
La covariance : 𝜎𝑋𝑌 = 𝑐𝑜𝑣(𝑋, 𝑌) = ∑𝑛𝑖=1(𝑥𝑖 − 𝑋)
𝑛 𝑖 𝑛

1 1
 La variance de X : 𝜎𝑋 ² = 𝑣𝑎𝑟(𝑋) = ∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅ )² ⟹ 𝜎𝑋 = √ ∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅ )²
𝑛 𝑛

1 1
 La variance de Y :𝜎𝑌 ² = 𝑣𝑎𝑟(𝑌) = ∑𝑛𝑖=1(𝑦𝑖 − 𝑌̅ )² ⟹ 𝜎𝑌 = √ ∑𝑛𝑖=1(𝑦𝑖 − 𝑌̅ )²
𝑛 𝑛

p. 7
Analyse exploratoire 2020/2021

Le coefficient de Corrélation varie entre -1 et 1 :

p. 8
Analyse exploratoire 2020/2021

Matrice de Variance - Covariance :


Lorsque l’on observe les valeurs numériques de 𝑷 variables sur 𝒏 individus on se trouve
en présence d’un tableau 𝑿 à 𝒏 lignes et 𝑷 colonnes.
𝒋
𝒙𝒊 : est la valeur prise par la variable j sur le 𝒊 − è𝒎𝒆 individu.
La matrice des Variances-Covariances des 𝒑 variables :

Alors la matrice de covariance V est définie par :

Matrice de corrélation
On appelle matrice de corrélation la matrice regroupant tous les coefficients de corrélation
linéaire entre les p variables prises deux à deux qu’on la note R

En posant :

p. 9
Analyse exploratoire 2020/2021

La matrice diagonale des inverses des écarts types.

On

Conclusion :
On remarque que les variables ne sont pas très corrélées entre elles.

 Les projecteurs : La notion de projection est fondamentale en statistique. Par exemple


la moyenne est une projection sur la droite des constantes. L’analyse en composante
principale est basée sur des projecteurs de même qu’a régression linéaire.

p. 10
Analyse exploratoire 2020/2021

Statistique descriptive unidimensionnelle

Quelques définitions

p. 11

Vous aimerez peut-être aussi