Vous êtes sur la page 1sur 63

Analyse des données :

Statistiques et Probabilité

1
Par Département: Informatique
Stéphane C. K. TEKOUABOU (P.h.D & Ing.)
Année : 2022-2023
SOMMAIRE
01 Introduction

02 Objectifs de l’analyse des données

03 Eléments fondamentaux

04 Statistique descriptive

05 Notion de distances

06 Normalisation des données

07 ANOVA

08 Analyses factorielles

09 Valeurs absentes et techniques de remplacement


1. Introduction
L’analyse des données est:

 une technique relativement ancienne 1930 (PEARSON, SPEARMAN, HOTELLING). Elle a connu
cependant des développements récents 1960-1970 du fait de l'expansion de l'informatique.

 une technique d'analyse statistique d'ensemble de données. Elle cherche à décrire des tableaux
et à en exhiber des relations pertinentes. Elle se distingue de l’analyse exploratoire des données.

 un ensemble de méthodes mathématiques qui permettent de traiter des "items" dans un tableau. ...

L'objectif de la démarche statistique est de faire apparaître ces liaisons. Les deux types de relations fondamentales sont les
relations d'équivalence et les relations d'ordre. Ainsi, une population peut-elle être décomposée en classes hiérarchisées.
2. Objectifs
L’analyse des données permet de:

 Synthétiser, structurer l'information contenue dans des données multidimensionnelles


(n individus, p variables)

 traiter des informations du type : quels sont les items identiques ou dissemblables,
quelles sont les relations entre les items et les variables associées.

 Mesurer les performances des indicateurs clés afin de récolter des analyses précises.

 Tirez profit des outils d’analyse comme Google Analytics et les réseaux sociaux pour
répondre au mieux aux attentes de vos clients.

 Permettre d’optimiser l’outil de production en analysant les historiques de commandes,


d’assurer le fonctionnement de leur chaîne logistique ainsi que d’améliorer le service après vente.
On parlera alors plutôt de “data management“.
3. Eléments fondamentaux
3.1 Méthodes
 Algèbre linéaire: les données sont vues de manière abstraites comme un nuage de points dans un espa
ce vectoriel. On utilise

 Des matrices qui permettent de manipuler un ensemble de variables comme un objet mathémati
que unique ; 3. ELÉMENTS FONDAMENTAUX
 Des valeurs et vecteurs propres qui permettent de décrire la structure d'une matrice.
 Des métriques : permettent de définir la distance entre deux points de l'espace vectoriel ; on utilis
e aussi des produits scalaires.

 Théorie des probabilités nécessaire en statistique inférentielle (estimation, tests, modélisation et prévis
ion,...).
3. Eléments fondamentaux
 Produit scalaire 3.2 Rappels géométrie: Produit scalaire
Le produit scalaire de deux vecteurs est le produit de la longueur de l'un par la projection de l'autre sur l
ui. (u.v.Cos(u,v))

 Propriétés
 Si les vecteurs sont orthogonaux le produit scalaire est nul.
 Si les vecteurs sont colinéaires le produit scalaire est ±(𝑢. 𝑣)
 Si les vecteurs unitaires sont orthogonaux le produit scalaire est égal à la somme des produits des co
mposantes correspondantes.

 Projection
La projection d'un vecteur sur un axe est obtenue par le produit scalaire du vecteur par le vecteur unitair
e de l'axe. Cela permet le changement d’axe de coordonnées.

 Distance
Dans l’espace des variables, un produit scalaire particulier, et donc une distance, s’impose.
Le choix d’une distance est toujours arbitraire dans l’espace des individus, car il est possible d’associer à c
haque variable un coefficient de pondération.
3. Eléments fondamentaux
3.2 Rappels géométrie: Matrice
 Matrice: tableau de données carré ou rectangulaire.

 Vecteur: matrice a une seule colonne. 1


ൗ𝑆12 ⋯ 0 1.

 Cas particuliers : matrice identité 𝐼= ⋮ ⋱ ⋮ ; 1= . ;


0 ⋯ 1
ൗ𝑆𝑝2 .
1
 Transposition de matrice: échange des lignes et des colonnes d'une matrice ; on note M’ la transposée
de M.

Matrice des poids


 Pourquoi: utile quand les individus n'ont pas la même importance

 Comment: on associe aux individus un poids pi tel que 𝑝1 ⋯ 0


𝒑𝟏 + 𝒑𝟐 + … . +𝒑𝒏 = 1 𝐷= ⋮ ⋱ ⋮
0 ⋯ 𝑝𝑛
et on représente ces poids dans la matrice diagonale de taille n
 Cas uniforme: tous les individus ont le même poids 𝒑𝒊 = 𝟏Τ𝒏 𝒆𝒕 𝑫 = 𝟏Τ𝒏
3. Eléments fondamentaux
3.3 Rappels matriciels: Point moyen et tableau centré

 Point moyen
c'est le vecteur g des moyennes arithmétiques de chaque variable :
𝐠′ = (𝒙 −𝟏 … … 𝒙 −𝒑 ) où 𝒙 −𝒋 = σ𝒏𝒊=𝟏 𝒑 𝒊 𝒙 𝒊 ; on peut donc écrire 𝐠′ = 𝑿 ′ 𝑫𝟏

 Tableau centré
𝒋 𝒋
il est obtenu en centrant les variables autour de leur moyenne 𝒚𝒊 = 𝒙𝒊 − 𝒙 𝒋 ou en notation matricielle

Y  X 1g' (I 11' D)X


3. Eléments fondamentaux
3.4 Rappels : Matrice de variance-covariance
Covariance: un nombre permettant de quantifier les écarts conjoints de deux variables aléatoire par
rapport à leurs espérances respectives

 Matrice Var-Covar: c'est une matrice carrée de dimension p

ou skl est la covariance des variables xk et xl et s2j est la variance de la variable xj


 Formule matricielle
V  X ' DX  gg' Y ' DY

Voir https://fr.wikipedia.org/wiki/Covariance pour plus de détails


3. Eléments fondamentaux
3.5 Rappels : Matrice de corrélations
 Corrélation: quotient de les covariances de deux variables aléatoire par le produit de leurs écarts-types.

 Forme matricielle:

Voir https://fr.wikipedia.org/wiki/Corr%C3%A9lation_(statistiques) pour plus de détails


3. Eléments fondamentaux
3.2 Rappels géométrie: Métrique
 Métrique usuelle
𝒑
𝑀 = 𝐼 correspond au produit scalaire usuel et 𝑰𝒈 = 𝑻𝒓 𝑽 = σ𝒋=𝟏 𝑺𝟐𝒊 où V est la matrice de variance-co
variance (Voir la section 3.4, page 10)

 Problème
– la distance entre individus dépend de l'unité de mesure.
– la distance privilégie les variables les plus dispersées.

 Métrique réduite
c'est la plus courante ; on prend la matrice diagonale des inverses des variances.
𝑰𝒈 = 𝑻𝒓 𝐷1ൗ 2 𝑽 = 𝑻𝒓 𝐷1Τ𝑆 𝑽 𝐷1Τ𝑆 =𝑻𝒓 𝑹 = 𝒑
𝑆 1
ൗ𝑆12 ⋯ 0
𝑀 = 𝐷1ൗ = ⋮ ⋱ ⋮
𝑆2 1
0 ⋯ ൗ𝑆𝑝2

IA & BD
3. Eléments fondamentaux
3.2 Rappels géométrie: Métrique et tableau transformé
 Utiliser la métrique 𝑴 = 𝑻′ 𝑻 sur le tableau X est équivalent a travailler avec la métrique classique 𝐼 s
ur le tableau transforme 𝑿𝑻′

 Tableau transformé
– Si on travaille sur le tableau transforme 𝑿𝑻′ (changement de variables) au lieu de 𝑋, alors les nou
veaux individus seront de la forme 𝑻𝒆𝒊 et


𝑻𝒆𝒊𝟏 , 𝑻𝒆𝒊𝟐 = 𝑻𝒆𝒊𝟏 𝑻𝒆𝒊𝟐 = 𝒆′𝒊𝟏 𝑻′ 𝑻𝒆𝒊𝟐 = 𝒆′𝒊𝟏 𝑴𝒆𝒊𝟐 = 𝑻𝒆𝒊𝟏 , 𝑻𝒆𝒊𝟐

 Réciproque
pour toute matrice symétrique positive 𝑴, il existe une matrice 𝑻 (racine carrée de 𝑴) telle que
𝑴 = 𝑻′ 𝑻
et donc on peut ramener l′utilisation de la métrique a un changement de variables.
3. Eléments fondamentaux
3.6 Rappels : Vecteurs propres et valeurs propres
 Trace: La trace d'une matrice est la somme des termes de la diagonale principale.
 Valeur propre  est valeur propre de A <=> Det(A -  I) = 0
 Vecteur propre 𝑉 est vecteur propre de f si f V =  .V
 Définition
un vecteur v de taille p est un vecteur propre d'une matrice A de taille p x p s'il existe λ Є C telle que
Av  v
est une valeur propre de A associée à v.

 Domaine: En général, les vecteurs propres et valeurs propres sont complexes; dans tous les cas qui nou
s intéressent, ils seront réels.

 Interprétation des vecteurs propres: ce sont les directions dans lesquelles la matrice agit.

 Interprétation des valeurs propres: c'est le facteur multiplicatif associe a une direction donnée.
3. Eléments fondamentaux
3.6 Rappels : Vecteurs propres et valeurs propres
 Exemple: soit la matrice M suivante. Calculez ses vecteurs propres et ses valeurs propres.

5 1 −1
𝑀= 2 4 −2
1 −1 3

M a pour vecteurs propres 0 1 1


𝑣1 = 1 𝑣2 = 0 𝑣3 = 1
1 1 0

On vérifie facilement que les valeurs propres associées sont


1  2 2  4 3  6
3. Eléments fondamentaux
3.6 Cas particuliers : Vecteurs propres et valeurs propres
 Matrice nulle: sa seule valeur propre est 0, et tout vecteur est vecteur propre.

 Matrice identité: tout vecteur est vecteur propre de I avec valeur propre 1, puisque Iv = v.

 Matrice diagonale: si Dλ est une matrice diagonale avec les coefficients λ1,λ2,… λp, alors le i-eme vecteur co
ordonnée est vecteur propre de Dλ associe a la valeur propre λ i.
L'action d'une matrice diagonale est de multiplier chacune des coordonnées d'un vecteur par la valeur propr
e correspondante.

 Matrice diagonalisable
c'est une matrice dont les vecteurs propres forment une base de l'espace vectoriel : tout vecteur peut être
représenté de manière unique comme combinaison linéaire des vecteurs propres. Une matrice de taille p
x p qui a p valeurs propres réelles distinctes est diagonalisable dans R.

 matrice diagonale Une matrice diagonale est une matrice dont tous les termes appartiennent à la dia
gonale principale.
3. Eléments fondamentaux
3.6 Cas particuliers : Vecteurs propres et valeurs propres
 Matrice symétrique
une matrice symétrique réelle (A’ = A) possède une base de vecteurs propres orthogonaux et se
s valeurs propres sont réelles
vi , v j = 𝟎 𝒔𝒊 𝒊 ≠ 𝒋 𝒆𝒕 i 
 Matrice M-symetrique
une matrice M-symetrique réelle (A’M = MA) possède une base de vecteurs propres M-orthogonaux e
t ses valeurs propres sont positives ou nulles

vi , v j 𝑀 = 0 𝑠𝑖 𝑖 ≠ 𝑗 𝑒𝑡 i 
 Matrice définie positive
c'est une matrice symétrique dont les valeurs propres sont strictement positives et donc

vi ,v j = 𝟎 𝒔𝒊 𝒊 ≠ 𝒋 𝒆𝒕 i > 𝟎
3. Eléments fondamentaux
3.6 Cas particuliers : Vecteurs propres et valeurs propres
Analyse de la matrice notée VM
 Valeurs propres:
la matrice VM est M-symetrique: elle est donc diagonalisable et ses valeurs propres λ1, λ2, λp sont réelles.

 Vecteurs propres
1 𝑠𝑖 𝑖 = 𝑗
il existe donc p vecteurs a1, …, ap tels que 𝑽𝑴ai = .ai 𝒂𝒗𝒆𝒄 vi ,v j 𝑀 =ቊ
0 𝑠𝑖𝑛𝑜𝑛
Les ai sont les axes principaux d'inertie de VM. Ils sont M-orthonormaux.
 Signe des valeurs propres
les valeurs propres de VM sont positives et on peut les classer par ordre décroissant
1  2  ...   p  0

 Idée du lien avec l'inertie on sait que .


Tr(VM )  1  2  ...  p
Si on ne garde que les données relatives a a1, …, ap on gardera l'inertie λ1 + λ2 +…+ λp, et c'est le mieux qu'on puisse
faire.
3. Eléments fondamentaux
3.7 Rappels matriciels: mécanique

 Centre de gravité Le centre de gravité d'un solide, ou barycentre, correspond à la notion statistiqu
e de moyenne.

 Inertie: L'inertie d'un solide correspond à la notion de variance. Un corps a d'autant plus d'inertie qu
'il faut: valeur
- Inertie d'énergie pour le mettre
caractérisant en rotationou
la concentration autour d'un axe.de points sur un axe,
la dispersion
un plan ou tout espace. L'inertie peut être représentée par une variance.
l'inertie totale est égale à l'inertie expliquée par l'axe et l'inertie autour de l'axe. les 3 valeurs propres de la
Matrice V sont les inerties expliquées par les 3 axes du nuage. leur somme est égale à la trace de V, soit à l'i
nertie du nuage.

- Inertie : valeur caractérisant la concentration ou la dispersion de points sur un axe, un plan ou tout espace.
L'inertie peut être représentée par une variance.
3. Eléments fondamentaux
3.8 Rappels matriciels: mécanique: Inertie
 Définition
l'inertie en un point a du nuage de points est
𝒏 𝒏
𝟐
𝑰𝒂 = ෍ 𝒑 𝒊 𝒆 𝒊 − 𝒂 𝑴 = ෍ 𝒑𝒊 𝒆𝒊 − 𝒂 ′ 𝑴(𝒆𝒊 − 𝒂)
𝒊=𝟏 𝒊=𝟏

 Autres relations
l'inertie totale Ig est la moitie de la moyenne des carrés des distances entre les individus
𝒏 𝒏
𝟐
𝟐𝑰𝒂 = ෍ ෍ 𝒑𝒊 𝒑𝒋 𝒆𝒊 − 𝒆𝒋
𝑴
𝒊=𝟏 𝒋=𝟏

 L'inertie totale est aussi donnée par la trace de la matrice MV (la trace d'une matrice étant la
somme de ses éléments diagonaux).

I g  Tr(MV )
4. Statistique descriptive

 La Statistique Descriptive est l'ensemble des méthodes et techniques permettant de présenter, de d


écrire, de résumer, des données nombreuses et variées.

 population statistique est l'ensemble étudié dont les éléments sont des individus ou unités statistiques.

 Recensement: étude de tous les individus d'une population donnée.

 Sondage: étude d'une partie seulement d'une population appelée échantillon.



Echantillon est un ensemble d'individus extraits d'une population initiale de manière aléatoire de façon
à ce qu'il soit représentatif de cette population

 Caractère est l’aspect des individus que l’on étudie

 La Statistique explicative ou exploratoire.


4. Statistique descriptive

 Nature d‘une variable:

– quantitatives:
nombres sur lesquels les opérations usuelles (somme, moyenne,...) ont un sens ; elles peuvent être discrètes (
ex : nombre d'éléments dans un ensemble) ou continues (ex: prix, taille) ;

La variable peut alors être discrète ou continue selon la nature de l'ensemble des valeurs qu'elle est susceptible de
prendre (valeurs isolées ou intervalle).

– qualitatives:
appartenance a une catégorie donnée ; elles peuvent être nominales (ex : sexe, CSP) ou ordinales quand les catég
ories sont ordonnées (ex : très résistant, assez résistant, peu résistant)

On distingue des variables qualitatives ordinales ou nominales, selon que les modalités peuvent être naturelle
ment ordonnées ou pas.

Une variable est ordinale si l'ensemble des catégories est munie d'un ordre total si non elle est nominale
4. Statistique descriptive
4.1 Nature des variables
4. Statistique descriptive
4.2 Paramètres de dispersion et de position

 Introduction

on dispose d'une série d'indicateurs qui ne donne qu'une vue partielle des données : effectif, moyenne,
médiane, variance, écart type, minimum, maximum, étendue, 1er quartile, 3eme quartile, ...

Ces indicateurs mesurent principalement la tendance centrale et la dispersion. On utilisera principale


ment la moyenne, la variance et l'écart type.
3. Eléments fondamentaux
4.2 Paramètres de position: la moyenne

 La moyenne arithmétique d'une série brute numérique x1 , x2 , ... , xn est le quotient de la somme d
es observations par leur nombre.

1 𝑛 𝑥ҧ = σ𝑛𝑖=1 𝑝𝑖 𝑥𝑖
On note: 𝑥ҧ = σ𝑖=1 𝑥𝑖 ou pour des données pondérées
𝑛

 Propriétés  Propriétés
la moyenne arithmétique est une mesu
re de tendance centrale qui dépend de A- Lorsqu’on ajoute un même nombre k à toutes les vale
toutes les observations et est sensible a urs d’une série statistique, la moyenne augmente de k
ux valeurs extrêmes. Elle est très utilisé
e a cause de ses bonnes propriétés ma B- Lorsqu’on multiplie toutes les valeurs de la série statis
thématiques. tique par un nombre k, la moyenne est multipliée par k.
4. Statistique descriptive
4.3 Paramètres de dispersion: l’écart-type
 Définition : calculés généralement en complément de la moyenne, pour mesurer la plus ou moins gran
de dispersion autour de celle-ci
2 1 𝑛 2 𝑛
la variance de x est définie par 𝑆𝑥 = σ𝑖=1(𝑥𝑖 −𝑥)² ҧ ou 𝑆𝑥 = σ𝑖=1 𝑝𝑖 (𝑥𝑖 − 𝑥)² ҧ
𝑛
L'écart type sx est la racine carrée de la variance.

 Propriétés 2 1 𝑛
La variance satisfait la formule suivante 𝑆𝑥 = σ𝑖=1 𝑝𝑖 𝑥𝑖 ² − 𝑥² ҧ
𝑛
La variance est « la moyenne des carres moins le carre de la moyenne ». L'ecart-type, qui a la même u
nité que x, est une mesure de dispersion.
A- Lorsqu’on ajoute un même nombre k à toutes les valeurs d’une série statistique, l’écart-type ne change
pas
B- Lorsqu’on multiplie toutes les valeurs de la série statistique par un nombre k, l’écart-type est multipliée
par |k|.
4. Statistique descriptive
4.3 Distribution statistique à 2 variables
Mesure de liaison entre 2 variables

 Relations entre deux caractères quantitatifs


- Covariance
- Coefficient de corrélation linéaire de BRAVAIS-PEARSON

 Relations entre deux caractères qualitatifs


- Le khi-deux

 Relations entre caractères quantitatifs et qualitatifs


- Le rapport de corrélation théorique
- Le rapport de corrélation empirique
4. Statistique descriptive
4.3 Distribution statistique à 2 variables
Mesure de liaison entre 2 variables

 Covariance observée entre deux variables x et y est définie comme

𝑛 𝑛

𝑆𝑥𝑦 = ෍ 𝑝𝑖 (𝑥𝑖 −𝑥)(𝑦


ҧ 𝑖 − 𝑦)
ത = ෍ 𝑝𝑖 𝑥𝑖 𝑦𝑖 − 𝑥𝑦
𝑘=0 𝑘=0

et le cœfficient de r de Bravais-Pearson ou coefficient corrélation est donné


par

𝑆𝑥𝑦 σ𝑛𝑘=0 𝑝𝑖 (𝑥𝑖 −𝑥)(𝑦


ҧ 𝑖 − 𝑦)

𝑟𝑥𝑦 = =
𝑆𝑥 𝑆𝑦 σ𝑛𝑘=0 𝑝𝑖 (𝑥𝑖 −𝑥)ҧ σ𝑛𝑘=0 𝑝𝑖 (𝑦𝑖 − 𝑦)

4. Statistique descriptive
4.3 Distribution statistique à 2 variables
Mesure de liaison entre 2 variables: Propriété du coefficient de corrélation

 La covariance est positive si X et Y ont tendance à varier dans le même sens, et négative si elles ont
tendance à varier en sens contraire

 La covariance ne dépend pas de l'origine choisie pour X et Y, mais dépend des unités de mesure. C'e
st pourquoi, pour mesurer l'aspect plus ou moins "allongé" du nuage dans une direction, par un coef
ficient sans unité : C'est le coefficient de corrélation linéaire

 Ce coefficient, symétrique en X et Y, indépendant des unités choisies pour X et Y, et de l'origine, est t


oujours compris entre - 1 et 1.
- |rxy| = 1 si et seulement si x et y sont linéairement liées, En particulier, rxx = 1.
-si rxy = 0, on dit que les variables sont décorrélées ou indépendants.
4. Statistique descriptive
4.4 Exercices
Exercice 1

1.Un enseignant a noté des copies sur 33 points. On lui demande de donner des notes sur 20, pour cela, i
l multiplie toutes les notes par un coefficient constant, de sorte qu’une copie ayant 33 sur 33 ait 20 sur
20. Que deviennent la moyenne et l’écart type des notes ?
2.Deux enseignants ont corrigé des copies. L’un mesure une moyenne de 7 et un écart type de 3.5, le se
cond une moyenne de 12.5 et un écart type de 5. Quelle transformation affine doivent-ils appliquer aux
notes pour obtenir une moyenne de 10 et un écart type de 2.5. Que devient pour chacun d’entre eux
la note 20 ?
4. Statistique descriptive
4.4 Exercices
Exercice 2

Une entreprise est constituée de deux usines, appelées A et B. Le tableau suivant récapitule les salaires en
euros par catégorie de personnel et par usine :
Usine A Salaires Effectifs Usine B Salaires Effectifs
Ouvriers 700 200 Ouvriers 900 60
Employés 1400 20 Employés 1600 40
Cadres 5300 10 Cadres 7300 20

1.Calculer la moyenne des salaires dans chacune des usines, dans l’entreprise. Vérifier que la moyenne des salaires dans l’
entreprise est la moyenne des salaires moyens de chaque usine.
2.Calculer la moyenne des salaires des ouvriers, puis des employés et enfin des cadres dans l’entreprise.
3.Calculer la variance des salaires dans chacune des usines et dans l’entreprise.
4.Vérifier que la variance des salaires dans l’entreprise est égale à la moyenne des variances des usines augmentée de la v
ariance des moyennes calculées dans chaque usine. Quelle est la propriété du cours illustrée ici ?
4. Statistique descriptive
4.4 Exercices
Français Anglais Maths Sport
Exercice 3
On étudie le tableau de notes de 6 élèves : 5.0 5.0 6.0 14.0
8.0 7.0 4.0 11.0
10.0 9.0 5.0 8.0
15.0 14.0 10.0 7.0
11.0 12.0 13.0 9.0
5.0 7.0 10.0 16.0

Dans un premier temps, la métrique utilisée est la métrique euclidienne standard.


1.Calculer le centre de gravité et le tableau des données centrées.
2.Calculer la matrice de variance/covariance des quatre variables ainsi que les coefficients de corrélation pour chaque
paire de variables.
3.Calculer l’inertie du nuage des individus par rapport au centre de gravité.
4.Calculer les contributions des individus à l’inertie et les contributions des variables à la variance totale.
5.On utilise à présent la métrique donnée par l’inverse des variances de chaque variable. Que deviennent le tableau de
s données centrées, ainsi que la matrice de variance/covariance des quatre variables. Calculer le cosinus de l’angle form
é entre les élèves 1 et 4 pour la métrique euclidienne.
4. Statistique descriptive
4.4 Exercices
Exercice 4

Télécharger les données sur le lien suivant: http://pbil.univ-lyon1.fr/members/mbailly/TP/epidemio.xls.

1) Construire le nuage de points en posant en abscisse l‘âge et en ordonnée la tension artérielle. Superposer
le modèle linéaire correspondant.
2) Donner ses paramètres.
3) Calculer le coefficient de corrélation linéaire liant ces deux variables. Conclure.
4) L'information "fumeur ou non fumeur" n'a pas été introduite. Coloriez les points du nuage par cette informa
tion. Que peut-on conclure ?
5) Reprendre le graphique précédent et y ajouter les droites de régression séparément pour les fumeurs et n
on fumeurs.
6) Comment interpréter les pentes et les ordonnées à l'origine de ces deux droites de régression ici ? Biologi
quement, que pouvez-vous conclure à partir du graphe précédent ?
7) Calculer le centre de chaque classe.
4. Statistique descriptive
4.3 Distribution statistique à 2 variables
Mesure de liaison entre 2 variables: Corrélation et liaison significative

 Problème
A partir de quelle valeur de rxy peut-on considérer que les variables x et y sont liées?

 Domaine d'application
on se place dans le cas ou le nombre d'individus est n > 30.
 Méthode
si x et y sont deux variables gaussiennes indépendantes, alors on peut montrer que

(𝑛 − 2)𝑟²𝑥𝑦
1 − 𝑟²𝑥𝑦

suit une loi de Fischer-Snedecor F(1; n-2). Le résultat est valable dans le cas non gaussien pour n > 30.
4. Statistique descriptive
4.3 Distribution statistique à 2 variables
Le test

 on se fixe un risque d'erreur (0,01 ou 0,05 en général) et on calcule la probabilité

𝑛 − 2 𝑟 2 𝑥𝑦
𝑃 𝐹 1, 𝑛 − 2 > 2
=𝜋
1 − 𝑟 𝑥𝑦
 Si π < α on considère que l'événement est trop improbable et que donc que l'hypothèse originale d'i
ndépendance doit être rejetée au seuil . On trouvera en général ces valeurs dans une table pré-calculé
e de la loi F.
4. Statistique descriptive
4.3 Distribution statistique à 2 variables
Les tableaux

Les populations comprennent des individus distingués selon un certain nombre de variables, Ces informati
ons sont rassemblées dans des tableaux de base croisant individus et variables, Ces tableaux peuvent s’int
erpréter de deux façons: un nuage d’individus dans un ensemble de variables ou un nuage de variables da
ns un ensemble d’individus.
 Exemple de tableau de données: Pour n individus et p variables, on a le tableau X est une matrice recta
ngulaire a n lignes et p colonnes
4. Statistique descriptive
4.3 Vecteurs variable et individu
 Variable
Une colonne du tableau
𝑗
𝑥1
𝑗
𝑥2
𝑥𝑗 = :
:
𝑗
𝑥𝑛
 Individu
Une ligne du tableau

𝑝
𝑒′𝑖 = (𝑥𝑖1 𝑥𝑖2 ….. 𝑥𝑖 )
4. Statistique descriptive
4.4 Tableaux: variable et individu
 Tableaux individus X variables quantitatives
 Tableaux logiques ou booléens ou binaires
 Tableaux disjonctifs complets: individus X variable à chaque modalité, placée en colonne correspond un
e variable indicatrice, C’est la juxtaposition de plusieurs tableaux logiques,
X’X est une matrice diagonale dont les éléments sont les effectifs de chaque modalité.
 Tableaux présence absence
 Tableaux des données ordinales ou de préférence Individus X objet à classer, Une case correspond à une note va
riant de 1 au nombre d’objets à classer
 Tableaux de distances ou de proximité: Individus X individus, il présente les distance entre les individus, Ces table
aux sont symétriques autour de la diagonale principale
 Tableaux de contingence: variables X variables: il croise les modalités de deux variables qualitatives
 Tableaux de BURT: Il croise les modalités de plus de 2 variables qualitatives. Il est symétrique.
 Tableaux des rangs
 Tableaux hétérogènes ou mixtes: Individus X variables, Les variables sont de différentes natures
Soit les variables sont déjà des classements, soit pour les variables quantitatives on remplaces les valeurs par leur rang
5. Notion de distance
5.1 Définition
yB B
Dans le plan:
d 2 A, B  x B  x A   y B  y A 
2 2
A
yA

xA xB

Dans l’espace Rp à p dimensions, on généralise cette notion : la distance


euclidienne entre deux individus s’écrit:


e i  x1i x i2 ... x ip  
e j  x1j x 2j ... x pj 
d 2
e ,e  x
i j
1
i x j  x
1 2 2
i x j  ... x
2 2 p
i x j
p 2


ei ,e j   xik  x kj 
p
d 2 2
Le problème des unités ?
k1
5. Notion de distance
4.1 Définition
yB B
Dans le plan:
d 2 A, B  x B  x A   y B  y A 
2 2
A
yA

xA xB

Dans l’espace Rp à p dimensions, on généralise cette notion : la distance


euclidienne entre deux individus s’écrit:


e i  x1i x i2 ... x ip  
e j  x1j x 2j ... x pj 
d 2
e ,e  x
i j
1
i x j  x
1 2 2
i x j  ... x
2 2 p
i x j
p 2


ei ,e j   xik  x kj 
p
d 2 2
Le problème des unités ?
k1
4. Notion de distance
5.2 Exemple

1- Calculer les centres de chaque classe


5. Notion de distance
5.2 Exemple
X5 date
Id X1 stat X2 age X3 salaire X4 satisf dow d of m d of y month Year Y
E1 married 34 13000 3 5 9 221 8 2018,00 Oui
E2 married 28 8400 3 1 1 1 1 2019,00 Non
E3 single 25 22000 0 5 20 110 4 2017,00 Oui
E4 divorced 25 18000 0 3 25 84 3 2014,00 Oui
E5 divorced 31 23000 1 6 22 204 7 2016,00 Non
E6 married 44 10000 3 3 23 54 2 2016,00 Oui
E7 single 18 4500 1 1 24 206 7 2016,00 Oui
E8 single 30 14000 3 2 25 207 7 2016,00 Non
E9 divorced 52 23500 3 1 1 1 1 2019,00 Non
E10 divorced 34 15500 2 2 27 208 7 2015,00 Oui
E11 married 44 17500 0 5 28 210 7 2016,00 Oui
E12 single 15 3000 3 3 25 84 3 2014,00 Non
Max 52 23500 3 6 28 221 8 2019
Min 15 3000 0 1 1 1 1 2014

1- Calculer les centres de chaque classe


6. Normalisation des données
Lorsque les variables des données proviennent de distributions éventuellement différentes (et non nor
males), d’autres transformations peuvent être nécessaires. Une autre possibilité consiste à normaliser le
s variables pour amener les données sur la même échelle afin de faire des comparaisons plus justes.

Cette étape de prétraitement est importante pour le regroupement et la visualisation des heatmap, l’anal
yse en composantes principales et d’autres algorithmes d’apprentissage machine basés sur des mesures
de distance.
1- Normalisation: transformation qui consiste à ramener toutes les variables de données à la même échelle
tout en préservant la forme de la distribution de chaque variable et les rendant facilement comparables.

2-Types de normalisation et comparaison: Standard [𝜎, 𝐸], Moyenne, MIN-MAX [0,1], arbitraire [𝑎, 𝑏], …
6. Normalisation des données
6.1. Normalisation standard ou centrée-réduite ou z-score
La normalisation standard, également appelée standardisation ou normalisation z-score, consiste à sous
traire la moyenne et à la diviser par l’écart type. Dans ce cas, chaque valeur refléterait la distance par rap
port à la moyenne en unités d’écart-type.

Si nous supposons que toutes les variables proviennent d’une distribution normale, la normalisation z-sco
re les rapprocherait toutes de la distribution normale standard. La distribution résultante a une moyenne
de 0 et un écart-type de 1.
𝑋𝑖𝑗 − 𝑋ഥ𝑗
𝑋′𝑖𝑗 =
𝜎𝑗
6. Normalisation des données
6.2 Normalisation moyenne

Une alternative à la standardisation z-score est la normalisation de moyenne, dont la distribution résult
ante sera entre -1 et 1 avec une moyenne = 0.

𝑋𝑖𝑗 − 𝑋ഥ𝑗
𝑋′𝑖𝑗 =
𝑋𝑗 − 𝑋𝑗
𝑚𝑎𝑥 𝑚𝑖𝑛

NB: La normalisation z-core et la normalisation de moyenne peuvent être utilisées pour les algorithmes
qui supposent des données centrées sur le zéro, comme l’analyse en composantes principales (ACP).
6. Normalisation des données
6.3 Normalisation MIN-MAX ([0,1])

1- Définition: Elle consiste à ramener toutes les valeurs dans un intervalle compris entre 0 et 1.

𝑋𝑖𝑗 − 𝑋𝑗𝑚𝑖𝑛
𝑋′𝑖𝑗 =
𝑋𝑗 − 𝑋𝑗
𝑚𝑎𝑥 𝑚𝑖𝑛
6. Normalisation des données
6.4 Normalisation MIN-MAX ([a,b])

1- Définition: Elle consiste à ramener toutes les valeurs dans un intervalle compris entre a et b où a est la
valeur minimale et b la valeur maximale.

(𝑋𝑖𝑗 −𝑋𝑗𝑚𝑖𝑛 )(𝑏 − 𝑎)


𝑋′𝑖𝑗 = 𝑎 +
𝑋𝑗 − 𝑋𝑗
𝑚𝑎𝑥 𝑚𝑖𝑛
6. Normalisation des données
6.5 Normalisation: Exemple

Exemple: Tableau normalisé selon la norme MIN-MAX

X5 date
Id X1 stat X2 age X3 salaire X4 satisf dow d of m d of y month Year Y
E1 married 0,51351351 0,48780488 1 0,8 0,296296296 1 1 0,8 Oui
E2 married 0,35135135 0,26341463 1 0 0 0 0 1 Non
E3 single 0,27027027 0,92682927 0 0,8 0,703703704 0,495454545 0,428571429 0,6 Oui
E4 divorced 0,27027027 0,73170732 0 0,4 0,888888889 0,377272727 0,285714286 0 Oui
E5 divorced 0,43243243 0,97560976 0,333333333 1 0,777777778 0,922727273 0,857142857 0,4 Non
E6 married 0,78378378 0,34146341 1 0,4 0,814814815 0,240909091 0,142857143 0,4 Oui
E7 single 0,08108108 0,07317073 0,333333333 0 0,851851852 0,931818182 0,857142857 0,4 Oui
E8 single 0,40540541 0,53658537 1 0,2 0,888888889 0,936363636 0,857142857 0,4 Non
E9 divorced 1 1 1 0 0 0 0 1 Non
E10 divorced 0,51351351 0,6097561 0,666666667 0,2 0,962962963 0,940909091 0,857142857 0,2 Oui
E11 married 0,78378378 0,70731707 0 0,8 1 0,95 0,857142857 0,4 Oui
E12 single 0 0 1 0,4 0,888888889 0,377272727 0,285714286 0 Non
7. ANOVA (Analysis of Variance)
7.1 Rappels

IA & BD
7. ANOVA (Analysis of Variance)
7.1 Rappels

IA & BD
7. ANOVA (Analysis of Variance)
Définition et principe
L'analyse de la variance a pour but la comparaison des moyennes de k populations, à partir d'échantillons
aléatoires et indépendants prélevés dans chacune d'elles.

Ces populations sont en général des variantes (ou niveaux k) d'un ou plusieurs facteurs contrôlés de variation
(facteurs A, B, ...). D’où les condition d’application de l’ANOVA:
-les populations étudiées doivent suivre une distribution normale
-les variances des populations doivent être toutes égales
-les échantillons 𝐸𝑖 de tailles 𝑛𝑖 doivent être prélevés aléatoirement et indépendamment dans les populations.

Procédure de calcul d'une ANOVA:


Déterminer si les échantillons varient de la même manière. Si nous démontrons l'homogénéité des variances,
alors nous pouvons comparer les moyennes de ces échantillons.

Plus de détails: http://unt-ori2.crihan.fr/unspf/2010_Limoges_Vignoles_StatsAnova/co/09-1%20anova-1-facteur.html IA & BD


8. Analyses factorielles

Objectifs:

Les analyses factorielles tentent de répondre à la question : « tenant compte des ressemblances des indivi
dus et des liaisons entre variables, est-il possible de résumer toutes les données par un nombre restreint
de valeurs sans perte d'information importante ? »

En effet en cherchant à réduire le nombre de variables décrivant les données, la quantité d'information ne p
eut être que réduite, au mieux maintenue. La motivation de cette réduction du nombre de valeurs vient du
fait que des valeurs peu nombreuses sont plus faciles à représenter géométriquement et graphiquement (
un des objectifs de l'analyse de données).
8. Analyses factorielles

Définition:

Il s’agit des approches permettant de représenter géométriquement de grands tableaux de données dans
des sous-espaces sans perte d'information importante.

La dimension des sous-espaces, i.e. l'approximation de la reconstruction de ces tableaux se fait en chercha
nt à minimiser la perte d'information. La quantité globale de reconstruction permet de quantifier cette pe
rte d'information.

Une fois la dimension du sous-espace choisie, les données sont représentées graphiquement par des proje
ctions sur les différents plans qui constituent le sous-espace. Bien sûr les premiers plans factoriels sont ce
ux contenant le plus d'information.
8. Analyses factorielles
Principe général:
Le principe général de l'analyse factorielle est fondé sur une double hypothèse.

Supposons qu'il existe un vecteur colonne 𝑢1 à K composantes et un vecteur colonne 𝑣1 à 𝐼 comp


osantes tel que le tableau 𝑋 = 𝑥𝑖𝑘 s'écrive 𝑋 = 𝑣1 𝑢1𝑡 , où 𝑢1𝑡 est le vecteur transposé de 𝑢1 .

Ainsi des 𝐼 + 𝐾 valeurs des vecteurs 𝑢1 et 𝑣1 , les 𝐼. 𝐾 valeurs de 𝑋 sont retrouvées.

Cette réduction devient vite intéressante dès lors que I et K sont assez grands. De plus elle n'entr
aîne aucune perte d'information. Cette hypothèse est malheureusement improbable en pratique.
En pratique, il faut donc chercher une approximation de rang S pour X. C'est-à-dire ces
analyses cherchent à écrire le tableau X tel que :

𝑋 = 𝑣1 𝑢1𝑡 + 𝑣2 𝑢2𝑡 + … + 𝑣𝑠 𝑢𝑠𝑡 + E

où E est une matrice de I lignes et K colonnes de termes négligeables dite matrice


résiduelle.
8. Analyses factorielles

Domaine d’applications:
L'ensembles des méthodes d'analyses factorielles permettent de répondre à la plupart des problèmes posés
par les applications de l'analyse de données. Le choix d'une analyse par rapport à une autre se fera en fonctio
n du type de données (quantitatif, qualitatif, mais aussi textuelle) et de la quantité de données.

Il est bien sûr possible lorsque le cas se présente d'appliquer une analyse sur les données quantitatives de la
population puis une autre analyse sur les données qualitatives. Ainsi dans le cadre d'un enquête par exemple,
une analyse en composantes principales peut faire ressortir les liaisons entre les variables quantitatives, puis
une analyse des correspondances multiples peut donner une représentation des variables qualitatives en fon
ction de leur modalités .
8. Analyses factorielles

Exemple:

Considérons l'ensemble des notes des élèves de l'EIGSI durant une année. Le nombre d'élèves est environ d
e 450, et nous pouvons considérer qu'ils obtiennent environ 30 notes chacun. Ainsi le tableau représentant l
'ensemble des notes est constitué de 13 500 valeurs.

La réduction présentée ci-dessus permet de réduire ce nombre à 480 valeurs sans perte d'information si l'hy
pothèse est valide. Pour que l'hypothèse soit vérifiée, il faudrait pouvoir déduire les notes de l'ensemble des
élèves à partir de celles d'un seul élève et d'un vecteur de pondération.

Ceci signifie que les notes sont dépendantes les unes des autres ou encore très fortement corrélées.

Quelles sont les 480 valeurs dont on parle après réduction?


8. Analyses factorielles
Décomposition en valeurs singulières (SVD)
La décomposition en valeurs singulière (SVP) de la matrice Xpermet de reconstruire le tableau
des données de X.

La décomposition en valeurs singulières peut être appliquée à tous tableaux de données présentés
comme sur le tableau de la page 42.

Cette décomposition fait appel à des distances euclidiennes, c'est-à-dire à des formes quadratiques
Définies positives.

Les maximisations de l'inertie pour les ajustements des sous-espaces sont liées à ces distances.
Il existe d'autres approches qui modifient ces distances ou la nature des sous-espaces.

En particulier ce qui est souvent recherché dans ces méthodes est la non-linéarité des projections,
mieux adaptée aux données compliquées.
IA & BD
8. Analyses factorielles
TAF: Ces sujets sont à traiter en binômes.

1- L’analyse en composantes principales (ACP)


2- L’analyse factorielle des composantes (AFC)
3- L’analyse des correspondances multiples (ACM)
4- L’analyse factorielle de similarités (ou de dissimilarités) des préférences
5- L’analyse discriminante (AFD)
6- L’analyse des mesures conjointes
7- L’analyse canonique
8- L’analyse non hiérarchique
9- L’analyse hiérarchique
10- Analysis of Variance (ANOVA)

Comptes rendus:
i. Rapport sous forme d’article de blog ou de journal (3-5 pages sans compter les références)
ii. Présentation d’exposés (5-10 minutes) le Mardi 16/05/2023 13h00-16h00.
NB: Les présentations doivent être envoyées à la veille.
9. Valeurs absentes (Missing values)
9. Valeurs absentes (Missing values)

La plupart des ensembles de données utilisés dans les études sur l'apprentissage machine ont tendance
à contenir des valeurs manquantes. Les valeurs manquantes sont des données qui n'ont pas été stockées
ou enregistrées à la suite d'un échantillonnage défectueux qui se produit souvent en raison d'une erreur
humaine ou informatique ou tout simplement à l'inexistence de ces données.

Les valeurs manquantes sont souvent difficiles à éviter car elles ne sont identifiées que lors de l'analyse
des données, et à ce titre, la plupart des chercheurs rencontrent des difficultés lorsqu'ils doivent traiter
des valeurs manquantes. Si les valeurs manquantes ne sont pas correctement traitées, elles peuvent conduire
à une mauvaise découverte des connaissances ou à des résultats de recherche incorrects.

En particulier, des informations importantes peuvent être perdues à cause de valeurs manquantes. Plusieurs
techniques de remplacement des valeurs absentes ont été proposées pour faciliter le prétraitement des
données dans les études d'apprentissage machine.
Conclusion
L’analyse des donnée a été largement présentée dans cette partie du cours. Nous avons commencé
par des rappels sur les notions de géométrie, l’analyse statistique descriptive et les techniques
d’analyse factorielle.

La maitrise des méthode de statistique descriptive (position, dispersion, liaison, description, …) ont permis
d’avoir des compétences pour résumer l’information contenue dans un jeu de données quelconque.

Les méthodes d’analyses factorielles permettent de représenter géométriquement de grands tableaux


de données dans des sous-espaces sans perte d'information importante. La dimension des sous-espaces, i.e.
l'approximation de la reconstruction de ces tableaux se fait en cherchant à minimiser la perte d'information.
La quantité globale de reconstruction permet de quantifier cette perte d'information. Une fois la dimension
du sous-espace choisie, les données sont représentées graphiquement par des projections sur les différents
plans qui constituent le sous-espace. Les premiers plans factoriels sont ceux contenant le plus d'information.

Avant d'appliquer cette approche générale à un tableau quelconque, il est important de tenir compte des
données de départ. Pour se faire, nous avons vu comment les transformer en fonction de leur type. Ainsi nous
avons vu comment utiliser des données quantitatives dans le cadre de l'analyse en composantes principales,
et des données qualitatives dans les cas de l'analyse factorielle de correspondances et de celle des
correspondances multiples. Toutefois, la normalisation des données est importante avant ces analyses.
9. Valeurs absentes (Missing values)

• Imputation par Ne rien faire (Do Nothing): C'est une question facile. Il suffit de laisser l'algorithme traiter
les données manquantes. Certains algorithmes peuvent prendre en compte les valeurs manquantes et ap
prendre les meilleures valeurs d'imputation pour les données manquantes sur la base de la réduction de l
a perte d'entraînement (i.e. XGBoost). D'autres ont la possibilité de les ignorer (par exemple LightGBM use
_missing=false). D'autres algorithmes, en revanche, paniquent et lancent une erreur en se plaignant des v
aleurs manquantes (par exemple LR). Dans ce cas, nous devrons traiter les données manquantes et les net
toyer avant de les envoyer à l'algorithme.

•Imputation par la valeur moyenne ou médiane: Cette méthode consiste à calculer la moyenne/médiane d
es valeurs non manquantes dans une colonne, puis à remplacer les valeurs manquantes dans chaque colo
nne séparément et indépendamment des autres. Il ne peut être utilisé qu'avec des données numériques.

•Imputation par Valeur (les plus fréquentes) ou (zéro/constantes): C'est une autre stratégie statistique pou
r imputer les valeurs manquantes. Elle fonctionne avec des attributs catégoriels (chaînes de caractères ou
représentations numériques) en remplaçant les données manquantes par les valeurs les plus fréquentes d
ans chaque colonne.
9. Valeurs absentes (Missing values)

•Imputation par KNN: Les k plus proches voisins sont un algorithme qui est utilisé pour une classification simp
le. L'algorithme utilise la "similarité des caractéristiques" pour prédire les valeurs de toute nouvelle instance.
Cela signifie qu'une valeur est attribuée au nouveau point en fonction de sa ressemblance avec les points de l'
ensemble d'entrainement. Cela peut être très utile pour faire des prédictions sur les valeurs manquantes en tr
ouvant les voisins les plus proches de l'observation avec des données manquantes et en les imputant ensuite
sur la base des valeurs non manquantes dans le voisinage.

•Imputation Multiple par Equations Enchainées (MICE): Ce type d'imputation fonctionne en remplissant plusi
eurs fois les données manquantes. Les imputations multiples (IM) sont bien meilleures qu'une imputation uni
que car elles mesurent mieux l'incertitude des valeurs manquantes. L'approche des équations enchaînées est
également très flexible et peut traiter différentes variables de différents types de données (c'est-à-dire contin
ues ou binaires) ainsi que des complexités telles que les limites ou les schémas de saut d'enquête.

•Imputation par apprentissage profond (Datawig): Cette méthode fonctionne très bien avec les attributs cat
égoriels et numériques. Il s'agit d'une bibliothèque qui apprend des modèles en utilisant les réseaux neurona
ux profonds pour imputer les valeurs manquantes dans une trame de données.

Vous aimerez peut-être aussi