Vous êtes sur la page 1sur 68

CHPITRE II : EXPLORATION

DES DONNÉES
Cours : Analyse de données
Volume Horaire
CM: 15H
1
TD : 15 H
OBJECTIF D’APPRENTISSAGE
2

Ce chapitre montre comment:


Un ensemble de données peut être décrit par des
statistiques descriptives et par des techniques de
visualisation pour des attributs uniques et des paires
d'attributs.
Présente plusieurs formules statistiques univariées et
bivariées et des techniques de visualisation des
données.
Décrire les différents types d'échelle qui existent pour
décrire les données
3
INTRODUCTION

 L'exploration des données consiste essentiellement à


examiner les données traitées sous une forme graphique ou
statistique et à essayer de trouver des modèles, des
connexions et des relations dans les données.
 La visualisation est utilisée pour fournir des vues d'ensemble
dans lesquelles des modèles significatifs peuvent être
trouvés.
IMPORTANCE DE LA VISUALISATION DES
4
DONNÉES
 Le but de la visualisation des données est d'exposer
quelque chose de nouveau sur les modèles sous-jacents
et les relations contenues dans les données.
 La visualisation ne doit pas seulement être belle mais
aussi significative afin d'aider les organisations à prendre
de meilleures décisions.
 La visualisation est un moyen facile d'accéder à un
ensemble de données complexe (petit ou grand) pour
décrire et explorer les données de manière efficace.
IMPORTANCE DE LA VISUALISATION DES
5 DONNÉES
 Il existe de nombreux types de visualisation de données,
tels que les diagrammes à barres, les histogrammes, les
chronogramme et les diagrammes circulaires, cartes
thermiques, les nuages des mots, etc.

 La visualisation des données est une partie importante


de notre processus d'analyse des données car c'est un
moyen rapide et facile d'effectuer une analyse
exploratoire des données en résumant leurs principales
caractéristiques à l'aide d'un graphique visuel.
LES OBJECTIFS DE L'ANALYSE EXPLORATOIRE
6

 Les objectifs de l'analyse exploratoire des données sont les


suivants :
1. Détection des erreurs dans les données
2. Vérification des hypothèses
3. Découverte de modèles cachés (comme la tendance)
4. Sélection préliminaire de modèles appropriés
5. Détermination des relations entre les variables
7 STATISTIQUES DESCRIPTIVES

 La statistique descriptive est la branche de la statistique qui


définit des méthodes pour décrire des échantillons de
données, par le biais des indicateurs et de la visualisation.
 Les moyens dont nous disposons pour décrire et visualiser
les données sont généralement catégorisés en fonction du
nombre d'attributs que l'on considère:
1. Analyse univariée : L'analyse d’un seul attribut (variable)
2. Analyse bivariée : L'analyse pour des paires d'attributs
(deux variables)
3. Analyse multivariée : L’analyse pour les groupes de plus de
deux attributs,
TYPES D'ÉCHELLES
8

 Il existe deux grandes familles de types d'échelles : qualitatives


et quantitatives.
 Les échelles qualitatives catégorisent les données de manière
nominale ou ordinale. Les données nominales ne peuvent pas
être classées en fonction de l'importance d'une
caractéristique donnée. Mais les données ordinales le
peuvent.
 Exemple : Le nom de la personne à contacter est exprimé sur
une échelle nominale, alors que l'information sur la qualité de
sa compagnie peut être exprimée sur une échelle ordinale
car nous pouvons définir un ordre de grandeur, allant de bon
à mauvais. Bon exprime un niveau de camaraderie plus élevé
que mauvais. Cette notion d'ordre de grandeur n'existe pas
dans les noms.
TYPES D'ÉCHELLES
9

 Il existe deux types d'échelle pour les données quantitatives :


absolue (rapports) et relative (intervalles).
 La différence entre les deux est que dans les échelles
absolues, il y a un zéro absolu, alors que dans les échelles
relatives, il n'y a pas de zéro absolu.
 Exemple : Lorsque l'attribut "taille" est égal à zéro, cela signifie
qu'il n'y a pas de hauteur. C'est également vrai pour le poids.
Mais pour la température, lorsque nous avons 0∘C cela ne
signifie pas qu'il n'y a pas de température. Quand on parle de
poids, on peut dire que Bernhard pèse deux fois plus lourd
qu'Irène, mais nous ne pouvons pas dire que la semaine
dernière, la température maximale dans la ville de Dennis
était deux fois plus élevée que dans celle d’Eve.
TYPES D'ÉCHELLES
10

 Les informations que nous pouvons obtenir dépendent du


type d'échelle que nous utilisons pour exprimer les
données.
 Nous pouvons classer les quatre types d'échelle de la
manière suivante : la plus informative est l'échelle absolue,
puis la relative, ordinale et nominale.
Exemple
11

Amis Max temp (°C) Poids (kg) Taille (cm) Genre Compagnie
EXEMPLE
12

Le nom de la personne à contacter est exprimé sur une


échelle nominale,
L'information sur la qualité de sa compagnie peut être
exprimée sur une échelle ordinale car nous pouvons
définir un ordre de grandeur, allant de bon à mauvais.
Bon exprime un niveau de camaraderie plus élevé que
mauvais. Cette notion d'ordre de grandeur n'existe pas
dans les noms.
Exemple
13

Lorsque l'attribut « taille » est égal à zéro, cela


signifie qu'il n'y a pas de hauteur. C'est
également vrai pour le poids. Lorsque nous
parlons de poids, nous pouvons dire que
Bernhard pèse deux fois plus qu'Irène,
La température, lorsque nous avons 0∘C cela ne
signifie pas qu'il n'y a pas de température. mais
nous ne pouvons pas dire que la semaine
dernière, la température maximale dans la ville
de Dennis était deux fois plus élevée que dans
celle d'Eve.
OPÉRATION EN FONCTION DU TYPE
14
D’ÉCHELLES
 Les seules opérations que nous pouvons appliquer à deux
valeurs nominales sont liées à leur similarité, c'est-à-dire à
voir si elles sont égales (=) ou différentes (≠).
 Pour deux valeurs ordinales, nous pouvons également
vérifier leur ordre, pour voir si l'une est plus grande que (>),
plus grande ou égale à (≥), plus petite que (<) ou plus
petite ou égale à (≤) l'autre.
 Pour deux valeurs relatives, ainsi que les opérations
valables pour les valeurs ordinales, on peut aussi voir
combien il faut ajouter (+) ou soustraire (-) à une valeur
pour obtenir l'autre.
OPÉRATION EN FONCTION DU TYPE
15 D’ÉCHELLES
 Pour deux valeurs absolues, en plus de toutes les opérations
précédentes, nous pouvons également voir combien de fois
une valeur est plus grande (×) ou plus petite (÷) que l'autre.
 Remarque: Lorsque nous avons des données exprimées sur
une échelle absolue, nous pouvons les convertir dans
n'importe quelle autre échelle. Une échelle relative, nous
pouvons la convertir dans n'importe quelle échelle parmi les
deux types d'échelles qualitatives. Une échelle ordinale,
nous pouvons les exprimer sur une échelle nominale. Mais il
faut savoir que la conversion d'une échelle plus informative
en une échelle moins informative entraîne une perte
d'informations.
OPÉRATION EN FONCTION DU TYPE
16 D’ÉCHELLES

 Remarque 2 : un attribut peut être exprimé par un nombre


mais le type d'échelle ne doit pas nécessairement être
quantitatif. Il peut être ordinal ou même nominal. Pensez à
une carte que vous possédez avec un code numérique.
Quel type d'information quantitative contient-elle ? La
réponse n’est « rien » : il s'agit simplement d'une clé. Sa
valeur peut éventuellement exprimer l'ancienneté de la
carte mais, en général, rien de plus. S'il s'agissait d'un code
avec des lettres, il contiendrait la même information.
17

ANALYSE UNIVARIÉE DESCRIPTIVE


18
 L'analyse univariée descriptive permet d'obtenir trois types
d'informations :

i. Les tableaux de fréquence,

ii. Les mesures statistiques et

iii. Les graphiques.


FRÉQUENCES UNIVARIÉES
19

 Une fréquence est essentiellement un compteur. La


fréquence absolue compte le nombre de fois qu'une valeur
apparaît. La fréquence relative compte le pourcentage de
fois cette valeur apparaît.
 Les fréquences cumulatives absolues et les fréquences
cumulatives relatives sont, respectivement, le nombre et le
pourcentage d'occurrences inférieures ou égales à une
valeur donnée.
 Remarque : La valeur de la fréquence cumulée absolue de la
dernière ligne est toujours le nombre total d'occurrences,
tandis que la valeur de la fréquence cumulée relative de la
dernière rangée est toujours égale à 100 %, bien qu'il puisse y
avoir quelques différences décimales dues à l'arrondi des
valeurs intermédiaires.
FRÉQUENCES UNIVARIÉES
20

 Remarque 2 : Pour les échelles qualitatives, cette


information peut être utile s'il n'y a pas trop de modalités.
Pour les échelles quantitatives, le nombre de répétitions
est généralement faible, ce qui implique de nombreuses
valeurs avec un faible nombre d'observations. Ceci est
particulièrement peu informatif lors de l'utilisation de
graphiques.
 Les fréquences relatives définissent les fonctions de
distribution, c'est-à-dire qu'elles décrivent comment les
données sont distribuées.
EXEMPLE : FRÉQUENCES UNIVARIÉES
21

Sexe Nombre Pourcentage Cumulatif


d’étudiants d’étudiants

Homme 65 65% 65%

Femme 35 35% 100%

Total 100 100%


22
VISUALISATION DES DONNÉES UNIVARIÉES
 Diagramme circulaire (pie chart) : Ces diagrammes sont
généralement utilisés pour les échelles nominales. Il n'est pas
conseillé de les utiliser avec des échelles où la notion d'ordre
existe, c'est-à-dire pour des échelles ordinales et
quantitatives, bien que cela soit possible.
 Diagrammes à barres (bar chart) : Ils sont généralement
utilisés pour les échelles qualitatives. Lorsque la notion d'ordre
existe, les classes doivent être affichées dans la barre
horizontale, typiquement dans un ordre croissant de
magnitude. Dans certaines situations, les diagrammes à
barres sont également utilisés avec des échelles
quantitatives, par exemple lorsque la valeur possible d'un
attribut est limitée en taille.
EXEMPLE DE DIAGRAMME CIRCULAIRE
23

Pourcentage d'étudiants

35%
Homme
Femme
65%
VISUALISATION DES DONNÉES UNIVARIÉES
24

 Chronogrammes (line chart) ils sont utilisés sur une échelle


quantitative avec un décalage égal entre les observations.
En particulier, ils sont utilisés pour traiter la notion de temps.
En effet, les chronogramme sont très utiles pour représenter
des séries temporelles.
 Dans la vie réelle, nous voyons souvent des chronogramme
pour analyser l'évolution des actifs sur le marché boursier,
pour analyser les taux de mortalité infantile dans un pays
donné dans le temps, ou comment le taux de chômage
d'un pays a évolué dans le temps.
VISUALISATION DES DONNÉES UNIVARIÉES
25

 Les diagrammes de surface sont utilisés pour comparer des


séries chronologiques et des fonctions de distribution. Nous
sommes en mesure de voir, par exemple, que les données
sont plus concentrées sur certaines valeurs ou que d'autres
valeurs sont rares.
 Histogrammes Ils sont utilisés pour représenter des distributions
empiriques pour des attributs avec une échelle quantitative.
Les histogrammes se caractérisent par le regroupement des
valeurs dans des classe, réduisant ainsi l'éparpillement qui est
courant dans les échelles quantitatives.
STATISTIQUES UNIVARIÉES
26

 Une statistique est un descripteur. Elle décrit


numériquement une caractéristique de l'échantillon ou de
la population.
 Il existe deux groupes principaux de statistiques univariées :
i. les statistiques de position
ii. les statistiques de dispersion.
STATISTIQUES UNIVARIÉES DE POSITION
27
 Les statistiques de position identifient une valeur dans une certaine
position. Certaines statistiques univariées de position bien connues
sont le minimum, le maximum ou la moyenne. Les plus importantes
sont:
▪ Minimum : la valeur la plus basse
▪ Maximum : la valeur la plus grande
▪ Moyenne : la valeur moyenne, obtenue en additionnant toutes les
valeurs et en divisant le résultat par le nombre de valeurs.
▪ Mode : la valeur la plus fréquente ;
▪ Premier quartile : la valeur qui est supérieure à 25% de toutes les
valeurs.
▪ Médiane ou deuxième quartile : la valeur qui est plus grande que
50% de toutes les valeurs ; la valeur qui divise la effectif total en deux
sous partie de taille égale.
▪ Troisième quartile : la valeur qui est supérieure à 75% de toutes les
valeurs.
STATISTIQUES DE TENDANCE CENTRALE EN FONCTION DU
28 TYPE D'ÉCHELLE
ÉCHELLE

Nominale Ordinale Quantitative

Moyenne (mean) Non Eventuellement Oui

Médiane (median) Non Oui Oui

Mode (mode) Oui Oui Oui


29
STATISTIQUES UNIVARIÉES DE POSITION

 Remarque : La moyenne (ou moyenne), la médiane et le


mode sont connus comme des mesures de tendance
centrale, car ils renvoient une valeur centrale à partir d'un
ensemble de valeurs.
 Il existe d'autres moyens plus populaires d'exprimer
graphiquement les statistiques de position: La boîte à
moustaches (box-plot). Les box-plots présentent le
minimum, le premier quartile, la médiane, le troisième
quartile et le maximum, dans cet ordre, de bas en haut ou
de gauche à droite
EXEMPLE DE BOÎTES À MOUSTACHES
30
QUELQUES OBSERVATIONS SUPPLÉMENTAIRES
31

 Les boîtes à moustaches peuvent également être utilisés


pour décrire le degré de symétrie/d’asymétrie de la
distribution d'un attribut (variable). Si la médiane est proche
du centre de la boîte, la distribution des données est
généralement symétrique, et les valeurs sont distribuées de
manière similaire dans la partie basse et dans la partie
haute.
 La médiane ou le mode sont plus robustes comme
statistique de tendance centrale que la moyenne en
présence de valeurs extrêmes ou de distributions fortement
asymétriques.
32 QUELQUES OBSERVATIONS SUPPLÉMENTAIRES

 La médiane, le mode et la moyenne ont la même valeur


dans les distributions symétriques avec un seul mode.
 Les distributions avec un seul mode sont appelées
distributions unimodales.
 Le mode n'est pas utile lorsque les données sont très éparses,
c'est-à-dire lorsqu'il y a très peu d'observations par valeur.
C'est un cas assez fréquent lorsque nous utilisons des échelles
quantitatives, en particulier à partir de données continues.
QUELQUES OBSERVATIONS SUPPLÉMENTAIRES
33

 La médiane est facile à obtenir lorsque le nombre n


d'observations est impair. Il suffit d'ordonner les observations
en fonction de leurs valeurs. La médiane est la valeur située
à la position (𝒏 + 𝟏) ∕ 𝟐.
 Mais si n est un nombre pair, la médiane sera la moyenne
des valeurs situées aux positions 𝒏 ∕ 𝟐 et (𝒏 ∕ 𝟐) + 𝟏.
QUELQUES OBSERVATIONS SUPPLÉMENTAIRES
34

 Bien que la moyenne soit, à proprement parler, inadaptée


aux échelles ordinales, elle est utilisée dans certains cas,
notamment lors de l'utilisation de l'échelle ordinale de Likert.
 L'échelle de Likert est très populaire pour les enquêtes. Elle
utilise une échelle ordonnée, disons des nombres entiers de 1
à 7, exprimant un niveau allant du plus grand désaccord (1)
au plus grand accord (7).
 Ces valeurs représentent un ordre, elles peuvent aussi être
interprétées comme une quantité d'accord/désaccord. Dans
ce cas, l'échelle de Likert peut en quelque sorte être
considérée comme une échelle quantitative.
 Remarque : Il s'agit toutefois d'un point discutable et il n'y a
pas d'accord entre les statisticiens.
MESURES DE DISPERSION
35

Dispersion statistiques univariées Une statistique de dispersion


mesure la distance entre différentes valeurs. La statistique de
dispersion la plus courante:
❑ Etendue : différence entre les valeurs maximale et minimale
❑ L'écart interquartile : c'est la différence entre les valeurs du
troisième et du premier quartiles
❑ Ecart absolu moyen : une mesure de la distance absolue
moyenne entre les observations et la moyenne. Sa formule
mathématique pour la population est la suivante:
σ𝒏𝒊=𝟏 𝒙𝒊 − 𝝁𝒙
𝐄𝐀𝐌 =
𝒏
36
MESURES DE DISPERSION

 Où 𝒏 est le nombre d'observations et 𝜇𝑥 est la valeur


moyenne de la population.
❑ Ecart-type : Sa formule mathématique pour la population
est :
σ𝒏𝒊=𝟏 𝒙𝒊 − 𝝁𝒙 𝟐
𝝈𝒙 =
𝒏
Le carré de l'écart de l'échantillon est appelé la variance et
est noté 𝜎 2 . Il mesure la dispersion des valeurs de la
population autour de la moyenne.
MESURES DE DISPERSION
37

 Toutes ces statistiques de dispersion ne sont valables que


pour des échelles quantitatives.
38

ANALYSE DESCRIPTIVE BIVARIEE


ANALYSE BIVARIÉE DESCRIPTIVE
39

 Elle porte sur les paires d'attributs ou de variables et leur


comportement relatif.
 Lorsque l'un des attributs est qualitatif - c'est-à-dire nominal
ou ordinal - et que l'autre est quantitatif, des diagrammes en
boîte (ou boîtes à moustaches) peuvent être utilisés.
DEUX ATTRIBUTS QUANTITATIFS
40

 Dans un ensemble de données dont les objets ont n


attributs, chaque objet peut être représenté dans un
espace à n dimensions :
 un espace avec n axes, chaque axe représentant un des
attributs.
 La position occupée par un objet est donnée par la valeur
de ses attributs.
DEUX ATTRIBUTS QUANTITATIFS
41

 Il existe plusieurs techniques de visualisation qui permettent


de montrer visuellement la distribution des points avec deux
attributs quantitatifs:
❑ Les diagrammes de dispersion ( ou nuage de points):
illustrent comment les valeurs de deux attributs sont
corrélées. Ils permettent de voir comment un attribut varie
en fonction de la variabilité de l'autre attribut.
❑ Le degré d'existence de ces relations - c'est-à-dire la façon
dont un attribut varie lorsqu'un second attribut est modifié -
est mesuré par la covariance entre eux. Lorsque deux
attributs ont une variation similaire, la covariance a une
valeur positive.
42
EXEMPLE DE NUAGE DE POINTS
DEUX ATTRIBUTS QUANTITATIFS
43

 Si les deux attributs varient de manière opposée, la


covariance est négative. La valeur dépend de
l'importance des attributs.
 S'ils semblent avoir une variation indépendante, la valeur
de la covariance tend vers zéro.
 Il faut observer que seules les relations linéaires sont
capturées.
 La variance peut être considérée comme un cas particulier
de la covariance : c'est la covariance d'un attribut avec
lui-même.
COEFFICIENT DE CORRÉLATION
44

σ𝑛 ҧ
𝑖=1(𝑥𝑖 −𝑥)(𝑦 𝑖 −𝑦)
 𝐶𝑜𝑣 𝑥, 𝑦 =
𝑛−1
 Dans cette équation, 𝑥𝑖 et 𝑥ҧ sont, respectivement, la ième
valeur et la moyenne de l'attribut x.
 La covariance est influencée par de valeurs des attributs.
On peut normaliser les attributs sur le même intervalle.
 La corrélation n'est pas affectée par ce défaut. La
corrélation linéaire entre deux attributs, également connue
sous le nom de corrélation de Pearson, donne une
indication plus claire du degré de similitude entre les
attributs.
COEFFICIENT DE CORRÉLATION
45

 Des valeurs positives signifient l'existence 'une tendance


positive entre les deux attributs; lorsque qu’elle devient plus
proche d'une ligne droite, la valeur de la corrélation de
Pearson se rapproche de 1.
 Les valeurs négatives signifient l'existence d'une tendance
négative; corrélation de Pearson se rapproche de -1 lorsque
la tendance se rapproche d'une ligne droite.
 Il existe différentes fonctions de corrélation. Les plus
fréquemment utilisées sont - la corrélation de Pearson - et la
corrélation de rang de Spearman. Toutes deux ont des
valeurs comprises dans l'intervalle [-1, 1].
COEFFICIENT DE CORRÉLATION
46

𝑐𝑜𝑣(𝑥,𝑦)
 𝑐𝑜𝑟𝑟 𝑥, 𝑦 = 𝑟𝑥𝑦 =
𝑠𝑥 .𝑠𝑦

 La corrélation de Pearson évalue la corrélation linéaire


entre les attributs.
 Si les points sont sur une droite croissante, le coefficient de
corrélation de Pearson aura une valeur de 1.
 Si les points sont sur une droite décroissante, sa valeur sera
de -1.
 La valeur 0 correspond à une ligne horizontale ou à un
nuage sans tendance à la hausse ou à la baisse, ce qui
signifie l'inexistence d'une une corrélation de Pearson
entre les deux attributs.
INTERPRÉTATION COEFFICIENT DE
47
CORRÉLATION

 En règle générale (Cohen 1988), une corrélation absolue :

 ... inférieure à 0,30 indique une relation faible,

 ... entre 0,30 et 0,49 indique une relation modérée, et

 ... supérieure à 0,49 indique une relation forte.

 La corrélation de Pearson est appropriée pour calculer les


corrélations entre deux variables qui sont sur une échelle à
intervalle ou de rapport.
AUTRES MESURES DE CORRELATION
48

 Le coefficient de corrélation de Spearman et le tau de


Kendall lorsqu'au moins une variable permettant de
déterminer la corrélation est mesurée sur une échelle
ordinale.

 Coefficient de contingence, V de Cramer et Phi pour les


variables mesurées sur une échelle nominale.
COEFFICIENT DE CORRÉLATION
49

 La corrélation des rangs de Spearman, comme son nom


l'indique, est basée sur les rangs.
 Elle compare des listes ordonnées de chacun des deux
attributs.
 La formule est similaire à celle utilisée pour calculer le
coefficient de corrélation de Pearson, mais au lieu d'utiliser
les elle utilise l'ordre des valeurs dans le rang, rx et ry
respectivement.
DEUX ATTRIBUTS QUALITATIFS, DONT AU MOINS
50
UN NOMINAL

 Lorsque les attributs sont tous deux qualitatifs avec au moins un


nominal, on utilise des tableaux de contingence.
 Les tableaux de contingence présentent les fréquences
conjointes, ce qui facilite l'identification des interactions entre
les deux attributs.
 Ils ont un format de type matrice, avec des cellules dans un
carré et des modalités à gauche et en haut. Dans la colonne
la plus à droite se trouvent les totaux par ligne, tandis que dans
la ligne la plus basse se trouvent les totaux par colonne.
 Le coin inférieur droit indique le nombre total de valeurs.
DEUX ATTRIBUTS ORDINAUX
51
 Toutes les méthodes décrites précédemment pour l'analyse
bivariée peuvent également être utilisées en présence de deux
attributs ordinaux. Cependant :
❑ La corrélation de rang de Spearman doit être utilisée à la place
de la corrélation de Pearson.
❑ Les diagrammes de dispersion avec des attributs ordinaux
présentent généralement le problème suivant : de nombreuses
valeurs tombent au même point, ce qui rend impossible
l'évaluation du nombre de valeurs par point. Pour éviter ce
problème, certains logiciels utilisent un effet jitter qui ajoute une
déviation aléatoire aux valeurs, ce qui permet d'évaluer
l'ampleur du nuage.
❑ Les tableaux de contingence peuvent être utilisés, ainsi que les
diagrammes en mosaïque. Les valeurs doivent être par ordre
croissant.
Décrire les données

52
Univariées Bivariées

Graphiques et
Graphiques et tableaux Statistiques Statistiques
tableaux

Mesures de tendance centrale :


Diagramme à barres
Mode
Médiane Nuage de points Covariance
moyenne
Histogramme

Mesures de dispersion:
Box plot Étendue Tableau de corrélation
contingence
Interquartile
Variance
Diagramme circulaire
Écart-type
Coefficient de variation
Tableau de
fréquence
53

ANALYSE DESCRIPTIVE MULTIVARIEES


54
GENERALITE

 Lorsque l'analyse d'un ensemble de données explore plus de


deux attributs (variables), on parle d’ "analyse multivariée".
 les tableaux de fréquence, les mesures statistiques et les
graphiques peuvent être utilisés ou adaptés pour l'analyse
multivariée.
FRÉQUENCES MULTIVARIÉES
55

 Les valeurs de fréquence multivariées peuvent être calculées


indépendamment pour chaque attribut.
 Nous pouvons représenter les valeurs de fréquence pour
chaque attribut par une matrice, dans laquelle le nombre de
lignes est le nombre de valeurs prises par l'attribut et les
colonnes sont les valeurs de fréquence.
STATISTIQUES MULTIVARIEES
56

 Les statistiques multivariées ne sont qu'une simple extension


des statistiques univariées.
 Certaines des mesures statistiques décrites précédemment
pour l'analyse univariée et bivariée, telles que la moyenne et
l'écart-type, peuvent facilement être étendues à l'analyse
multivariée.
STATISTIQUES MULTIVARIÉES DE POSITION
57

 Les valeurs statistiques de position multivariées peuvent


être calculées indépendamment pour chaque attribut.
 Ces valeurs peuvent être représentées par un vecteur
numérique dont le nombre d'éléments est égal au nombre
d'attributs.
 Un graphique le box plot peut également être utilisé pour
présenter des informations pertinentes sur les attributs d'un
ensemble de données multivariées.
 Si le nombre d'attributs n'est pas trop important, on peut
utiliser un ensemble de nuages de points, un pour chaque
attribut.
STATISTIQUES MULTIVARIÉES DE DISPERSION
58

 Les statistiques de dispersion, telles que:


 L’étendue,
 l'écart interquartile,
 l'écart moyen absolu
 et l'écart type
 peuvent être définies indépendamment pour chaque
attribut.
STATISTIQUES MULTIVARIÉES DE DISPERSION: EXEMPLE
59

Statistique de Maxtemp Poids Taille Années


dispersion

Etendue 23,00 60,00 37,00 16

Intervalle 11,75 17,50 14,75 9,5


interquartile

EAM 7,41 14,09 11,12 9,67

S 7,45 17,38 11,25 5,66


COVARIANCE MULTIVARIEE
60

 La relation entre deux attributs est évaluée à l'aide de la


covariance ou de la corrélation.
 La corrélation mesurer la façon dont les valeurs d'un attribut
varient avec celles d'un autre attribut.
 La mesure de covariance pour toutes les paires dans un
ensemble d'attributs peut être représentée à l'aide d'une
matrice de covariance.
 Dans ces matrices, les attributs sont énumérés dans les lignes
et dans les colonnes, dans le même ordre.
COVARIANCE MULTIVARIEE
61

 La diagonale principale de la matrice indique la variance


de chaque attribut.
 matrice de covariance est symétrique, dans le sens où les
valeurs au-dessus de la diagonale principale sont les
mêmes que les valeurs en dessous.
 Ceci démontre que l'ordre des attributs dans le calcul de
la covariance n'est pas pertinent.
62 COVARIANCE MULTIVARIEE

Maxtemp Poids Taille Années

Maxtemp 55,52 34,46 20,19 5,82

Poids 34,46 302,15 184,62 42,39

Taille 20,19 184,62 126,53 14,03

Année 5,82 42,39 14,03 31,98


CORRÉLATION
63

 Les valeurs de la diagonale principale de la matrice sont


toutes égales à 1, ce qui signifie que chaque attribut est
parfaitement corrélé avec lui-même.
Maxtemp Poids Taille Années

Maxtemp 1 0,27 0,24 0,14

Poids 0,27 1 0,94 0,43

Taille 0,24 0,94 1 0,22

Année 0,14 0,43 0,22 1


MATRICE DES NUAGE DE POINTS
64

 Illustrer la corrélation de toutes les paires d'un ensemble


d'attributs on peut utiliser une matrice de plusieurs nuages de
points, avec un diagramme de dispersion pour chaque paire
d'attributs.
 Les diagrammes de dispersion peuvent s’appliqués à un
nombre arbitraire de paires d'attributs ordinaux ou
quantitatifs.
LE CARTE THERMIQUE
65

 la carte thermique représente un tableau de valeurs par


une matrice de cases, chaque valeur correspondant à une
case.
 Chaque ligne (ou colonne) de la matrice est associée à une
couleur. Les différentes valeurs de la ligne (ou de la
colonne) sont représentées par différentes tonalités de la
couleur de la ligne (ou de la colonne).
 Les cartes thermiques ont été largement utilisées pour
analyser l'expression des gènes en bioinformatique.
NUAGES DE MOTS (WORDCLOUD)
66

 Un outil de visualisation fréquemment utilisé en text mining


pour illustrer les données textuelles est le nuage de mots, qui
représente la fréquence d'apparition de chaque mot dans un
texte donné.
 Plus la fréquence d'un mot est élevée dans le texte, plus sa
taille est grande dans un nuage de mots.
 Étant donné que les articles et les prépositions apparaissent
très souvent dans un texte, et que les chiffres ne sont pas du
texte, ils sont généralement supprimés avant que l'outil de
nuage de mots ne soit appliqué à un texte.
 Une autre opération de traitement de texte, l'abréviation, qui
remplace un mot dans un texte par sa racine, est également
appliquée au texte avant l'utilisation de l'outil de nuage de
mots.
EXEMPLE NUAGE DES MOTS
67
NUAGE DE MOTS
68

 Le nuage de mots est intéressant pour faire émerger l’image


qui se dégage d’une entité morale (société, groupe,
association, etc.) ou physique (c’est-à-dire une personne).
 C’est un outil de communication et de persuasion. Ses
applications sont :
i. Résumer les points clefs d’un profil
ii. Afficher les valeurs que défend une entreprise;
iii. Livrer un aperçu d’une politique, de mission poursuivies
iv. Sensibiliser sur la complexité d’un problème;
v. Etc.

Vous aimerez peut-être aussi