Vous êtes sur la page 1sur 5

TALNAN H.

EVRARD
COURS : ANALYSE DES DONNEES Année : 2019- 2020
CHAPITRE III : ANALYSE DESCRIPTIVE BIVARIEE

Dans le chapitre qui a précédé, les séries étudiées portait sur une seule variable (on s’intéressait aux
caractéristique d’une seule variable) que l’on observait sur les unités statistiques (ou individus)
composant la population.

Or il est en général possible d’étudier, sur une même unité statistique, deux variables. Par exemple :

Unités statistiques Variable 1 désignée par xVariable 2 désignée par y


Enfant d’une école Taille Poids
Enfant d’une école Taille Moyenne obtenue au cours de
l’année scolaire
Mariage célébrée en France en Age de l’époux au moment du Age de l’épouse au moment du
1973 mariage mariage
Année Production ivoirienne de cacao Nombre d’accidents
enregistrés en Côte d’Ivoire
Année Nombre de spectateur payants Prix moyen des places dans les
dans les cinémas ivoiriens cinémas ivoiriens
Étudiant d’UPB Sexe Consommation moyenne
d’alcool par jour
Étudiant d’UPB Sexe Leur Perception sur professeur
d’analyse des données

Ce chapitre traite des paires de variables et de leur comportement relatif. Elle est organisée en fonction
des types d'échelle des variables : quantitatifs, nominaux et ordinaux.

2.1. Deux caractères quantitatives

Dans un ensemble de données dont k variables (attributs) sont observées sur les individus, chaque
individu peut être représenté dans un espace à k dimensions : un espace à k axe, chaque axe
représentant l'une des positions occupées par un individu est donnée par la valeur de ses variables. Il
existe plusieurs techniques de visualisation qui peuvent montrer la distribution des points avec deux
variables quantitatives. L'une de ces techniques est une extension de l'histogramme appelée
histogramme tridimensionnel.
TALNAN H. EVRARD
COURS : ANALYSE DES DONNEES Année : 2019- 2020
Toutefois, en fonction des fréquences de certaines combinaisons des deux variables, certaines bandes
peuvent être cachées. Une autre option est l'utilisation des diagrammes de nuage de points. Les
diagrammes de nuage de points illustrent la corrélation entre les valeurs de deux variables. Ils
permettent de voir comment une variable varie en fonction de la variabilité de l'autre variable.

Exemple 3.2 : La figure 3.2 montre le diagramme de nuage de points pour les variables "poids" et
"taille". On peut considérer comme une tendance générale que les personnes ayant un poids plus
important sont plus grandes, et les personnes de petit poids sont plus petites.

Figure 3.2 : Diagramme du nuage des points entre la taille (height) et le poids (weight)

Le degré auquel ces relations existent - c'est-à-dire la façon dont une variable varie lorsqu'une
deuxième variable est modifiée - est mesuré par la covariance entre elles. Lorsque deux variables
présentent une variation similaire (autrement dit varie dans la même direction), la covariance a une
valeur positive. Si les deux variables varient de manière opposée, la covariance est négative. La valeur
de la covariance dépend de l’amplitude des variables. Si les variations des variables sont
indépendantes, la valeur de la covariance tend vers zéro. La variance peut être considérée comme un
cas particulier de covariance : c'est la covariance d’une variable avec elle-même.

L'équation 3.1 montre comment la covariance entre deux variables, 𝑋 et 𝑌, est calculée. Dans cette
équation, 𝑥𝑖 et ̅𝑥 sont, respectivement, la i nièmes valeurs et la moyenne de la variable X. 𝑦𝑖 et 𝑦̅
représentent, respectivement, la i nièmes valeurs et la moyenne de la variable 𝑌.

∑𝑛 ̅)
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
𝑠𝑋𝑌 = 𝑐𝑜𝑣(𝑋, 𝑌) = (3.1)
𝑛−1
Bien que la covariance soit une mesure utile pour montrer comment les valeurs de deux variables sont
liées l'une à l'autre, l’amplitude des valeurs des variables influence les valeurs de covariance obtenues.
Bien sûr, vous pouvez toujours normaliser les variables au même intervalle. Toutefois, il existe
également une mesure similaire qui n'est pas affecté par cette déficience : la mesure de corrélation.
La mesure linéaire de la corrélation entre deux variables, également appelée corrélation de Pearson,
donne une indication plus claire de la similitude des variables et est généralement préférée à la
covariance.

Figure 3.3 illustrent trois exemples de corrélations entre deux variables, A et B : une corrélation
positive, une corrélation négative et une absence de corrélation.
TALNAN H. EVRARD
COURS : ANALYSE DES DONNEES Année : 2019- 2020

Figure 3.3 Trois exemples de corrélation entre deux attributs

On peut voir que plus les variables sont corrélées, plus les points sont proches d'une ligne droite. Pour
calculer la corrélation linéaire entre deux attributs, X et Y, nous pouvons utiliser l'équation (3.2), où
𝑐𝑜𝑣(𝑋, 𝑌) est l'équation de covariance 𝑆𝑋 et set 𝑆𝑌 sont les écarts-types des variables X et Y,
respectivement.

𝑐𝑜𝑣(𝑋,𝑌)
𝑟𝑋𝑌 = 𝑐𝑜𝑟(𝑋, 𝑌) = (2 .2)
𝑆𝑋 𝑆𝑌
La corrélation de Pearson évalue la corrélation linéaire entre les variables. Si les points sont sur une
ligne croissante, le coefficient de corrélation de Pearson aura une valeur de 1. Si les points sont sur
une ligne décroissante, sa valeur sera de -1. Une valeur de 0 est obtenue lorsque les points forment
une ligne horizontale ou un nuage sans aucune tendance à la hausse ou à la baisse, ce qui signifie
l'inexistence d’une corrélation de Pearson entre les deux variables. Des valeurs positives signifient que
l'existence d'une tendance positive entre les deux variables ; au fur et à mesure qu'elle est plus proche
d'une ligne droite, la valeur de la corrélation de Pearson devient plus proche de 1. De même, des
valeurs négatives signifient l'existence d'une tendance négative, la corrélation de Pearson se
rapprochant de -1 à mesure que la tendance se rapproche d’une ligne droit.

Exemple 3.4 Dans notre exemple, la valeur de la corrélation de Pearson entre le poids et la taille
sont𝑟𝑋𝑌 = 0,94, ce qui est assez élevé.

Il existe différentes fonctions de corrélation. Les plus fréquemment utilisées sont la corrélation de
Pearson et la corrélation de rang de Spearman. Les deux ont des valeurs comprises entre [-1, 1].

La corrélation de rang de Spearman, comme son nom l'indique, est basée sur les classements. Au
lieu d'évaluer la linéarité de la forme du nuage les points, elle compare des listes ordonnées de chacun
des deux variables. La formule est similaire à celle utilisé pour calculer le coefficient de corrélation de
Pearson, mais au lieu d'utiliser les valeurs, il utilise l'ordre des valeurs dans le rang, 𝑟𝑥 et
𝑟𝑦 respectivement

∑𝑛 𝑛
𝑖=1 ∑𝑗=1[(𝑟𝑥𝑖 −𝑟𝑥
̅̅̅̅)(𝑟𝑦𝑖 −𝑟𝑦
̅̅̅̅)
𝑟𝑥𝑦 = (2.3)
𝑆𝑟𝑥 ∗𝑆𝑟𝑦
Où n est le nombre de paires.
TALNAN H. EVRARD
COURS : ANALYSE DES DONNEES Année : 2019- 2020
2.1.1 Droites de régression

Lorsque deux variables sont en corrélation linéaire, il arrivera qu’on puisse considérer que les
variations de l’un des deux caractères entraînent les variations de l’autre. Dans l’exemple du tableau
en introduction on peut considérer que le poids d’un enfant peut dépendre de son âge. Il sera donc
alors légitime d’essayer d’exprimer par une fonction linéaire les valeurs de la variable “fonction “ en
fonction de la variable “ variable“.

Si la variable fonction est désigné par y, l’autre variable étant désignée par x, il sera donc normal de
rechercher une fonction 𝑦 = 𝑎𝑥 + 𝑏 qui permettra d’ajuster au mieux y en fonction de x.

La droite dont nous cherchons l’équation est dites droite de régression (ou droit d’estimation) de y
par rapport à x.

Le procédé de détermination de l’équation de la droite de régression est généralement la méthode


des moindres carrés.

On montre que a et b de la fonction cherchée sont donnés par les formules :

∑(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦̅)


𝑎= ∑(𝑥𝑖 −𝑥̅ )2
et 𝑏 = 𝑦̅ − 𝑎𝑥̅

2.1.2 Corrélation et causalité. Corrélation factice

Le fait que deux phénomènes soient en corrélation ne signifie pas nécessairement que les variations
de l’un entraînent les variations de l’autre.

Leurs variations peuvent toutes deux être conséquences des variations d’un troisième phénomène.

Ainsi, le prix du blé et le nombre des rongeurs sont en corrélation, négative ; il serait cependant stupide
d’essayer d’exprimer le prix du blé en fonction du nombre de rongeurs, et aussi stupide d’exprimer le
nombre de rongeurs en fonction du prix du blé. Les deux phénomènes sont simplement conséquences
du niveau de la récolte de blé. Une récolte abondante fait baisser le prix du blé mais fait croître le
nombre de rongeurs, le contraire se produisant lorsque la récolte est mauvaise (exemple cité par M.
Henri Guitton).

Par ailleurs, deux variables en corrélation très étroite (ou du moins telles que leur expression chiffrées
soient en étroite corrélation) peuvent n’avoir aucun lien entre elles. Ainsi la population du Japon et le
rendement des impôts en Côte d’Ivoire, la mortalité britannique et la proportion de mariages célébrés
par l’Eglise d’Angleterre (G. Darmois).

Ces exemples montrent que, en matière de corrélation, il faut se montrer extrêmement prudent quant
aux conclusions relatives aux liens qui régissent les deux phénomènes.
TALNAN H. EVRARD
COURS : ANALYSE DES DONNEES Année : 2019- 2020
2.3.2 Deux variables qualitatives, dont au moins une nominale

Lorsque les variables sont toutes deux qualitative avec au moins une nominale, des tableaux de
contingence sont utilisés. Les tableaux de contingence présentent les fréquences communes,
facilitant l'identification des interactions entre les deux variables. Ils ont un format de type matriciel,
avec des cellules dans un carré et des étiquettes à gauche et en haut. La colonne la plus à droite
contient les totaux par ligne, tandis que la ligne la plus en bas contient les totaux par colonne et le coin
inférieur droit contiennent le nombre total de valeurs.

Exemple 2.12 La figure 2.18 montre le tableau de contingence pour les variables «genre" et
"compagnie". Cet exemple utilise des fréquences conjointes absolues. Des fréquences relatives
communes pourraient également être utilisées. On peut constater que six personnes sur sept qui sont
considérés comme de bonne compagnie sont des hommes, alors qu'une seule femme est considérée
de bonne compagnie. Deux des sept personnes considérées comme de mauvaise compagnie sont des
hommes, tandis que Les mêmes données peuvent être lues comme six hommes sur huit sont bonne
compagnie alors que deux sont de mauvaises fréquentations. Cinq femmes sur six sont de mauvaise
compagnie tandis que l'autre est de bonne compagnie. Il y a huit hommes et six femmes, soit un total
de quatorze personnes, dont sept de bonne compagnie. Les sept autres sont mauvaises entreprise.

Compagnie (fréquentation)
Bonne Mauvaise
Genre Homme 6 2 8
Femme 1 5 6
7 7 14
Figure 2.18 Tableau de contingence avec fréquences absolues conjointes pour "compagnie" et "sexe"

2.3.3 Deux variables ordinales

Toutes les méthodes décrites précédemment pour l'analyse bivariée peuvent également être utilisées
en présence de deux variables ordinales. Cependant :

 La corrélation de rang de Spearman devrait être utilisée à la place de la corrélation de Pearson.


 Le nuage des points avec des variables ordinales posent généralement problème qu’il y a
nombreuses valeurs tombant au même point, rendant impossible l'évaluation du nombre de
valeurs par point. Afin d'éviter ce problème, certains logiciels utilisent un effet de gigue “ jitter
effect“ qui ajoute une déviation aléatoire aux valeurs, rendant possible d'évaluation de la taille
du nuage.
 Des tableaux de contingence peuvent être utilisés, ainsi que des graphiques en mosaïque, dont
les valeurs doivent être dans l'ordre croissant.

2.4. Remarque finale

Ce chapitre a décrit comment les principales caractéristiques d'un ensemble de données peuvent être
résumées par des mesures statistiques simples, des graphiques de visualisation et des probabilités des
distributions. Elle s'est concentrée sur les ensembles de données ayant un ou deux attributs.
Concernant les mesures statistiques, les mesures de fréquence, de localisation et de dispersion, tels
que la moyenne, la médiane, le mode, les quartiles, l'amplitude, la variance et la norme des déviations
ont été introduites. Les graphiques de visualisation illustrent certains de ces mesure, dans des
graphiques tels que les histogrammes, les diagrammes en boîtes, les diagrammes de dispersion et les
diagrammes en mosaïque. L'utilisation d'un petit nombre d'attributs était intentionnelle, afin de
faciliter décrire certaines des mesures les plus importantes.

Vous aimerez peut-être aussi