Vous êtes sur la page 1sur 35

Analyse Quantitative et Qualitative

Chapitre 2 : Décrire les données


Issam DHAHRI
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 2

I. Description d’une variable


Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 3

1. DÉCRIRE UNE VARIABLE QUALITATIVE


• Effectifs Nombre d’étudiants par groupe et par genre
• Fréquences
• Graphique

Tri à plat LSG1.1 LSG1.2 LSG1.7


Homme 10 13 5
Femme 25 30 30

Homme Femme
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 4

2. DÉCRIRE UNE VARIABLE QUANTITATIVE


• Mesures
  de la tendance centrale : ont pour objet de résumer la série
d’observations par une valeur considérée comme représentative:
▫ La moyenne, ou somme des valeurs de toutes les observations divisée par l’effectif ;
▫ La médiane, représente la valeur au-dessus et au-dessous de laquelle se situent la
moitié des observations;
▫ Le mode représente la valeur présentant la plus grande fréquence d’occurrence.
• Mesures de la dispersion reposent sur les indicateurs suivants
▫ L’étendue (ou intervalle) est la différence entre la plus grande et la plus petite des
valeurs observées
▫ La variance est la mesure de la dispersion autour de la moyenne
▫ Le coefficient de variation est le rapport de l’écart type à la moyenne ( ), exprimé en
pourcentage. Son objet est de mesurer le degré de variation de la moyenne d’un
échantillon à l’autre, lorsque ceux-ci sont issus de la même distribution.
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 5

• Mesures
  de la distribution (forme) :
▫ Le coefficient d’asymétrie :
 Le coefficient de Pearson
 Le coefficient de Ficher
▫ Le coefficient d’aplatissement:
 Le coefficient de Ficher
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 6

II. Analyse bivariée


Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 7
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 8

II.3 Distributions conditionnelles (profils lignes et profils colonnes)


• On peut s'intéresser à des sous-populations, par exemple l'ensemble des
filles, F, et étudier la distribution des effectifs et des fréquences selon les
modalités de l'autre variable, ici le groupe.
• La distribution est alors appelée distribution des effectifs et des fréquences
de la variable Groupe conditionnellement à l'ensemble des Filles, ou encore
distribution conditionnelle à F de la variable GRPE.
• Les distributions conditionnelles sont en général présentées dans des
tableaux dits tableaux de profils lignes et tableaux de profils colonnes
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 9

a. Tableau de profils lignes


• Donne les deux distributions de la variable GRPE conditionnellement à la
variable SEXE (proportion de chaque groupe dans chacune des catégories de
la variable sexe).
• La dernière ligne de ce tableau est la distribution de fréquences de la variable
GRPE.
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 10

b. Tableau de profils colonnes


• donne les trois distributions de la variable SEXE conditionnellement à la
variable GRPE (proportion de chaque sexe dans chacune des catégories de la
variable groupe).
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 11

c. Schématisation par des arbres


• On reporte, à l'intérieur de chaque case représentant un sous-ensemble de la population,
l'effectif de ce sous-ensemble. Sur les arêtes joignant les cases, on reporte les fréquences
conditionnelles.
• Par exemple, entre (F et B) et F, on trouve 14% qui correspond à 1/7
• Règle du produit:
▫ Pour trouver la fréquence de (F et B) par rapport à Ω,on fait
le produit des fréquences conditionnelles des arêtes
correspondantes
▫ 0,14 x 0,47 = 0,067  6,7%
• Règle de la somme
▫ Pour trouver la fréquence de B par rapport à Ω, on fait la
somme des fréquences de (F et B) et de (G et B) par rapport
à Q. On a alors :
▫ 0,14 x 0,47 + 0,50 x 0,53 = 0,33  33%
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 12

d. Liaison entre deux variables catégorielle : l’indice de χ² (Khi2)


• L’indépendance
  (absence de liaison) entre les deux variables se traduirait par
une même proportion de filles et de garçons dans chacun des trois groupes,
proportion alors égale à celle observée dans la population toute entière.
Cette configuration correspond à l'égalité des profils colonnes.
• On observerait alors aussi simultanément, l'égalité des profils lignes: même
proportion de chaque groupe chez les filles et chez les garçons.

• Le Khi² ( ) est un indice qui mesure la liaison entre deux variables


catégorielles, il est nul lorsque les deux variables sont indépendantes. Son
interprétation fait appel à des notions de Statistique inférentielle ;
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 13

d.1 Formalisation
• On
  considère deux variables catégorielles A et B.
• Les l modalités de la variable A sont notées et les J modalités de la variable B
notées .
• Soit n l'effectif de la population totale et le nombre d'individus qui prennent
la modalité de A et de B. On pose :
▫ :effectif des individus prenant la modalité de la variable A
▫ : effectif des individus prenant la modalité de la variable B

• On a évidemment :
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 14

• Les distributions conjointe et marginales des effectifs des variables A et B


sont données dans le tableau de contingence observé suivant :
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 15

Les I distributions de B conditionnellement à A (profils lignes) et les J distributions de A conditionnellement à B (profils colonnes)
sont données dans les tableaux ci-dessous
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 16

d.2 Définition de l’indépendance


• L’indépendance
  de deux variables catégorielle A et B se traduit par les trois
propriétés suivantes qui sont équivalentes :
1. Egalité des profits lignes
pour tout i et j
Dans la sous-population d'individus qui prennent la modalité , la proportion d'individus
qui prennent la modalité est égale à la proportion d'individus qui prennent la modalité
dans la population totale
2. Egalité des profits colonnes
pour tout i et j
3. Egalité des effectifs observés () et des effectifs théoriques d’indépendances ()
pour tout i et j
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 17

d.3 Calcul de Khi2 (χ²)   K


•  On définit le khi2 par :
• On construit le tableau de contingence
théorique d’indépendance c'est-à-dire celui • Le Khi2 est le carré d'une distance entre la
que l'on observerait dans le cas où les deux distribution conjointe observée et la
variables ne seraient pas liées. distribution théorique d'indépendance. Cet
• Dans ce tableau on doit donc constate l'égalité indice est bien nul si le tableau observé est
des profils lignes et l'égalité des profil identique au tableau théorique.
colonnes.
• En utilisant la propriété 3 précédente, on • Si l'on reprend les notations
obtient : ▫ effectif observé
▫ effectif théorique d’indépendance
Alors la formule de Khi2 s’écrit :
  K
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 18

d.4 Exemple de calcul du Khi2


• On reprend le tableau de contingence observé des • Égalité des profits ligne : la proportion de
variables SEXE et GRPE: filles dans la population totale et égale à 7/15
si la répartition dans les groupes et
indépendantes du SEXE on devrait retrouver la
même proportion de filles dans chaque
groupe, par exemple dans le groupe B
constitué de 5 élèves, on devrait dénombrer
5*7/15=2,33 filles.
• Égalité des profits colonnes : la proportion
i. Calcul du tableau de contingence théorique d'élèves du groupe B par rapport à la
d’indépendance population totale est égal à 5/15. Si les
variables SEXE et groupe sont indépendantes,
on devrait retrouver la même proportion
d'élèves du groupe B pour chaque SEXE, par
exemple, parmi les 7 filles, on devrait
dénombrer 7*5/15=2,33 filles dans le groupe
B. On retrouve bien le même résultat
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 19

d.4 Exemple de calcul du Khi2 (suite)


•ii.   Tableau des différences ()

• Enfin on fait la somme des 6 nombres obtenus et


On remarque que, par rapport à l'indépendance, on a : Khi2= 5,42
• les filles sont surreprésentés dans le groupe A
iv. Tableau des contributions au Khi2
et sous-représentées dans les groupes B et C
on peut également construire le tableau de
• les garçons sont surreprésentés dans le
contribution au Khi2 des modalités croisées de deux
groupe B et C et sous-représentés dans le variables en divisant les 6 nombres par Khi2 on
groupe A obtient :
iii. Calcul de Khi2
• On calcule le tableau
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 20

II.4 Traitement statistique de deux variables réelles : Le coefficient de


corrélation linéaire
A. Distributions des effectif et des fréquences
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 21

B. Représentation graphique : la graphique plan


Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 22

•C.  Résumés numériques : covariance, coefficient de corrélation linéaire


Définitions
La covariance : de deux variables réelles X et Y est égale à la moyenne des produits des
différences à la moyenne, c'est-à-dire :
 A partir du tableau initial des données

 A partir de la distribution d’effectifs et de fréquences du couple de variables (X,Y), c-à-d, l’effectif ni


indique le nombre d’individus qui prennent simultanément la valeur de X et de Y et
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 23

•   coefficient de corrélation linéaire :


Le
On propose un indice de liaison sans unité de mesure, le coefficient de corrélation linéaire,
noté , défini comme le rapport de la covariance sur le produit des écart-types de X et de Y, à
condition que X et Y soient non constantes;

On remarque que si X ou Y est constante alors = 0


Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 24

• Propriétés de la covariance
▫ Propriété 1:
La covariance est aussi égale à la moyenne des produits moins le produit des
moyennes, c’est-à-dire
 A partir du tableau initial des données

 A partir de la distribution d’effectifs et de fréquences du couple de variables (X,Y)

▫ Propriété 2:
=
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 25

• Propriétés du coefficient de corrélation linéaire


Le coefficient de corrélation linéaire est symétrique.
Le coefficient de corrélation linéaire est compris entre -1 et 1. Il est égale à -1 ou 1si et
seulement si, il existe une relation linéaire entre les deux variables(d’où son nom).
=
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 26

•D.  Données présentées dans une table de contingence


• 4,12
•C
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 27

E. Droites de régression linéaire


• Pour simplifier on note X la variable MAT1 et Y la variable MAT2.
• L'équation d'une droite est de la forme Y=aX+b et il s'agit de déterminer les
coefficients a et b.
  1. Pour la première droite, dite droite de
régression de Y en X et notée on
projette tous les points sur une droite
quelconque d'équation Y= a X+ b,
parallèlement à l'axe des Y. et on cherche
a et b qui rendent minimum la moyenne
des carrés des distances des points à la
droite selon cette direction
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 28

•Pour
  un point donné (Xi, Yi), la distance à la droite est
On cherche donc a et b qui minimise l'expression :
• La solution est :
et
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 29

•2.   Pour la première droite, dite droite de régression de X en Y et notée on projette


tous les points sur une droite quelconque, parallèlement à l'axe des X, et on cherche
les coefficients qui rendent minimum la moyenne des carrés des distances des points à
la droite selon cette direction.
Le problème est plus simple si on décide d’écrire l’équation de la droite sous la forme
X=a’Y+b’
  Pour un point donné (Xi, Yi), la distance à la droite
est
On cherche donc a’ et b’ qui minimise l'expression :
• La solution est :
et
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 30

•F.   Corrigé de l’exemple


Droite de régression linéaire de Y en X

Donc a pour équation : Y=1,08X-2,19

Droite de régression linéaire de X en Y

Donc a pour équation : X=0,88Y+2,42


Ou encore Y=1,13X-2,7
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 31

•G.  Simplification des calculs par changement de variables


Soit X et Y deux variables réelles dont on veut calculer les moyennes, variances, écart-
types, la covariance et le coefficient de corrélation linéaire "à la main".
On les propriétés suivantes :
Si pour tout a, a' réels, b, b' réels strictement positifs, on définit les variables :
et
Alors on a :
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 32

II.5 Traitement statistique d'une variable réelle et d'une variable catégorielle

•A.  Décomposition de la moyenne et de la variance sur une partition


a. Exemple

La moyenne de l’ensemble : 9,87=( 6x7,33 + 5x11,6 + 4x11,5)/15


Variance inter-classes :
Variance intra-groupe :
Variance totale : 6,12= 4,28+1,84
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 33

•  a. Formalisation
▫ La moyenne d’une variable quantitative est égale à la moyenne des moyennes de cette
variable calculées sur chaque classe.
▫ La variance, appelée aussi variance totale, est égale à la somme de la variance-inter et de
la variance-intra où:
la variance-inter est la variance des moyennes, et
la variance-intra est la moyenne des variance
▫ On note n l’effectif de la population, la moyenne et V la variance d’une variable réelle X.
▫ On considère une variable catégorielle à H modalités, donc une partition de la population
en H groupes et on note l’effectif, la moyenne et la variance de la variable X dans le
groupe . On a alors les relations suivantes :
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 34
Analyse quantitative et qualitative, 3e AA, ISAE-Gafsa, S1-2021. 35

Théorie des tests statistiques

Vous aimerez peut-être aussi