Vous êtes sur la page 1sur 64

Statistique Descriptive

Univariée

Zineb El Akkaoui
Rappel

Méthodes de l’Analyse de Données

Statistique
Descriptive

1 variables 2 variables # variables

Statistique Statistique Analyse


Univariée Bivariée Factorielle

Représentation Représentatio Réduction des


tabulaire n données
graphique

Page 2 Cours Analyse de Données – Pr. Zineb El Akkaoui


Plan

 Représentation Tabulaire
 Tableau d’Effectifs et de Fréquences
 Représentation Graphique
 Diagramme en Bâtons
 Histogramme
 Mesures de Formes
 Réduction des Données
 Mesures de Position
 Mesures de Dispersion

Page 3 Cours Analyse de Données – Pr. Zineb El Akkaoui


Plan

 Représentation Tabulaire
 Tableau d’Effectifs et de Fréquences
 Représentation Graphique
 Diagramme en Bâtons
 Histogramme
 Mesures de Formes
 Réduction des Données
 Mesures de Position
 Mesures de Dispersion

Page 4 Cours Analyse de Données – Pr. Zineb El Akkaoui


Introduction

 L’objectif de l’analyse de données est d’extraire de l’information et de la


connaissance à partir des données
 Or, les données brutes sont représentées par une série de modalités
par individu. Le nombre d'individus étant généralement grand, une
telle série brute est difficilement lisible et interprétable
 En plus, sa représentation graphique n’est pas signifiante

Indisponsable de
synthétiser ces données
et les visualiser autrement

Page 5 Cours Analyse de Données – Pr. Zineb El Akkaoui


Représentation Tabulaire
 L’effectif de la modalité xi est noté ni
 Désigne le nombre d’individus présentant la modalité xi
 Effectif total de la population est n = n1 + n2 +…+np
 La fréquence de la modalité xi est notée f
 Définie par fi=ni/n
 Interprétation : proportion d’individus présentant la modalité xi par rapport à
l’effectif total
 Tableau d’effectifs et de fréquence : tableau décrivant ces
informations pour chaque modalité de la variable étudiée
 Calculé pour toutes les catégories de variables

Page 6 Cours Analyse de Données – Pr. Zineb El Akkaoui


Tableaux d’Effectifs
et de Fréquence
 Cas de variable qualitative
 Chaque modalité est une catégorie
 Compter les effectifs et fréquences pour chaque modalité
 Exemple : groupes de clients, qualitative nominale
Groupes de clients Effectifs Fréquences
Clients de magazines 1769 53%
Clients de CD-ROM 1389 42%
Clients lointains 152 5%
Total 3310 100%

Tableau d’effectifs et de fréquences des groupes


de clients pour une prospection marketing
Page 7 Cours Analyse de Données – Pr. Zineb El Akkaoui
Tableaux d’Effectifs
et de Fréquence
 Cas de variable quantitative discrète
 Chaque modalité est une variable observée
 Compter les effectifs et fréquences pour chaque modalité
 Exemple : âges d’une population Âge Effectifs Fréquences
12 4 11.1%
 14, 16, 13, 12, 12, 13, 17, 15, 15,
13 7 19.4%
15, 18, 12, 13, 13, 14, 13, 14, 15, 14 7 19.4%
16, 15, 15, 12, 17, 17, 16, 14, 14, 15 9 25%
14, 15, 15, 13, 16, 17, 15, 13, 14. 16 4 11.1%
17 4 11.1%
18 1 2.8%
Variable Discrète Total 36 100%
Groupée (DG) Tableau d’effectifs et de fréquences
Page 8 Cours Analyse de Données – Pr. Zineb El Akkaoui
des âge d’une populations
Tableaux d’Effectifs
et de Fréquence
 Cas de variable quantitative continue
 Chaque modalité est une classe d’intervalle
1. Processus de discrétisation : subdiviser les données selon des
classes d’intervalle
• Classe d’intervalle est appellée classes modales
• Une convention sur les extremités : [a, b[, [b, c[… ; la donnée b relève de
l’intervalle [b, c[
2. Compter les effectifs et fréquences des modalités
Exemple : notes des étudiants Notes Effectifs Fréquences
13, 17, 17.5, 18… [12,15] 27 75%
]15,18] 9 25%
Variable Continue
Total 36 100%
Groupée (CG)
Page 9 Cours Analyse de Données – Pr. Zineb El Akkaoui
Tableaux d’Effectifs
et de Fréquence
 Exercice : pour une meilleure estimation de la gravité g, 100
mesures sont collectées. Le tableau montre l’erreur de la
mesure par rapport à une valeur de référence ~9.8 m/s2
-1 2 -74 -44 -19 -60 -106 -83 -86 -79
-24 -12 14 -74 -50 41 14 72 -15 -107
-71 -128 -35 -120 18 -101 -19 -67 24 -27
-106 0 150 0 14 -132 -14 18 -14 51
-37 -34 -59 -113 29 -83 -38 -108 -61 -16
45 -69 -34 -4 -71 -132 -89 -55 -24 19
La variable erreur -99 155 1 -12 -67 14 -112 -12 -16 -60
de la gravité g est
-43 -62 -19 -80 -19 -122 -49 29 -101 -74
une variable
7 -18 -105 -121 -27 -16 -48 -29 -65 -48
quantitative
continue -80 -152 -52 -26 -87 -107 -54 -54 -47 -106

Données brutes de l’erreur de la gravité g testée


Page 10
Tableaux d’Effectifs
et de Fréquence
 Sachant les classes d’intervalle suivantes :
 [−160, −110]
 ]−110, −90]
 ] −90, −70]
 ] −70,−40]
 ] −40, −10]
 ] −10, 20]
 ] 20, 50] Q1: Compter les effectifs et les
 ] 50, 80] fréquences de la 1ère et la 2ème classe
 ] 80, 160] après avoir ordonné le tableau

Page 11 Cours Analyse de Données – Pr. Zineb El Akkaoui


Tableaux d’Effectifs
et de Fréquence
 [−160, −110]
• {−152, −132, −132, −128, −122, −121, −120, −113, −112}.
• Effectif de la 1ère classe est de 9
 ]−110, −90]
• {−108, −107, −107, −106, −106, −106, −105, −101, −101, −99}
• Effectif de la 1ère classe est de 10

Page 12 Cours Analyse de Données – Pr. Zineb El Akkaoui


Tableaux d’Effectifs
et de Fréquence
Fréquence
Classes d’intervalle Effectifs
s
[−160, −110] 9 9%
]−110, −90] 10 10%
] −90, −70] 13 13%
] −70,−40] 20 20%
] −40, −10] 25 25%
] −10, 20] 14 14%
] 20, 50] 5 5% Tableau d’effectifs et de
fréquences pour l’erreur
] 50, 80] 2 2% de la pesanteur g testée
] 80, 160] 2 2%

Page 13 Cours Analyse de Données – Pr. Zineb El Akkaoui


Plan

 Représentation Tabulaire
 Tableau d’Effectifs et de Fréquence
 Représentation Graphique
 Diagramme à Bâtons
 Histogramme
 Mesures de Formes
 Réduction des Données
 Mesures de Position
 Mesures de Dispersion

Page 14 Cours Analyse de Données – Pr. Zineb El Akkaoui


Représentation Graphique
 Les diagramme en tuyaux d’orgue, en barres et en secteurs,
représentations graphiques utiles pour une variable qualitative
 Exemple : observation de la
séquence d’un brin d’ADN
GGGAGTGTBTATTAABTBBGAA
BTBBBAGBGBTAGBTBGBGBGG
AGTGABBGAGBBTABATGAGGG
TABTGTBAATAABGBATGTTABB
AGAAGGA Diagramme en barres

Tuyaux d’orgue
en fréquence

Diagramme en
secteur
Page 15 Cours Analyse de Données – Pr. Zineb El Akkaoui
Représentation Graphique
 Diagramme en bâtons : est une représentation graphique de
variable discrète groupée (DG) à l'aide de segments, dont
 les modalités sont représentées sur l'axe horizontal
 la hauteur indique l’effectif ou la fréquence d’une modalité

 Propriétés
 PermetGroupes de clients
de comparer les effectifs deEffectifs Fréquences
chaque groupe
Clients lointains 1769 53%
 La largeur desdebâtons
Clients CD-ROMn’a pas d’intérêt 1389 42%
 Peut être représenté
Clients comme un
de magazines 152 5%
diagramme
Total en cammenbert pour les 3310 100%
variables qualitatives

Page 16 Cours Analyse de Données – Pr. Zineb El Akkaoui


Représentation Graphique

 Histogramme : est un graphique permettant de représenter


la répartition de variable continue groupée (CG)
 Visualiser un tableau de fréquences
 La proportion de données correspondante à chaque classe est
représentée par un rectangle dont
• la surface est la fréquence de la classe
• la base est la largeur de l’intervalle de classe
• la hauteur est la densité de la classe, i.e. effectif par unité
 Possibilité de changer les largeurs des classes en des classes plus
homogènes afin d’améliorer l’interprétation du graphique

Page 17 Cours Analyse de Données – Pr. Zineb El Akkaoui


Représentation Graphique

 Base de la classe d’intervalle Clientèle d’un hôtel

Nb de clients par âge


li = xi+1 - xi
 Surface (fréquence) du rectangle
si = n i / n
 Hauteur (densité) du rectangle
h i = si / l i
 Surface totale des rectangles est 1
 L’axe vertical et horizontal ont une Classes d’âge

unité
- L’histogramme est une représentation de la distribution
- La distribution d’une variable est la répartition de ses valeurs numériques sur l’axe
des réels
Page 18 Cours Analyse de Données – Pr. Zineb El Akkaoui
Représentation Graphique
 Exercice : calculer la surface de la 1ère, 2ème et dernière classes
sur les données de la gravité g
Classes d’intervalle
Fréquence Lecture de la surface (immédiat)
s  Surface de la 1ère classe s1 = 9%
−160 to −110 9%  Surface de la 2ème classe s2 = 10%
−110 to −90 10%  Surface de la dernière classe 2%
−90 to −70 13%
−70 to −40 20%  Rq : La Surface de la 2ème classe est
cinq fois plus grande que la dernière
−40 to −10 25%
−10 to 20 14%
20 to 50 5%
50 to 80 2%
80Page
to19160 2%– Pr. Zineb El Akkaoui
Cours Analyse de Données
Représentation Graphique
 Exercice : calculer la hauteur de la 1ère, 2ème et dernière classes
sur les données de la gravité g
Fréquence Lecture de la hauteur
Classes d’intervalle
s  Hauteur de la 1ère classe [−160, −110]
−160 to −110 9% h1 = 9% / −110−(−160) par unité
−110 to −90 10% = 0.18% (par 10-8m/s2)
−90 to −70 13%  Hauteur de la 2ème classe ]−110, −90]
−70 to −40 20% est 0.5% (par 10-8 m/s2)
−40 to −10 25%
 Hauteur de la dernière
classe ]80, 160] est 0.025% (par
−10 to 20 14% 10-8 m/s2)
20 to 50 5%  Rq : La hauteur de la 2ème classe est
50 to 80 2% 20 fois plus grande que la
dernière
80 to 160 2%
Mesures de Formes

 Propriétés graphiques d’une distribution


 Propriétés de symétrie par rapport au centre de la distribution
 Propriétés d’aplatissement comparant une distribution
symétrique à une distribution de loi normale
 Extraction de ces propriétés
 soit à partir de lecture de l’histogramme
 soit à partir du calcul des mesures de formes

Page 21 Cours Analyse de Données – Pr. Zineb El Akkaoui


Mesures de Formes
 Symétrie : la distribution est symétrique si les données sont
distribuées de manière symétrique autour d’un axe de symétrie

 Étant donnée une variable aléatoire réelle de moyenne  et


d’écart type , on définit son coefficient d’asymétrie, skewness

 Ce coefficient est nul lorsque la distribution est symétrique

Page 22 Cours Analyse de Données – Pr. Zineb El Akkaoui


Mesures de Formes
 La distribution est asymétrique à gauche si les données
sont décalées à gauche du centre de l’histogramme.
 Les petites valeurs observées sont plus fréquentes que les
valeurs élevées
 Ex. les données salariales sont concentrées sur les petits et
moyens salaires

 La distribution est asymétrique à droite si les données


sont décalées à droite du centre de l’histogramme.
 Les grandes valeurs sont plus fréquentes que les petites
 Ex. un test de fabrication montre ques la majorité des
ampoules ont une longue durée de vie

 Si le coefficient d’asymétrie est positif, la distribution est


décalée à gauche, et vice versa
Page 23 Cours Analyse de Données – Pr. Zineb El Akkaoui
Mesures de Formes
 Aplatissement : Étant donnée une variable aléatoire réelle de
moyenne  et d’écart type , on définit son coefficient Kurtosis
d’aplatissement

 Si 2 = 0 la distribution est de type normale


 Si 2 > 0 la distribution est moins aplatie que la distribution de la loi normale
 Si 2 < 0, la distribution est plus aplatie que la distribution de la loi normale

Page 24 Cours Analyse de Données – Pr. Zineb El Akkaoui


Mesures de Formes

 Exercice : quelle est la forme de la courbe ? Quel serait les


valeurs des coefficients de symétrie et d’aplatissement ?

Page 25 Cours Analyse de Données – Pr. Zineb El Akkaoui


Plan

 Représentation Tabulaire
 Tableau d’Effectifs et de Fréquences
 Représentation Graphique
 Diagramme en Bâtons
 Histogramme
 Mesures de Formes

 Réduction des Données


 Mesures de Position
 Mesures de Dispersion

Page 26 Cours Analyse de Données – Pr. Zineb El Akkaoui


Introduction

1. Mesures position
 Incluent les mesures de tendance centrale et les quantiles
 Réduire les données en des valeurs « types » : les mesures les plus
représentatives de la distribution

2. Mesures de dispersion
 Informer sur la dispersion des valeurs de la série autour des mesures de
position

Rq: La suite du cours traite des variables discrètes et continues


groupées, resp. DG et CG
Page 27 Cours Analyse de Données – Pr. Zineb El Akkaoui
Mode
 Définition : Le mode xM est la valeur la plus observée dans la
distribution, i.e. associé à l'effectif le plus élevé
 Dans le cas d’une VG, la classe modale est celle ayant la densité la plus élevée
 Le mode est le centre de la classe modale
 Ex. Clientèle d’un hôtel. Le mode est xM = 25, centre de la classe modale
Clientèle d’un hôtel

Nb de clients par âge


Classe
modale

Distribution unimodale (un seul mode) et


le mode est une valeur centrale

Page 28 Classes d’âge


Mode

Distribution bimodale ou
plurimodale (2 ou plusieurs
modes) et les modes sont (ou
pas) au centre des valeurs
observées
Cette caractéristique reflète
souvent la présence de deux
sous-populations

Pas de mode

Cas particuliers
Mode
 Exercice : calculer le mode(s) et interpréter l’histogramme des notes
des étudiants
N’ayant pas préparé Ayant préparé
Distribution bimodale
xM1 = 35 et xM2 = 95
Interprétation :
La population contient deux
sous-populations
- Etudiants ayant préparé leur examen
- Etudiants n’ayant pas préparé leur
Notes des étudiants examen

Page 30 Cours Analyse de Données – Pr. Zineb El Akkaoui


Moyenne
 Définition : la moyenne arithmétique est la somme des valeurs d’une
variable sur l’effectif total de la population
Formule 1 (si série brute)

Formule 2 (si variable groupée : DG ou CG)

Page 31
Moyenne
 Moyenne géométrique est définie telle quex =
 Exemple : taux d'accroissement moyen
 Une quantité Q0 évolue de t1% une année puis de t2% l'année suivante
 Notons la quantité après deux
années
 Soit c le coefficient multiplicateur correspondant au taux moyen annuel
et sa généralisation

 En général, le taux moyen d'évolution pour une période est la


moyenne géométrique des taux d'évolutions des sous-périodes

Page 32 Cours Analyse de Données – Pr. Zineb El Akkaoui


Moyenne
 Moyennes harmonique est définie telle que x =
 Exemple : vitesse moyenne
 Un avion parcourt une distance d à l'aller à une vitesse constante v1 et
au retour à une vitesse constante v2
 Sa vitesse moyenne

 Généralisation à n sous-trajets de même longueur parcourus à des


vitesses constantes v1, ..., vn

 En général, la vitesse moyenne sur une distance est la moyenne


harmonique
Page 33 des vitesses
Cours sur les– Pr.
Analyse de Données sous-distances
Zineb El Akkaoui
Moyenne
 Exercice 1: calculer les moyennes des distributions

Âge Effectifs Fréquences Notes Effectifs Fréquences
12 4 11.1% [12,15] 27 75%
13 7 19.4% ]15,18] 9 25%
14 7 19.4% Total 36 100%
15 9 25% DG
16 4 11.1% Les centres de classe:
17 4 11.1% x1 = 12 + (15-12)/2 = 13.5
18 1 2.8% x2 = 15 + (18-15)/2 = 16.5
Total 36 100%
La moyenne des notes
La moyenne d’âge CG
x = (27 * x1+ 9 * x2)/36
x = (12*4 + 13 * 7 +… + 18*1) /36
= 14.25 ans
= 14.5 ans
Page 34
Moyenne
 Exercice 2: calculer la moyenne de la distribution à partir de
l’histogramme
Les centres de classe:
Clientèle d’un hôtel x1 = 10 x3 = 35
Nb de clients par âge

x2 = 25 x4 = 45
Les effectifs par classe
n1 = 5*20 = 100
n2 = 15 * 10 = 150
n3 = 13 * 10= 130
n4 = 2 *10 = 20
La moyenne des notes
Classes d’âge x =10200/400
= 25.5 ans
Page 35 Cours Analyse de Données – Pr. Zineb El Akkaoui
Moyenne

 Propriétés de la moyenne
 La moyenne est une valeur centrée des observations
 Contrairement au mode, la moyenne existe toujours et est unique
 La moyenne est rarement une valeur observée
 La moyenne est fort sensible à la présence de valeurs aberrantes

La moyenne est bien une valeur


centrale
La moyenne n'est plus du tout une
valeur centrale, elle est supérieure
à toutes les observations

Page 36 Cours Analyse de Données – Pr. Zineb El Akkaoui


Médiane
 Définition : La Médiane est la plus petite valeur partitionnant la série
statistique ordonnée en deux groupes contenant chacun 50% des
observations
Formule 1 (sur série ordonnée)

 La médiane est une mesure « robuste »


 Ne change que très peu en cas de variation accidentelle d'un faible nombre
d'observations
 La médiane est la valeur la plus proche de toutes les autres c'est celle
qui minimise les distances en valeur absolue
Page 37 Cours Analyse de Données – Pr. Zineb El Akkaoui
Médiane
 Exercice : calcul de la médiane des données : 0, 0, 1, 1, 1, 2, 2, 3, 5
(dépond de la représentation de données)
 Cas 1 : série d’observation. On choisit la modalité la valeur entière de [n/2]
La médiane est
x1/2 = 1
 Cas 2 : variable discrète groupée (DG)
Effectif cumulé

Diagramme cumulatif
 Cas 3 : variable CG, similaire au cas 2 en utilisant les centres de classe

Page 38
Choix de la Mesure

 Relation entre les mesures de position et la forme de la


distribution
 Cas d’une distribution
unimodale et symétrique, avec
à peu près
moyenne = médiane = mode

 Le meilleur résumé est


donné par la moyenne

Page 39 Cours Analyse de Données – Pr. Zineb El Akkaoui


Choix de la Mesure

 Relation entre les mesures de position et la forme de la


distribution
 Cas de distributions unimodales asymétriques, deux cas peuvent
se présenter
1. Si mode < médiane < moyenne : la distribution est asymétrique à
gauche

 Le meilleur résumé est


donné par la médiane

Page 40 Cours Analyse de Données – Pr. Zineb El Akkaoui


Choix de la Mesure

 Relation entre les mesures de position et la forme de la


distribution
 Cas de distributions unimodales asymétriques, deux cas peuvent
se présenter
2. Si moyenne < médiane <mode : la distribution est asymétrique à
droite

 Le meilleur résumé est


donné par la médiane

Page 41 Cours Analyse de Données – Pr. Zineb El Akkaoui


Choix de la Mesure

 Résumé : choix de la mesure de tendance centrale


 Lorsqu'il y a une asymétrie marquée, la médiane est
généralement préférable à la moyenne car elle est moins
influencée par les valeurs exceptionelles
• Les valeurs exceptionelles sont souvent à l'origine de la
dissymétrie
 Si l’asymétrie est peu marquée, nous utilisons la moyenne

Page 42 Cours Analyse de Données – Pr. Zineb El Akkaoui


Choix de la Mesure
 Exercice : quelle est la mesure la plus appropriée, médiane ou
moyenne, pour décrire le salaire « type » d’une cadre en France ?

La valeur centrale la plus représentative est la médiane : 50% des salaires des
cadres lui sont inférieurs, 50% supérieurs. C'est la meilleure mesure de ce
qu'un cadre « type » peut gagner en France

Distribution des
salaires des cadres
en France
Quantiles
 À toute proportion (0 < p < 1) peut être associé le quantile d'ordre p.
 Un quantile particulier : la médiane, qui correspond au quantile d'ordre ½
 Les autres quantiles sont définis de manière similaire

 Définition : Le quantile d'ordre p est une valeur qui partage la série


statistique ordonnée en deux sous-ensembles qui contiennent
 Respectivement un nombre d'observations égal à [np] et n - [np]
• [np] désigne le plus petit entier supérieur ou égal à np
 Respectivement une proportion d'observations à peu près égale à p et 1 – p

Page 44 Cours Analyse de Données – Pr. Zineb El Akkaoui


Quantiles
 Besoin de la série des observations pour calculer le quantile exacte
 Exercice 1: définir les quantiles d’ordre 1/4 et 1/5 à partir de la série
suivante : 1, 7, 15, 8, 3, 9, 8 15

n=8 , n/4=2
Le quantile d’ordre 1/4
est la valeur du rang 2 : 3

n=8 , n/5=1.6
Le quantile d’ordre 1/5 est
la valeur du rang 2 : 1

Page 45 Cours Analyse de Données – Pr. Zineb El Akkaoui


Quantiles

 Les quantiles les plus fréquemment utilisés sont


 1) la médiane : p=1/2
 2) les quartiles : p=1/4 (1er quartile), p=1/2 (2e quartile), p=3/4 (3e
quartile)
 3) les déciles : p = 1/10, 2/10,… 9/10
 4) les percentiles : p = 1/100,…99/100

Page 46 Cours Analyse de Données – Pr. Zineb El Akkaoui


Choix du Quantile

 Le choix d'une mesure de position


 Exercice : quelle mesure pour analyser …
 les élections des groupes parlementaires et
 les tailles de la clientèle pour fabriquant de vêtements
 Solution :
 Ex.1 : on cherche à savoir quel est le groupe parlementaire qui
comptera le plus grand nombre de députés ; il est donc pertinent
de s'intéresser au mode.
 Ex.2 : les déciles d'une distribution de tailles est très utile à un
fabricant de vêtements

Page 47 Cours Analyse de Données – Pr. Zineb El Akkaoui


Plan

 Présentation des Données


 Cas d’Etude
 Tableau d’Effectifs et de Fréquence
 Graphiques : Histogramme
 Caractéristiques Graphiques
 Réduction des Données
 Mesures de Position
 Mesures de Dispersion

Page 48 Cours Analyse de Données – Pr. Zineb El Akkaoui


Etendue

 Définition : L' étendue d'un ensemble de données est la


différence entre la valeur observée maximale et minimale
E = xmax – xmin
 Souffre de deux défauts majeurs
1. elle ne tient pas compte de toutes
les observations
2. elle est particulièrement sensible
à la présence de valeurs extrêmes
 L'étendue n’est raisonnablement envisagée que pour des
séries réparties de façon homogène (sans valeurs extrêmes)
Page 49 Cours Analyse de Données – Pr. Zineb El Akkaoui
Interquartile

 L' écart interquartile est la longueur de l'intervalle


interquartile dont les bornes sont le 1er et le 3ème quartiles

 Avantage : l’écart interquartile ne contient pas d'éventuelles


valeurs extrêmes
 Défaut : l’écart interquartile ne mesure que 50% des observations
centrales

Page 50 Cours Analyse de Données – Pr. Zineb El Akkaoui


Boîte à Moustache

 Définition : La boîte à moustache est un graphique qui


résume l'information fournie par l'étendue, ainsi que par
les trois quartiles et les intervalles qui les séparent

 Les largeurs des deux parties de la boîte rendent compte de la


dispersion des valeurs situées au centre de la série
• la boîte contient 50% de l'ensemble des observations : 25% à gauche de la
médiane et 25% à sa droite

Page 51
Boîte à Moustache

 La longueur des moustaches renseigne sur la dispersion des


valeurs situées au début et à la fin de la série ordonnée,
• respectivement 25% des observations correspondants aux petites valeurs
et 25% des observation aux grandes valeurs
 La boîte et les moustaches seront d'autant plus étendues que la
dispersion de la série est grande

Page 52 Cours Analyse de Données – Pr. Zineb El Akkaoui


Boîte à Moustache

 Exercice : déterminons la boîte à moustaches pour les


résultats obtenus dans le cours C1
 Données: série d’observation ordonnée C1
 x1/2 = (46+52)/2 = 49
 x1/4 = x3 = 23
 x3/4 = x8 = 75
 x3/4 – x1/4= 75 – 23 = 52

Page 53 Cours Analyse de Données – Pr. Zineb El Akkaoui


Boîte à Moustache

 Exercice : déterminons la boîte à moustaches pour les


résultats obtenus dans le cours C7
 Données: série d’observation ordonnée C7
 x1/2 = (24+25)/2 = 24.5
 x1/4 = x3 = 21
 x3/4 = x8 = 29
 x3/4 – x1/4= 29 – 21 = 8
 93 est une valeur extérieure, représentée par une étoile

Page 54 Cours Analyse de Données – Pr. Zineb El Akkaoui


Boîte à Moustache
 Ces représentations graphiques sont
simples à construire
 Répartition des observations par cours
(et aussi soit par étudiant)
 la comparaison entre cours
 Interprétation
 C2 les élèves ont tous eu des notes
rapprochées, soit qu’ils ont tous
assimiler le cours, soit que l’examen
étaient accessible pour tous
 À la différence du cours C7

Page 55 Cours Analyse de Données – Pr. Zineb El Akkaoui


Variance
 Définition : La variance de la variable x
n
1
Série s x2   ( x i  x) 2 1 p

DG ou CG s x   n i ( x i  x)
2 2

observée n i 1 n i 1
 Elle correspond à la moyenne des carrés des différences entre les observations
et leur moyenne. Cette formule peut-être développée telle que
n
1
s x   xi  x
2 2 2

 Propriétés de la variance n i 1
 Plus une série statistique est dispersée, plus la variance s'accroît
 La variance est nulle si et seulement si toutes les observations ont la même
valeur  aucune dispersion
 Son unité vaut le carré de l'unité de la variable observée
• Ex. une série de poids exprimés en kilos possède une variance en "kilos2"

Page 56 Cours Analyse de Données – Pr. Zineb El Akkaoui


Ecart-Type

 Ecart-type s d'une série statistique est égal à la racine


carrée de la variance
n p
Série s  1 1
observée
x
n

i 1
( x i  x) 2 DG ou CG s x 
n

i 1
n i ( x i  x) 2

 Plus facile à interpréter que la variance


 La construction d'intervalles remarquables permet de faciliter
cette interprétation. Pour une distribution suivant une loi normale
• l'intervalle [x– s, x + s] contient à peu près 2/3 des observations
• l'intervalle [x– 2s, x+2s] contient à peu 95% près des observations

Page 57 Cours Analyse de Données – Pr. Zineb El Akkaoui


Ecart-Type
 Exercice : nombre d’aggressions dans les villes des USA
Nbre d'agressions Nbre d'agressions
Ville Ville
pour 100 000 hab. pour 100 000 hab.
Atlanta 147 Houston 186
Boston 90 Kansas City 226
Chicago 242 Los Angeles 355
Dallas 293 New Orleans 283
 Questions
Denver 191 New York 267  Étendu
Detroit 220 Portland 144  Variance ? écart-type ?
Hartford 103 Tucson 148  l'intervalles remarquables à
Honolulu 28 Washington 217 2/3 et 95%, sachantx =196.25

 Solution : l’étendu est 328 (aggr.). La variance des taux d'agression


vaut 6685.9375 (aggr.²). l’écart-type est 81.76 (aggr.)
 L’Intervalle remarquable à 2/3 est [114.49, 278.1]
Page 58 Cours Analyse de Données – Pr. Zineb El Akkaoui
Ecart-Type
 Coefficient de variation : mesure la dispersion des données autour
de la moyenne
 Il permet de comparer le degré de variation d'une distribution à une
autre, même si les moyennes sont différentes
CV = s / x * 100%
où s représente l'écart-type de l'échantillon et x la moyenne
 CV est un coefficient normalisé : il annule l’effet de taille et de l’unité
 Exemple : Lorsque l'écart-type et la moyenne proviennent des mesures
répétées des performances d'un athlète au cours de différentes
compétitions sportives
• le coefficient de variation devient une mesure importante de la fiabilité

Page 59 Cours Analyse de Données – Pr. Zineb El Akkaoui


Ecart-Type
 Exercice : nombre d’aggressions dans les villes des USA
Nbre d'agressions Nbre d'agressions
Ville Ville
pour 100 000 hab. pour 100 000 hab.
Atlanta 147 Houston 186
Boston 90 Kansas City 226
Chicago 242 Los Angeles 355
Dallas 293 New Orleans 283
 Questions
Denver 191 New York 267  Coefficient de variation ?
Detroit 220 Portland 144
Hartford 103 Tucson 148
Honolulu 28 Washington 217

 Solution :Le taux d'agression moyen est égal à 196.25 . Donc


CV = 41.66%
Page 60 Cours Analyse de Données – Pr. Zineb El Akkaoui
Mesure de Concentration
 Définition : le coefficient de Gini est une mesure de la dispersion
d'une distribution dans une population donnée
 Il donne un aperçu global des inégalités
 Il est très utilisé pour mesurer l'inégalité économique dans un pays
Distribution des revenus
ou des richesses
-La situation d’égalité parfaite où
tous les salaires, les revenus,…
sont égaux (droite bleue)
-À l’autre extrême, il est égal à 1
dans une situation la plus
inégalitaire possible, celle où tous
les salaires (les revenus, les Population :
niveaux de vie…) sauf un seraient
0 correspond au
nuls
-l’inégalité est d’autant plus forte plus pauvre et 1 au
quePage Cours
61 de Gini est
l’indice Analyse de Données – Pr. Zineb El Akkaoui
élevé plus riche
Mesure de Concentration
 Formule du coefficient de Gini
G = S/(S+V) = S/(1/2) = 2S
= 1 - 2V

 Interprétation
 Plus cette part est importante, plus les ressources sont distribuées
inégalement
Rq: la notion de concentration ne s'applique qu'à des variables
statistiques quantitatives à valeurs strictement positives
Page 62 Cours Analyse de Données – Pr. Zineb El Akkaoui
Mesure de Concentration
 Exercice : calculer l’indice de Gini du canada

Page 63 Cours Analyse de Données – Pr. Zineb El Akkaoui


Conclusion
 Explorer la distribution d’une variable à travers

 Sa représentation groupée en tableaux d’effectifs et de fréquences

 Sa représentation graphique choisie selon sa catégorie

 Ses mesures de forme, de position et de dispersion

Page 64 Cours Analyse de Données – Pr. Zineb El Akkaoui

Vous aimerez peut-être aussi