Académique Documents
Professionnel Documents
Culture Documents
Cours 1 - Analyse Univariée
Cours 1 - Analyse Univariée
Univariée
Zineb El Akkaoui
Rappel
Statistique
Descriptive
Représentation Tabulaire
Tableau d’Effectifs et de Fréquences
Représentation Graphique
Diagramme en Bâtons
Histogramme
Mesures de Formes
Réduction des Données
Mesures de Position
Mesures de Dispersion
Représentation Tabulaire
Tableau d’Effectifs et de Fréquences
Représentation Graphique
Diagramme en Bâtons
Histogramme
Mesures de Formes
Réduction des Données
Mesures de Position
Mesures de Dispersion
Indisponsable de
synthétiser ces données
et les visualiser autrement
Représentation Tabulaire
Tableau d’Effectifs et de Fréquence
Représentation Graphique
Diagramme à Bâtons
Histogramme
Mesures de Formes
Réduction des Données
Mesures de Position
Mesures de Dispersion
Tuyaux d’orgue
en fréquence
Diagramme en
secteur
Page 15 Cours Analyse de Données – Pr. Zineb El Akkaoui
Représentation Graphique
Diagramme en bâtons : est une représentation graphique de
variable discrète groupée (DG) à l'aide de segments, dont
les modalités sont représentées sur l'axe horizontal
la hauteur indique l’effectif ou la fréquence d’une modalité
Propriétés
PermetGroupes de clients
de comparer les effectifs deEffectifs Fréquences
chaque groupe
Clients lointains 1769 53%
La largeur desdebâtons
Clients CD-ROMn’a pas d’intérêt 1389 42%
Peut être représenté
Clients comme un
de magazines 152 5%
diagramme
Total en cammenbert pour les 3310 100%
variables qualitatives
unité
- L’histogramme est une représentation de la distribution
- La distribution d’une variable est la répartition de ses valeurs numériques sur l’axe
des réels
Page 18 Cours Analyse de Données – Pr. Zineb El Akkaoui
Représentation Graphique
Exercice : calculer la surface de la 1ère, 2ème et dernière classes
sur les données de la gravité g
Classes d’intervalle
Fréquence Lecture de la surface (immédiat)
s Surface de la 1ère classe s1 = 9%
−160 to −110 9% Surface de la 2ème classe s2 = 10%
−110 to −90 10% Surface de la dernière classe 2%
−90 to −70 13%
−70 to −40 20% Rq : La Surface de la 2ème classe est
cinq fois plus grande que la dernière
−40 to −10 25%
−10 to 20 14%
20 to 50 5%
50 to 80 2%
80Page
to19160 2%– Pr. Zineb El Akkaoui
Cours Analyse de Données
Représentation Graphique
Exercice : calculer la hauteur de la 1ère, 2ème et dernière classes
sur les données de la gravité g
Fréquence Lecture de la hauteur
Classes d’intervalle
s Hauteur de la 1ère classe [−160, −110]
−160 to −110 9% h1 = 9% / −110−(−160) par unité
−110 to −90 10% = 0.18% (par 10-8m/s2)
−90 to −70 13% Hauteur de la 2ème classe ]−110, −90]
−70 to −40 20% est 0.5% (par 10-8 m/s2)
−40 to −10 25%
Hauteur de la dernière
classe ]80, 160] est 0.025% (par
−10 to 20 14% 10-8 m/s2)
20 to 50 5% Rq : La hauteur de la 2ème classe est
50 to 80 2% 20 fois plus grande que la
dernière
80 to 160 2%
Mesures de Formes
Représentation Tabulaire
Tableau d’Effectifs et de Fréquences
Représentation Graphique
Diagramme en Bâtons
Histogramme
Mesures de Formes
1. Mesures position
Incluent les mesures de tendance centrale et les quantiles
Réduire les données en des valeurs « types » : les mesures les plus
représentatives de la distribution
2. Mesures de dispersion
Informer sur la dispersion des valeurs de la série autour des mesures de
position
Distribution bimodale ou
plurimodale (2 ou plusieurs
modes) et les modes sont (ou
pas) au centre des valeurs
observées
Cette caractéristique reflète
souvent la présence de deux
sous-populations
Pas de mode
Cas particuliers
Mode
Exercice : calculer le mode(s) et interpréter l’histogramme des notes
des étudiants
N’ayant pas préparé Ayant préparé
Distribution bimodale
xM1 = 35 et xM2 = 95
Interprétation :
La population contient deux
sous-populations
- Etudiants ayant préparé leur examen
- Etudiants n’ayant pas préparé leur
Notes des étudiants examen
Page 31
Moyenne
Moyenne géométrique est définie telle quex =
Exemple : taux d'accroissement moyen
Une quantité Q0 évolue de t1% une année puis de t2% l'année suivante
Notons la quantité après deux
années
Soit c le coefficient multiplicateur correspondant au taux moyen annuel
et sa généralisation
x2 = 25 x4 = 45
Les effectifs par classe
n1 = 5*20 = 100
n2 = 15 * 10 = 150
n3 = 13 * 10= 130
n4 = 2 *10 = 20
La moyenne des notes
Classes d’âge x =10200/400
= 25.5 ans
Page 35 Cours Analyse de Données – Pr. Zineb El Akkaoui
Moyenne
Propriétés de la moyenne
La moyenne est une valeur centrée des observations
Contrairement au mode, la moyenne existe toujours et est unique
La moyenne est rarement une valeur observée
La moyenne est fort sensible à la présence de valeurs aberrantes
Diagramme cumulatif
Cas 3 : variable CG, similaire au cas 2 en utilisant les centres de classe
Page 38
Choix de la Mesure
La valeur centrale la plus représentative est la médiane : 50% des salaires des
cadres lui sont inférieurs, 50% supérieurs. C'est la meilleure mesure de ce
qu'un cadre « type » peut gagner en France
Distribution des
salaires des cadres
en France
Quantiles
À toute proportion (0 < p < 1) peut être associé le quantile d'ordre p.
Un quantile particulier : la médiane, qui correspond au quantile d'ordre ½
Les autres quantiles sont définis de manière similaire
n=8 , n/4=2
Le quantile d’ordre 1/4
est la valeur du rang 2 : 3
n=8 , n/5=1.6
Le quantile d’ordre 1/5 est
la valeur du rang 2 : 1
Page 51
Boîte à Moustache
DG ou CG s x n i ( x i x)
2 2
observée n i 1 n i 1
Elle correspond à la moyenne des carrés des différences entre les observations
et leur moyenne. Cette formule peut-être développée telle que
n
1
s x xi x
2 2 2
Propriétés de la variance n i 1
Plus une série statistique est dispersée, plus la variance s'accroît
La variance est nulle si et seulement si toutes les observations ont la même
valeur aucune dispersion
Son unité vaut le carré de l'unité de la variable observée
• Ex. une série de poids exprimés en kilos possède une variance en "kilos2"
Interprétation
Plus cette part est importante, plus les ressources sont distribuées
inégalement
Rq: la notion de concentration ne s'applique qu'à des variables
statistiques quantitatives à valeurs strictement positives
Page 62 Cours Analyse de Données – Pr. Zineb El Akkaoui
Mesure de Concentration
Exercice : calculer l’indice de Gini du canada