Vous êtes sur la page 1sur 102

Analyse des données

1- Généralités et Statistique descriptive


unidimensionnelle

Driss BARI
PhD., Ingénieur de R& D
www.baridriss.com
bari.driss@gmail.com

Génie Logistique et Transport

1/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Plan

1 Généralités sur la Statistique


Vocabulaire des statisticiens
Techniques d'Echantillonnage
Méthodes statistiques
2 Statistique descriptive unidimensionnelle
Généralités
Mesure de la tendance centrale
Mesure de la dispersion
Caractéristiques de forme
Visualisation des distributions des données

2/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Vocabulaire des statisticiens

Outline

1 Généralités sur la Statistique


Vocabulaire des statisticiens
Techniques d'Echantillonnage
Méthodes statistiques

2 Statistique descriptive unidimensionnelle

3/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Vocabulaire des statisticiens

Vocabulaire des statisticiens ?

4/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Vocabulaire des statisticiens

Qu'est-ce que la Statistique ?

 Among the topics on which statisticians do not agree is the


denition of their science.
 Parmi les thèmes à propos desquels
les statisticiens ne sont pas d'accord
se trouve la dénition de leur science 
M. G. Kendall : The advanced theory
of statistics (2e édit., 1945), vol. I, p. 1.

5/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Vocabulaire des statisticiens

Vocabulaire des statisticiens ?

Quelques denitions signicatives !!


 Statistics is the science of how to collect, organize, analyze and
interpret numerical information from data. (Brase and Brase,
2008)
 Statistics is the mathematics of collection, organization and
interpretation of numerical data. (The American heritage
dictionary)
La statistique est la science de la collecte, de l'organisation, de
l'analyse et de l'interprétation des informations numériques à partir
de données
6/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Vocabulaire des statisticiens

Qu'est-ce que la Statistique ?

L'essence de la Statistique
 Statistics is both the science of uncertainty and the technology of
extracting information from data. (David Hand, 2011)
La statistique est à la fois la science de l'incertitude et la
technologie permettant d'extraire des informations des données.

7/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Vocabulaire des statisticiens

Population vs Echantillon et Individu vs Variable

En statistique, la population désigne un ensemble d'unités


statistiques. Les unités statistiques sont les entités abstraites qui
représentent des personnes, des populations d'animaux ou des
objets. Le terme individu est parfois employé comme synonyme du
terme unité statistique. Chaque individu d'une population est
décrit par un ensemble de caractéristiques appelées variables ou
caractères.
On parle d'échantillon d'une population statistique pour désigner
le prélèvement, au hasard ou selon une méthode qui permet
d'assurer la représentativité par rapport à la population totale, d'un
petit nombre d'unités statistiques au sein de la population.
8/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Vocabulaire des statisticiens

Exemple

Exemple
Une usine fabrique des tiges métalliques utilisées dans l'assemblage
de certaines structures. Pour étudier la résistance à la traction de
ces tiges, on mesure cette résistance pour un lot de 100 tiges.
Propriété étudiée : la résistance à la traction de tiges
métalliques.
Population statistique : l'ensemble des 100 tiges ou des 100
mesures.
Unité statistique : chacune des tiges ou chacune des 100
mesures.

9/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Vocabulaire des statisticiens

Types de données : quantitatives vs qualitatives

Ces variables peuvent être classées selon leur nature:


Variables Quantitatives ou Numériques
par exemple taille, poids, volume, s'expriment par des nombres
réels sur lesquels les opérations arithmétiques courantes (somme,
moyenne, ... ) ont un sens.
Certaines peuvent être discrètes (nombre ni ou dénombrable de
valeurs) : nombre de défauts d'une pièce, de véhicules passant en
une heure à un péage, etc. ou continues si toutes les valeurs d'un
intervalle de R; sont acceptables.

10/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Vocabulaire des statisticiens

Types de données : quantitatives vs qualitatives

Variables Qualitatives
variables qualitatives s'exprimant par l'appartenance à une
catégorie ou modalité d'un ensemble ni.
Certaines sont purement nominales: par exemple la catégorie
socio-professionnelle d'un actif (ouvrier, cadre, employé ... ),
d'autres sont ordinales lorsque l'ensemble des catégories est muni
d'un ordre total; par exemple: très résistant, assez résistant, peu
résistant.

11/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Outline

1 Généralités sur la Statistique


Vocabulaire des statisticiens
Techniques d'Echantillonnage
Méthodes statistiques

2 Statistique descriptive unidimensionnelle

12/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Probabiliste et non-probabiliste

F1. Non Probabiliste


Non basé sur les lois du calcul des probabilités (pas aléatoire)
i.e. chaque élément de la population n'a pas une chance égale
d'être choisi. Sélection des individus qui n'obéit pas au
hasard.
Déni selon des critères de faisabilité, de ressemblance à la
population-cible et de critères subjectifs dépendant du choix
des enquêteurs.
Risque d'être moins représentatif de la population

13/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Probabiliste et non-probabiliste

F2. Probabiliste
Échantillonnage aléatoire : tous les individus de la population
source ont une probabilité connue et non nulle d'être
sélectionnés pour faire partie de l'échantillon
Pas d'intervention du chercheur: seul le hasard régit
l'inclusion ou non d'un individu dans l'échantillon.
les informations recueillies sur l'échantillon peuvent être
inférées pour la population source
Habituellement plus représentatif de la population

14/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Non Probabiliste

Echantillonnage Non Probabiliste

15/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Non Probabiliste

1. Échantillon de convenance (Convenience sample)


Éléments choisis au fur et à mesure qu'ils se présentent, sans
tri
Avantages : Simple, rapide, peu coûteux, absence d'inuence
de l'investigateur.
Inconvénients : non représentativité, impossibilité d'évaluer le
biais associé.
Ex.: (a) Retenir les 10 premières personnes qui sortent de la
bibliothèque - (b) les études d'opinion réalisées dans la rue.

16/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Non Probabiliste

2. Échantillon par choix raisonné


Choix des éléments basé sur le jugement du chercheur par
rapport à leur caractère typique ou atypique (e.g. cas extrêmes
ou déviants)
Permet d'étudier des phénomènes rares ou inusités; peu de
représentativité de l'ensemble de la population

17/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Non Probabiliste

3. Échantillon volontaire (Voluntary sample)


Éléments choisis sur une base volontaire. les individus se
sélectionnent eux-mêmes
Peut orir une meilleure représentativité si on sélectionne
parmi les volontaires; certain biais du fait que les volontaires
ont certains traits de caractère particuliers (e.g. les timides
sont moins portés à participer)
Ex.: (a) Appel à participation par annonces dans les journaux
locaux ou nationaux et/ou d'un dépliant distribué - (b) Mettre
une annonce sur l'internet pour recruter des participants

18/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Non Probabiliste

4. Échantillon par quotas


Population découpée en strates représentant certaines de ses
caractéristiques (les variables de contrôle).
Éléments choisis dans les strates à l'aide d'une technique
d'échantillonnage non probabiliste; le nombre d'éléments
choisis dans les strates représente les proportions de la
population
Permet de reproduire plus dèlement la population et réduit
les biais

19/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Non Probabiliste

4. Échantillon par quotas (exemple)


Ex.: Pour les utilisateurs d'une bibliothèque universitaire,
diviser la population en fonction du statut (étudiant,
professeurs, etc.), et dans chaque strate, choisir par un
échantillon volontaire un nombre de sujets proportionnel à la
population i.e. si la population compte 10% de professeurs,
l'échantillon devra avoir 10% de professeurs.

20/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Non Probabiliste

Echantillonnage Probabiliste

21/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Probabiliste

1. Échantillon aléatoire simple (Simple random sample)


Éléments choisis aléatoirement (en utilisant par exemple une
table de nombre aléatoire, ou un logiciel statistique) à partir
d'une liste énumérative de tous les éléments
Favorise la représentativité (mais ne la garantit pas!)
Simple mais peut être dicile d'utilisation et onéreux lorsqu'il
n'existe pas de liste et qu'il faut la construire
Ex.: Un tirage à la loterie. lorsqu'un échantillon de six
numéros est généré au hasard à partir d'une population de 49
numéros, chacun de ces derniers a une chance égale d'être
sélectionné et chaque combinaison de six numéros a la même
chance d'être la combinaison gagnante.
22/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Échantillon aléatoire simple

23/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Probabiliste

2. Échantillon aléatoire stratié (stratied sample)


Population découpée en strates représentant certaines de ses
caractéristiques
Éléments choisis dans les strates à l'aide d'une technique
d'échantillonnage probabiliste.
Méthode la plus ranée; permet d'assurer une meilleure
représentativité et de comparer les sous-groupes
Ex.: Diviser la population des bibliothèques publiques au
Maroc par rapport à leur budget et choisir aléatoirement dans
chaque  tranche budgétaire  un nombre de bibliothèques
tout en respectant les proportions de la population.
24/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Échantillon aléatoire stratié

25/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Probabiliste

2. Échantillon aléatoire stratié (exemple)


On veut choisir par échantillonnage stratié 10 élèves dans un
groupe de 60, en tenant compte du fait que 50 % d'entre eux sont
en première année, 30 % en deuxième année et 20 % en troisième
année. Chaque année sera une strate dans laquelle on ira chercher
des élèves en tenant compte des pourcentages qu'occupe chaque
strate dans la population. Ainsi, on choisira au hasard:
5 élèves en 1ère année, puisque 10 x 50% = 5 ;
3 élèves en 2ème année, puisque 10 x 30% = 3 ;
2 élèves en 3ème année, puisque 10 x 20% = 2.
Il ne reste plus qu'à sélectionner un échantillon dans chaque strate,
ce qui pourrait être fait par échantillonnage aléatoire simple ou
systématique.
26/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Probabiliste

3. Échantillon en grappes (cluster sample)


Choix aléatoire de grappes (sous-groupes de la population) au
lieu d'unités
Utile lorsque les éléments sont naturellement groupés ou
quand il n'est pas possible d'obtenir la liste de tous les
éléments de la population cible
Économique en temps et en argent;
Ex.:(a) Pour étudier la population étudiante, choisir
aléatoirement des programmes d'étude au lieu de choisir des
étudiants - (b) Des listes de classes obtenues à partir
d'établissements scolaires.
27/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Échantillon en grappes

28/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Probabiliste

3. Échantillon en grappes (exemple 1)


Au moyen de L'échantillonnage par grappes, il s'agit de choisir 12
étudiants; dans un groupe de 60. On demande aux étudiants de se
regrouper par 6. On choisit ensuite au hasard deux regroupements,
par exemple les grappes numéro 4 et 7 en retenant tous les individus
de ces deux grappes, on constitue un ; échantillon de 12 étudiants.

29/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage Probabiliste

3. Échantillon en grappes (exemple 1)


dans une ville, les quartiers et les immeubles ne sont pas composés
d'un nombre égal d'individus. Comment peut-on procéder alors
pour eectuer un échantillonnage par grappes? Puisque le nombre
d'habitants et le nombre d'immeubles et de logements de chacun
des quartiers sont généralement connus, il est possible de quadriller
la ville en un grand nombre de secteurs ayant des populations à peu
près semblables. Pour constituer un échantillon, il sura alors de
choisir certains de ces secteurs et, par conséquent, toutes les
personnes qui y habitent.

30/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Echantillonnage adopté par HCP

31/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Quiz !!

32/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Quiz !!

Quiz 1
On souhaite évaluer la satisfaction des étudiants d'une université
qui en compte 30 000 à propos de la propreté générale du campus.
Pour ce faire, on décide de construire un échantillon de 2000
étudiants par la méthode d'échantillonnage aléatoire. Ainsi, un
ordinateur choisit au hasard le nom de 2000 d'entre eux. Quel type
d'échantillonnage a été adopté ?
1 échantillon simple aléatoire (simple random sample)
2 échantillon par grappes (cluster sample)
3 échantillon de convenance (convenience sample)
4 échantillon aléatoire stratié (stratied sample)

33/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Techniques d'Echantillonnage

Quiz !!

Quiz 2
Une étudiante au doctorat eectue une recherche sur la satisfaction
des élèves québécois au secondaire par rapport à la qualité de la
nourriture oerte dans leur cafétéria. Puisqu'il est irréaliste
d'envoyer un questionnaire à chaque adolescent fréquentant une
école secondaire au Québec, elle choisit aléatoirement un certain
nombre d'écoles auxquelles elle envoie un questionnaire à chaque
élève
1 échantillon simple aléatoire (simple random sample)
2 échantillon par grappes (cluster sample)
3 échantillon de convenance (convenience sample)
4 échantillon aléatoire stratié (stratied sample)

34/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Méthodes statistiques

Outline

1 Généralités sur la Statistique


Vocabulaire des statisticiens
Techniques d'Echantillonnage
Méthodes statistiques

2 Statistique descriptive unidimensionnelle

35/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Méthodes statistiques

Méthodes statistiques

Les méthodes statistiques se répartissent en deux classes :


La statistique descriptive (ou statistique exploratoire ou
analyse des données)
La statistique inférentielle (ou décisionnelle)

36/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Méthodes statistiques

Statistique descriptive

Statistique descriptive
La statistique descriptive (ou statistique exploratoire ou
analyse des données) a pour but de résumer l'information
contenue dans les données de façon synthétique et ecace.
Elle utilise pour cela des représentations de données sous
forme graphiques, de tableaux et d'indicateurs numériques
(moyennes, médiane, écart-type, quantiles, . . . ).
Les probabilités n'ont ici qu'un rôle mineur.
Le comportement et l'analyse des observations sont réalisés à
l'aide de tests statistiques

37/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Méthodes statistiques

Statistique descriptive
Le résultat d'une observation, d'une mesure, n'est pas égale à la
valeur théorique calculée ou espérée par l'ingénieur; la répétition
d'une même mesure, réalisée dans des conditions qui semblent
identiques, ne conduit pas toujours aux mêmes résultats. Ces
uctuations, dues à des causes nombreuses, connues ou inconnues,
contrôlées ou non, créent des dicultés aux ingénieurs et aux
scientiques.
Quel résultat doivent-ils prendre ?
Quel degré de conance peuvent-ils accorder à la décision prise
?
Les réponses à une enquête varient d'un individu à un autre ;
quelles conclusions valables peut-on tirer d'un sondage ?
Les méthodes de la statistique descriptive apportent des réponses à
ces problèmes. 38/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Généralités sur la Statistique

Méthodes statistiques

Statistique inférentielle

Statistique inférentielle
La statistique inférentielle a pour but de faire des prévisions et
de prendre des décisions au vu des observations. En général, il
faut pour cela proposer des modèles probabilistes du
comportement du phénomène aléatoire et savoir gérer les
risques d'erreurs.
Les probabilités jouent ici un rôle fondamental.

39/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Outline

1 Généralités sur la Statistique

2 Statistique descriptive unidimensionnelle


Généralités
Mesure de la tendance centrale
Mesure de la dispersion
Caractéristiques de forme
Visualisation des distributions des données

40/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Généralités

41/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Exemple

Défauts relevés sur une pièce de tissu


Un fabricant de tissu essaie une nouvelle machine ; il compte le
nombre de défauts sur 75 échantillons de 10 mètres. Il a trouvé les
résultats suivants :
Nombre k de défauts 0 1 2 3 4 5
Nombre nk d'échantillons 38 15 11 6 3 2

42/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Fréquences absolues, relatives, cumulées

Dans le cas des variables discrètes, on appelle :


Fréquence absolue ni ou eectif, associée à une valeur xi
de la variable aléatoire X , le nombre d'apparitions de cette
variable dans la population ou dans l'échantillon.
Fréquence relative, associée à la valeur xi de la variable
aléatoire X , le nombre n i
fi =
n
où ni est la fréquence absolue et n le nombre total de données.

43/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Fréquences absolues, relatives, cumulées

Dans le cas des variables discrètes, on appelle :


Fréquence cumulée absolue, associée à une valeur xi de la
variable, le nombre d'individus dont la mesure est inférieure ou
égale à xi .
n
X
Ni = nk
k=1

la fréquence cumulée relative est dénit par :


i
X
Fi = fk
k=1

44/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Fréquences absolues, relatives, cumulées

Valeurs de Fréquences Fréquences Fréquences Fréquences


la variable absolues relatives cumulées cumulées
absolues relatives
xi ni fi Ni Fi

Les fréquences relatives et les fréquences cumulées relatives


peuvent être utilisées pour comparer deux ou plusieurs
populations.
Dans le cas d'une distribution continue, les données sont en
général regroupées en classes. Les fréquences absolues,
relatives et cumulées sont dénies par rapport aux classes et
non par rapport aux valeurs de la variable.
45/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Exemple

Étude statistique du nombre de défauts sur une pièce de tissu.


Nombre de défauts ni fi Ni Fi
0 38 0,506 38 0,506
1 15 0,20 53 0,706
2 11 0,146 64 0,853
3 6 0,08 70 0,933
4 3 0,04 73 0,973
5 2 0,026 75 1

46/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Variables continues

Variables continues
Les données sont regroupées en k classes.
Une classe est dénie par ses extrémités ei−1 , ei et son eectif ni .
Eectif d'une classe ou fréquence absolue : Le nombre ni de
valeurs de la variable X telles que : ei−1 ≤ X < ei .
Amplitude d'une classe : La quantité ei − ei−1 .
Fréquence cumulée relative : Fi = ik=1 fk
P

Classes Eectifs Fréquences Fréquences


absolues cumulées
ei−1 ≤ X < ei ni fi Ni

47/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Variable Continue

48/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Nombre de Classes

49/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Généralités

Représentation numérique des données

Une série de données peut être résumée par quelques valeurs


numériques appelées caractéristiques des séries statistiques,
classées en trois grandes catégories :
les caractéristiques de tendance centrale,
les caractéristiques de dispersion,
les caractéristiques de forme,

50/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Outline

1 Généralités sur la Statistique

2 Statistique descriptive unidimensionnelle


Généralités
Mesure de la tendance centrale
Mesure de la dispersion
Caractéristiques de forme
Visualisation des distributions des données

51/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Paramètres de tendance centrale


Les paramètres de tendance centrale permettent de dégager une
valeur centrale autour de laquelle les données tendent à se
rassembler.
Tout paramètre de la tendance centrale devra donc s'accompagner
d'une mesure du degré de variation des valeurs des observations
à partir desquelles on dérive la tendance centrale.
Ces paramètres de tendance centrale ont pour objectif de
caractériser l'ordre de grandeur des observations :
La moyenne
La médiane
Le mode
52/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

La Moyenne arithmétique

Cas 1 : n données non réparties en classes : est


l'indicateur statistique le plus couramment utilisé. Elle est
obtenue par le quotient de la somme de toutes les valeurs par
l'eectif total.
1X N
m= xi
N
i=1

Cas 2 : n données réparties en p classes : s'obtient en


attribuant diérents degrés d'importance à certaines
observations groupées en classe
1 p
X p
X
m= ni xi = fi xi
N
i=1 i=1

53/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

La Moyenne arithmétique : Propriétés

La moyenne arithmétique permet de résumer par un seul


nombre la série statistique.
Elle prend en compte toutes les valeurs de la série et elle est
facile à calculer.
Elle est sensible aux valeurs extrêmes, il est parfois nécessaire
de supprimer des valeurs extrêmes ou  aberrantes .

54/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

La moyenne arithmétique : exemple


Le tableau suivant représente les cumuls pluviométriques annuels
(Septembre - Août) d'une station synoptique météorologique du
Maroc.
Anne Cumul Annee Cumul Annee Cumul
1971 807 1981 330 1991 566
1972 627 1982 431 1992 306
1973 489 1983 433 1993 325
1974 659 1984 601 1994 360
1975 313 1985 657 1995 191
1976 753 1986 592 1996 854
1977 613 1987 398 1997 741
1978 608 1988 632 1998 539
1979 644 1989 463 1999 290
1980 515 1990 459 2000 420
La moyenne est
1 i=X xi = 520.5mm 30

m=
30 i=1
55/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

La moyenne pondérée : exemple


Le tableau des températures maximales journalières Tx à une
station météorologique sur la période 01/01/1883  31/12/1993
pendant la saison d'été. Les données ont été condensées en
intervalles partiels.
Valeur centrale (C) Nombre d'observation
7 158
9 780
11 1957
13 2794
15 2532
17 1398
19 458
21 105
23 30
La moyenne est :
m=
1 X ni xi = 13.64◦ C
N 56/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

La médiane
La médiane me est la valeur, observée ou possible, dans la
série des données classées par ordre croissant (ou décroissant)
qui partage cette série en deux parties comprenant exactement
le même nombre de données de part et d'autre de me .
Cas Discret : Après tri croissant des valeurs :
Si N est pair (N = 2k) Alors
1
me = [k e + (k + 1)e ] valeur
2
Si N est impair (N = 2k + 1) Alors
me = (k + 1)e valeur
Le mode est la valeur le plus souvent rencontrée. Si plusieurs
valeurs à la fois présentent la plus grande fréquence
d'occurrences, chacune d'entre elles est un mode. 57/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

La médiane : exemple

Rang Annee Cumul Rang Annee Cumul


1 1995 191 16 1998 539
2 1999 290 17 1991 566
3 1992 306 18 1986 592
4 1975 313 19 1984 601
5 1993 325 20 1978 608
6 1981 330 21 1977 613
7 1994 360 22 1972 627
8 1987 398 23 1988 632
9 2000 420 24 1979 644
10 1982 431 25 1985 657
11 1983 433 26 1974 659
12 1990 459 27 1997 741
13 1989 463 28 1976 753
14 1973 489 29 1971 807
15 1980 515 30 1996 854
58/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Paramètres de tendance centrale

La série chronologique est composée de 30 valeurs. Ainsi, la


médiane se calcule comme suit après tri croissant des valeurs :
15e valeur + 16e valeur
me =
2
D'où:
515 + 539
me = = 527mm
2

59/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

La médiane : Cas continu

Cas 2 : n données réparties en k classes. La médiane est


obtenue :
soit par interpolation linéaire à l'intérieur de la classe centrale,
si le nombre de classes est impair,
soit en prenant la moyenne des deux classes  centrales , si le
nombre de classes est pair.
Pour faire ce calcul, on suppose implicitement que la distribution
est uniforme à l'intérieur de chaque classe.

60/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Médiane : Méthode Graphique

61/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Médiane : Méthode Graphique

62/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

La médiane : Propriétés

Le calcul de la médiane est rapide.


La médiane n'est pas inuencée par les valeurs extrêmes ou
aberrantes.
La médiane est inuencée par le nombre des données mais non
par leurs valeurs, elle ne peut donc pas être utilisée en théorie
de l'estimation.
La médiane est le point d'intersection des courbes cumulatives
croissante et décroissante.
La médiane ne se prête pas aux combinaisons algébriques; la
médiane d'une série globale ne peut pas être déduite des
médianes des séries composantes.
63/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Médiane : Propriétés

64/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Le mode

Le mode est la valeur le plus souvent rencontrée. Si plusieurs


valeurs à la fois présentent la plus grande fréquence d'occurrences,
chacune d'entre elles est un mode.
Si la variable est une variable discrète, le mode s'obtient facilement.
Si la variable est une variable continue, on dénit une classe
modale.

65/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Le mode : Propriétés

Propriétés
Le mode n'existe pas toujours et quand il existe, il n'est pas
toujours unique.
Si après regroupement des données en classes, on trouve deux
ou plusieurs modes diérents, on doit considérer que l'on est
en présence de deux ou plusieurs populations distinctes ayant
chacune leurs caractéristiques propres ; dans ce cas, la
moyenne arithmétique n'est pas une caractéristique de
tendance centrale.

66/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Mode : Propriétés

On ne peut pas dénir une valeur modale en ne connaissant pas la


distribution à l'intérieur de chaque classe. On dénit une classe
modale, c'est la classe V. 67/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Mode : Propriétés

68/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la tendance centrale

Paramètres de tendance centrale sont-ils susants ?

Question
Quelle la moyenne et la médiane des séries suivantes :
1 1 - 1 - 1 - 5 - 9 - 9 - 9
2 1 - 2 - 4 - 5 - 6 - 8 - 9
3 5 - 5 - 5 - 5 - 5 - 5 - 5
Qu'est-ce qu'on remarque ?

69/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la dispersion

Outline

1 Généralités sur la Statistique

2 Statistique descriptive unidimensionnelle


Généralités
Mesure de la tendance centrale
Mesure de la dispersion
Caractéristiques de forme
Visualisation des distributions des données

70/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la dispersion

Paramètres de dispersion
Ces paramètres ont pour objectif de caractériser la variabilité des données.
La variance

Cas de données non groupées

s2 =
1 X(x N

i − m)2
N i=1

Cas groupées en classes

s2 =
1 X n (x
p

i i − m)2
N i=1

L'écart type est la racine carrée de la variance.


L'étendue représente l'écart maximal pouvant être observé entre deux
données du même échantillon. Son inconvénient, qu'elle est sensibles aux
valeurs extrêmes et surtout les valeurs aberrantes.
Etendue = (xmax − xmin )
71/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la dispersion

Paramètres de dispersion : exemple

L'étendue de la série étudiée est


Etendue = 854 − 191 = 663 mm

La variance de la série est


1 N
s2 = (xi − m)2 = 27668.33 mm2
X
N
i=1

L'écart-type est la racine carré de la variance et qui vaut


s = 166.4 mm

72/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la dispersion

Les quantiles

Les quantiles sont des valeurs qui partagent l'échantillon ordonné


en un certain nombre de parties de même eectif.
Suivant les pourcentages auxquels on s'intéresse, on distingue
les quartiles (1/4;2/4;3/4);
les quintiles (1/5;2/5;3/5;4/5);
les déciles (1/10;2/10;...;9/10);
les centiles (1/100;2/100;...;99/100).
Les quantiles sont très utiles pour analyser des phénomènes
concernant les extrémités des échantillons.

73/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la dispersion

Les quantiles

74/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la dispersion

Fonction de densité vs de répartition

75/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la dispersion

Les quartiles
L'écart inter-quartile est un indicateur de dispersion des
observations autour de la médiane. C'est une mesure fréquemment
utilisée de la variabilité absolue. Son principal intérêt est d'être
insensible aux valeurs aberrantes. Il est plus robuste que l'étendue.
De la même manière, on dénit les écarts inter-déciles,
inter-centiles, etc.
∆q = q75 − q25
Le premier quartile q25 correspond à la valeur des observations
ordonnées telle que 25 % des valeurs de la série lui sont inférieures
et 75 %, supérieures. De même 75 % des valeurs de la série des
données ordonnées sont inférieures à celle du troisième quartile
q75 et 25 % lui sont supérieures. L'écart interquartile réunit donc
les 50% des valeurs situées au centre de la série.
76/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la dispersion

Les quartiles : la régle


Cas discret :
Après tri croissant de la série des données
Si N = 4k Alors
q25 = [k e + (k + 1)e ]valeurs/2

et
q75 = [(3k)e + (3k + 1)e ]valeurs/2
Si N = 4K + α Alors

q25 = (k + 1)e valeur

et
q75 = (3k + 1)e valeur
77/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Mesure de la dispersion

Les quartiles : exemple


Après tri croissant de la série des données
On a 30 = 4 × 7 + 2 Alors k = 7
La régle dit :
Si N = 4K + α Alors
q25 = (k + 1)e valeur = 8e valeur = 398mm

et
q75 = (3k + 1)e valeur = 22e valeur = 627mm
Par conséquent, l'écart interquartiles vaut :

∆q = q75 − q25 = 627 − 398 = 229 mm


78/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Caractéristiques de forme

Outline

1 Généralités sur la Statistique

2 Statistique descriptive unidimensionnelle


Généralités
Mesure de la tendance centrale
Mesure de la dispersion
Caractéristiques de forme
Visualisation des distributions des données

79/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Caractéristiques de forme

Caractéristiques de forme

80/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Caractéristiques de forme

Coecient de dissymetrie

81/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Caractéristiques de forme

Coecient d'applatissement

82/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Outline

1 Généralités sur la Statistique

2 Statistique descriptive unidimensionnelle


Généralités
Mesure de la tendance centrale
Mesure de la dispersion
Caractéristiques de forme
Visualisation des distributions des données

83/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Tableau de données brutes vs Tableau statistique


Credit : A data frame with 10000 observations on the following
variables.
ID: Identication
Income: Income in $10,000's
Age: Age in years
Gender: A factor with levels Male and Female
Student: A factor with levels No and Yes indicating whether
the individual was a student
Married: A factor with levels No and Yes indicating whether
the individual was married
Ethnicity: A factor with levels African American, Asian, and
Caucasian indicating the indi- vidual's ethnicity
Source:
James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013) An Introduction
to Statistical Learning with applications in R, www.StatLearning.com,
Springer-Verlag, New York 84/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Tableau de données brutes vs Tableau statistique

ID Income Age Gender Student Married Ethnicity


1 14.891 34 Male No Yes Caucasian
2 106.025 82 Female Yes Yes Asian
3 104.593 71 Male No No Asian
4 148.924 36 Female No No Asian
5 55.882 68 Male No Yes Caucasian
6 80.18 77 Male No No Caucasian

85/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Tableau de données brutes vs Tableau statistique


Tableau de données brutes
ID Income
1 14.891
2 106.025
... ...
10000 80.18 Pour chaque valeur xi de la
variable X on calcule:
Tableau statistique ni = nombre d'occurrence
fi = fréquence (%)
Fi = fréquence cumulée (%)
xi ni fi Fi
15 89 0.02225 0.02225
25 88 0.022 0.04425
... ... ... ...
185 4 0.001 1.0 86/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Histogramme

Un histogramme est un graphique à barres verticales accolées,


obtenu après découpage en classes des observations d'une
variable continue.
Analogues à la courbe de densité d'une variable aléatoire
La détermination du nombre de classes d'un histogramme est
délicate et on ne dispose pas de règles absolues.
Mieux qu'un histogramme. une courbe de densité estimée
permet des détecter des modes multiples, correspondant à des
mélanges de distribution (données provenant de plusieurs
populations diérentes).

87/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Histogramme

Histogramme pour la variable Income

mean
median
0.020
0.015
Frequence

0.010
0.005
0.000

50 100 150

Income ($10,000's)

88/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Histogramme

Histogramme pour la variable Age

mean
median
0.020
0.015
Frequence

0.010
0.005
0.000

20 40 60 80 100

Age

89/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Polygone des fréquences cumulées

Cumulative plot = Polygone des frequences cumulées


1.0

● ●●
● ●● ●
●●

● ● ● ●●
●●

●●●

●● ●
●●●●●
●●
●● ●●●
●●●●


●●
● ●●

●●●

●●
●●


0.8

●●
● ●


●●

●●









●●

●●


●●

●●





●●●
●●

●●




0.6


●●


●●


Frequence


●●




●●








●●
●●







●●




0.4


●●







●●















●●







●●


0.2



●●




●●








●●









● mean




●● median





0.0



● Fi=50%

0 50 100 150 200

Income

90/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Barres et camemberts

Pour des variables qualitatives, les plus diagrammes les plus


répandus sont:
Les diagrammes en barres (verticales ou horizontales) : les
barres sont de longueurs proportionnelles aux fréquences des
catégories, leur épaisseur est sans importance.
Les camemberts (en anglais pie-chart) : chaque catégorie est
représentée par une portion de supercie proportionnelle à sa
fréquence.

91/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Barres et camemberts

Pie Chart of Ethnicity

Asian African American

Caucasian

92/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Barres et camemberts

Répartition des classes d'Ethnicité


150
Nombre d'individus

100
50
0

African American Asian Caucasian

classes d'Ethnicité

93/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

BoÎte à moustaches ou box-plot


Ce diagramme est une représentation synthétique extrêmement ecace
des principales caractéristiques d'une variable numérique.
La boîte correspond à la partie centrale de la distribution ; la moitié des
valeurs comprises entre le premier et le troisième quartile Q et Q . 1 3

Les moustaches s'étendent de : à gauche jusqu'à Q − 1.5(Q − Q ) si il


existe des valeurs encore plus petites, sinon jusqu'à la valeur minimale; à
1 3 1

droite jusqu'à Q + 1.5(Q − Q ) si il existe des valeurs au-delà, sinon


jusqu'à la valeur maximale.
3 3 1

Les valeurs au-delà des moustaches repérées par des * sont des valeurs
éventuellement suspectes ou aberrantes mais pas nécessairement.

94/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

BoÎte à moustaches ou box-plot


Boxplot of Income − outline = False

●●
● ●●
●●●
●● ●
● ● ●●

●●● ●
●● ●
●● ●

50 100 150

Income

Boxplot of Income − outline = False

20 40 60 80 100 95/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

BoÎte à moustaches et Histogramme

96/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Forme de la courbe de densité

97/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Kurtosis : Applatissement

98/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

symétrie et tendance centrale

99/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Quiz !!

100/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

Quiz !!

Quiz 3
Parmi les propositions suivantes, lesquelles ne peuvent être
déterminées à partir d'un diagramme Boxplot ?
1 la modalité (unimodale, bimodale, uniforme, etc.)
2 l'asymétrie (skewness)
3 les valeurs aberrantes (outliers)
4 minimum et maximum

101/102
Analyse des données 1- Généralités et Statistique descriptive unidimensionnelle

Statistique descriptive unidimensionnelle

Visualisation des distributions des données

MERCI ...

102/102

Vous aimerez peut-être aussi