Vous êtes sur la page 1sur 7

Matière Analyse des données UEM – M512

Objectifs.

 Découvrir les principaux outils statistiques d’analyse des données,


 Connaître et comprendre les principaux outils d’analyse unidimensionnelle,
bidimensionnelle et multidimensionnelle,
 Faire des applications à la fiabilité et à l'évaluation des risques,
 Utiliser l’Excel pour faire de l’analyse des données.

Moyens :

 1h30 de cours par semaine,


 1h30 de TD par semaine,
 2 heures de TP par semaine, répartis en TP théoriques et applications avec Excel.

[Cours destiné aux étudiants Licence MRI]


Partie 1 Généralités et Principales Définitions UEM – M512

1
Le but de cette partie est de donner les définitions précises des concepts de base dans
le domaine de la statistique et de l’analyse des données.
Mots clés. Analyse descriptive ‘exploratoire’ des données, Données, Statistique,
Variable, Représentation des données.

1 Introduction

De nombreuses activités scientifiques commencent par un recueil de données, qu’on


peut généralement classer dans un tableau à double entrée de grande taille. L’analyse de
données vise à permettre à l’utilisateur de ces tableaux d’extraire facilement le
maximum d’informations qui lui sont nécessaires. On peut considérer l’analyse de
données au sens large, comme l’essence même des statistiques à laquelle tous les autres
aspects sont subordonnés.

Le recueil, le traitement et l’analyse des données (aussi appelée analyse exploratoire


des données) sont au cœur de tous les processus de gestion et de décision. Les
techniques les plus utilisés dérivent des deux parties fondamentales, une partie qui
présente les méthodes descriptives en analyse des données (Statistique descriptive
2
‘analyse uni- varies et bi-varies, tri-croisés, analyse factorielle’). La seconde partie
présente des techniques plus avancées (analyse de variance, régressions et analyse
conjointe).

2 Domaines et limitations

L’analyse de données regroupe des méthodes très nombreuses et très différentes


d’analyse statistique.

L’analyse de données peut se décomposer de la façon suivante :

A. L’analyse exploratoire de données, qui consiste comme son nom l’indique à


explorer les données, ce qui se résume à :
 la représentation tabulaire, graphique et numérique des données ;
 la transformation, si nécessaire, des données ;
 la détection d’éventuelles observations aberrantes ;
 l’´elaboration d’hypothèses de recherches imprévues au début de
l’expérience ;
 l’estimation robuste.
B. L’analyse de données initiale traite :
 du choix des méthodes statistiques à appliquer aux données.
C. L’analyse multi-variée des données comprend :

[Cours destiné aux étudiants Licence MRI]


Partie 1 Généralités et Principales Définitions UEM – M512

 le déploiement d’espaces multidimensionnels,


 la transformation des données pour réduire les dimensions et faciliter
l’interprétation ;
 la recherche de structure.

3 Notions de statistique et d’analyse des données

3.1 Statistique descriptive et inférentielle

Les méthodes statistiques disponibles actuellement constituent un ensemble de


procédures et de régies aidant I ‘analyse numérique. Elles concernent entre autres :

 le recueil et I ‘agrégation des données ;


 la structuration des plans d'expériences et des enquêtes statistiques ;
 I ‘estimation des paramètres d'un univers et diverses estimations (mesures)
de la précision de ces estimations ;
 le test d'hypothèses a propos d'ensembles ou de populations divers ;
 I ‘étude des relations entre diverses variables ;
 la réduction d'un grand nombre de variables en dimension significative.

Et bien d'autres. On peut faire une distinction entre ces différentes méthodes : celle
relative a la statistique descriptive et celle relative a la statistique inférentielle.
3
Le but principal de la statistique descriptive est de présenter I ‘information d'une
façon compréhensible et utilisable, par exemple en calculant des moyennes, en
construisant des histogrammes, en établissant des tableaux croises, en représentant
graphiquement les données, etc.

La statistique inférentielle, de son cote, a pour fonction d'aider à la généralisation de


cette information ou, plus spécifiquement, de faire des inférences - estimation, décision,
test d'hypothèses, etc. basées sur des échantillons tires d'un ou plusieurs univers à
étudier.

On décrit d'abord les données en étudiant chacune des variables séparément, on parle
de statistiques descriptives uni-variées (Partie 2). On peut ensuite étudier deux
variables simultanément, on met alors en œuvre les statistiques descriptives bi-
variées (Partie 3). Il est possible d'analyser conjointement plus de deux variables, on
fait alors appel aux outils de statistiques descriptives multi-variées tels que l'Analyse en
Composantes principales (ACP), l'Analyse des Correspondances Multiples (ACM).

3.2 Population, individu, échantillon

Une population est un ensemble, fini ou non, d’éléments que l'on souhaite étudier. Ces
éléments portent le nom d’individus ou d’unités statistiques. Il peut s'agir par exemple
d’êtres humains (adultes, enfants, chômeurs, salariés, etc.), d’animaux ou encore d’objets
[Cours destiné aux étudiants Licence MRI]
Partie 1 Généralités et Principales Définitions UEM – M512

(entreprises, voitures, ordinateurs, incendies, accidents, etc.). Très souvent, la


population que l'on souhaite analyser est très grande et il est usuel de se restreindre à
l'étude d’un échantillon.

Un échantillon est ainsi un sous-ensemble de la population considérée qui doit


posséder les mêmes caractéristiques statistiques que la population dont il est issu. À
partir
d’un échantillon dit représentatif, il est alors possible d'effectuer des analyses et d'en
déduire des conclusions valables pour la population.

Population

Echantillon 2
Echantillon 1

Unités

Figure 1.1 Population, Unités statistiques, échantillons

Exemple 1.1

Une usine fabrique des tiges métalliques utilisées dans l'assemblage de certaines 4
structures. Pour étudier la résistance à la traction de ces tiges, on mesure cette
résistance pour un lot de 1OO tiges.

Propriété étudiée : la résistance à la traction de tiges métalliques.


Population statistique : l'ensemble des 1OO tiges ou des 1OO mesures.
Unité statistique : chacune des tiges ou chacune des 1OO mesures.

3.3 Caractères, modalités et variables statistiques ou aléatoires

■ Caractères

On s'intéresse à certaines particularités ou caractères des individus d'une population


statistique :

 un seul caractère étudié, série numérique à une dimension


 deux caractères étudiés, série numérique à deux dimensions
 plus de deux caractères, on doit utiliser les techniques de l'analyse
multidimensionnelle.

Les caractères étudiés peuvent être :

[Cours destiné aux étudiants Licence MRI]


Partie 1 Généralités et Principales Définitions UEM – M512

- le poids, la taille, le niveau d'études, la catégorie socioprofessionnelle, le


lieu d'habitation..., dans le secteur des sciences humaines,
- le poids, la masse, la composition..., dans le secteur des sciences techniques.

■ Modalités

Un caractère peut prendre différentes modalités. Ces modalités doivent être


incompatibles et exhaustives afin que l'appartenance ou la non-appartenance d'un
individu à une modalité soit définie sans ambiguïté.

On appelle modalité toute valeur : ∈ (Ω) telle que :

(Ω) = { , , ,……, ,……, }, avec , le nombre de modalités différentes de .

Exemple 1.2

 Variable est ‘statu d’interrupteur’, Modalités sont ‘0 et 1’.


 Variable est ‘catégories socioprofessionnelles’, Modalités sont ‘employés,
ouvriers, retraités, …’

■ Variables statistiques ou aléatoires


5
Une variable statistique ou aléatoire est un caractère faisant l'objet d'une étude
statistique. Elle peut donc être qualitative ou quantitative.

Dans le premier cas, les modalités ne sont pas des valeurs chiffrées, elles ne sont pas
mesurables mais uniquement observables (nationalité, catégorie socioprofessionnelle,
etc.). Dans le cas d'une variable quantitative, les modalités sont mesurables : à chaque
modalité est associé un nombre, c’est-à-dire une valeur chiffrée, représentant la mesure
du caractère. Ainsi, la puissance d'un moteur, le nombre de places assises, l'âge, la taille,
etc. sont des variables statistiques dont les modalités sont des nombres.

Les variables qualitatives peuvent être nominales ou ordinales. Dans le premier cas,
les modalités ne peuvent être ordonnées, contrairement au cas de variables ordinales.
Des exemples usuels de variables nominales sont le groupe sanguin, statut d’une entité,
profession, …etc. Des variables comme le niveau d'études (avec, par exemple, comme
modalités : sans diplôme, primaire, secondaire, universitaire) ou le niveau de
satisfaction (peu satisfait, satisfait, très satisfait) sont des variables ordinales.

Les variables quantitatives peuvent être discrètes ou continues. Une variable est dite
discrète lorsque ses valeurs sont des nombres isolés dans son intervalle de variation.
Il s'agit en règle générale de nombres entiers; par exemple le nombre d'enfants par
famille, le nombre de salariés d’une entreprise, le nombre d'automobiles vendues. Une
variable est dite continue lorsqu'elle peut prendre toutes les valeurs au sein de son
[Cours destiné aux étudiants Licence MRI]
Partie 1 Généralités et Principales Définitions UEM – M512

intervalle de variation. On peut donner comme exemples la taille, le poids, la


température, etc. Le nombre de valeurs possibles à l’intérieur de l'intervalle de variation
étant infini, on les groupe par classes.

Une variable statistique ou aléatoire est notée par une lettre majuscule , et les
valeurs qu'elle prend par des lettres minuscules , … … , , … …

Variable

Peut-on additionner deux observations ?

Non Oui

Variable Qualitative Variable Quantitative


Nombre
Relation d’ordre ? Est-il grand ?

Non Oui Non Oui

V. Nominale V. Ordinale V. Discrète V. Continue

Figure 1.2 Typologie des variables 6

Distinction ‘V. discrètes/V. continues’, ‘V. Statistique/V. aléatoire’

 On retient en conséquence fréquemment le groupement ou non en classes comme


moyen de distinction : une variable continue est ainsi souvent telle que le nombre
de ses valeurs est si important qu’il convient de les regrouper en classes afin de
pouvoir l'étudier.

 Lorsque les valeurs prises par la variable sont soumises au hasard (par exemple, «
pile » ou « face » dans le cas du lancer d’une pièce), on parle de variable aléatoire.
Il convient de ne pas les confondre avec les variables statistiques. La distribution
d’une variable statistique est une distribution empirique.

■ Données

Le terme de données est très utilisé en statistique. Il désigne l’ensemble des individus
observés (ceux de l’´echantillon), l’ensemble des variables considérées et les
observations de ces variables sur ces individus.

[Cours destiné aux étudiants Licence MRI]


Partie 1 Généralités et Principales Définitions UEM – M512

Une donnée est le résultat d’une observation faite sur une population ou sur un
échantillon. Le mot « donnée », du latin, est défini comme étant un fait (pas forcément
numérique) à partir duquel on peut tirer une conclusion.

Les données sont liées à la variable étudiée. On dit ainsi, que les données sont
quantitatives, qualitatives, discrètes ou continues, si la variable associée est elle-même
quantitative, qualitative, discrète ou continue.

Exercice

Pour chaque ensemble de données ci-dessous :

Nombre de jours de chômage pour 40 personnes :


180 10 30 50 420 30 180 360
200 30 360 120 500 200 30 420
360 370 360 150 180 280 30 500
180 720 420 180 40 500 120 180
194 400 30 360 40 400 180 200

Qualité de production de 30 produits : D = défectueux, Q = de bonne qualité

Q D Q D Q Q Q Q Q Q
D Q Q D Q D D Q Q Q
D D D Q Q Q Q Q Q D 7

1) Définir la population.
2) Définir la variable.
3) Préciser les modalités de cette variable.
4) Déterminer de quel type de variables il s'agit (qualitatives, quantitatives discrètes
ou quantitatives continues).

[Cours destiné aux étudiants Licence MRI]

Vous aimerez peut-être aussi