Vous êtes sur la page 1sur 3

Université du 20 aout 55 Skikda

Faculté des sciences


Département d’informatique

ANALYSE
DES DONNÉES

Année universitaire : 2014 / 2015


Chapitre 01 : Présentation générale

Chapitre 01

Présentation générale
1. L’analyse des données :
L’analyse des données s’est constituée au cours de la décennie 1960-1970, elle permet de
gérer, synthétiser et analyser les données afin d’atteindre des objectifs majeurs tels que :
• L’amélioration des connaissances dans un domaine précis.
• L’aide au diagnostic, à la prise de décision, à la sélection, à la prévision et à la
planification.
L’analyse des données consiste à décomposer des données analysables par des méthodes
statistiques.
2. Les tableaux de données (les jeux de données) (dataset) :
Les données se décomposent en deux grandes classes :
2.1 Les individus : un individu est l’unité statistique qui fait l’objet de l’observation, ou en
d’autre terme, c’est l’entité sur laquelle on peut faire des mesures.
Exemple : les tables, les automobiles, les fleurs, les personnes, etc.
2.2 Les variables : Chaque individu est décrit par un ensemble de caractéristiques appelées
variables, caractères, dimensions ou attributs.
Exemple :
• l’âge, la taille, le sexe, etc. pour les personnes.
• la couleur, la longueur des pétales, le nombre des pétales, etc. pour les fleurs.
• la forme, la largeur, la longueur, le nombre de pieds, etc. pour les tables.
Vous trouvez des exemples de jeux de données (datasets) sur ce site
http://archive.ics.uci.edu/ml/
2.3 Typologie des variables :
On distingue essentiellement deux types de variables : les variables quantitatives et les
variables qualitatives.
2.3.1 La variable quantitative : Elle prend des valeurs entières ou réelles, elle est dite alors
discrète ou continue.
Exemple : l’âge, le poids, le salaire, etc.
2.3.2 La variable qualitative : Elle ne prend pas des valeurs numériques mais des
caractéristiques appelées modalités. Lorsque ces modalités sont naturellement ordonnées
(par exemple la mention au BAC ou une classe d’âges, etc), la variable est dite ordinale. Dans
le cas contraire (la profession dans une population de personnes actives ou la situation
familiale, etc), la variable est dite nominale.

2
Chapitre 01 : Présentation générale

2.4 Les tableaux de données : Les données individu-variable sont présentées sous la forme
d’un tableau rectangulaire à n lignes correspondant au nombre d’individus et p colonnes
correspondant au nombre de variables de ces individus.

C1 C2 ………. Cj …… Cp

i1

i2

..

ik xkj

in

xkj : La valeur prise par la variable Cj pour l’individu Ik

3. Principales méthodes de l’analyse des données :


Elles se divisent en deux groupes :
3.1. Les méthodes de classification (regroupement ou classement) : Elles visent à réduire la
taille des données en formant des groupes homogènes.
3.2. Les méthodes factorielles : qui cherchent à réduire le nombre de variables en les
résumant par un petit nombre de composantes synthétiques.
Il existe plusieurs types de méthodes factorielles telles que l’analyse en composante
principale (ACP) et l’analyse des correspondances qui dépendent des types des variables
utilisées.

Vous aimerez peut-être aussi