Académique Documents
Professionnel Documents
Culture Documents
ANALYSE
DES DONNÉES
Chapitre 01
Présentation générale
1. L’analyse des données :
L’analyse des données s’est constituée au cours de la décennie 1960-1970, elle permet de
gérer, synthétiser et analyser les données afin d’atteindre des objectifs majeurs tels que :
• L’amélioration des connaissances dans un domaine précis.
• L’aide au diagnostic, à la prise de décision, à la sélection, à la prévision et à la
planification.
L’analyse des données consiste à décomposer des données analysables par des méthodes
statistiques.
2. Les tableaux de données (les jeux de données) (dataset) :
Les données se décomposent en deux grandes classes :
2.1 Les individus : un individu est l’unité statistique qui fait l’objet de l’observation, ou en
d’autre terme, c’est l’entité sur laquelle on peut faire des mesures.
Exemple : les tables, les automobiles, les fleurs, les personnes, etc.
2.2 Les variables : Chaque individu est décrit par un ensemble de caractéristiques appelées
variables, caractères, dimensions ou attributs.
Exemple :
• l’âge, la taille, le sexe, etc. pour les personnes.
• la couleur, la longueur des pétales, le nombre des pétales, etc. pour les fleurs.
• la forme, la largeur, la longueur, le nombre de pieds, etc. pour les tables.
Vous trouvez des exemples de jeux de données (datasets) sur ce site
http://archive.ics.uci.edu/ml/
2.3 Typologie des variables :
On distingue essentiellement deux types de variables : les variables quantitatives et les
variables qualitatives.
2.3.1 La variable quantitative : Elle prend des valeurs entières ou réelles, elle est dite alors
discrète ou continue.
Exemple : l’âge, le poids, le salaire, etc.
2.3.2 La variable qualitative : Elle ne prend pas des valeurs numériques mais des
caractéristiques appelées modalités. Lorsque ces modalités sont naturellement ordonnées
(par exemple la mention au BAC ou une classe d’âges, etc), la variable est dite ordinale. Dans
le cas contraire (la profession dans une population de personnes actives ou la situation
familiale, etc), la variable est dite nominale.
2
Chapitre 01 : Présentation générale
2.4 Les tableaux de données : Les données individu-variable sont présentées sous la forme
d’un tableau rectangulaire à n lignes correspondant au nombre d’individus et p colonnes
correspondant au nombre de variables de ces individus.
C1 C2 ………. Cj …… Cp
i1
i2
..
ik xkj
in