Vous êtes sur la page 1sur 31

Analyse de données 1

ANALYSE DE DONNÉES
INTRODUCTION
Analyse de données 2

PLAN
• Introduction

• Définitions ADD

• Définitions Data Mining

• Avantages AFD

• Les méthodes d’ADD

• Les Données , Types d'Attributs

• Les type de Tableaux


Analyse de données 3

Introduction
 Lors de toute étude statistique, il est nécessaire
de décrire et explorer les données avant d’en tirer
de quelconques lois ou modèles prédictifs.

 Dans beaucoup de situations, les données sont trop


nombreuses pour pouvoir être visualisables (nombre de
caractéristiques trop élevées)

 Il est alors nécessaire d’extraire l’information pertinente


qu’elles contiennent ; Les techniques d’ADD répondent à
ce besoin.
Analyse de données 4

Introduction
 L’analyse des données a pour but de fournir grâce à
l’ordinateur un outil permettant d’appréhender le contenu
de tableaux de taille importante à l’aide de
représentations accessibles par l’utilisateur

 L’analyse des données rassemble un groupe de


techniques aux fondements mathématiques qui permet
d’appréhender la structure de l’information contenue dans
un espace à plusieurs dimensions

 BUT = Synthétiser, structurer l'information contenue dans


des données multidimensionnelles
(n individus, p variables)
Analyse de données 5

Définition ADD
 ADD = ensemble de méthodes descriptives ayant pour
objectif de résumer et visualiser l’information pertinente
contenue dans un grand tableau de données.

 Dans la littérature  plusieurs « point de départ »

 Domaine récent dont le vocabulaire n’est pas fixé

 Evolution rapide

 Domaine Applicatif versus domaine de Recherche


Analyse de données 6

Data Mining - La rencontre de plusieurs disciplines


Analyse de données 7

Data Mining - Définitions


 Analyse et Fouille de Données (AFD) = Data Mining

Ensemble des techniques d’exploration de données


permettant d’extraire des connaissances sous la forme de
modèles de description afin de :

 Décrire le comportement actuel des données.

 Et/ou Prédire le comportement futur des données.


Analyse de données 8

Data Mining – Question de vocabulaire…


 On ne peut pas parler que d’Analyse de Données :
 Reconnaissance des formes (pattern recognition)

 Analytics

 Apprentissage automatique (Machine Learning)

 Fouille de données (Data Mining)

 Intelligence Artificielle (IA)

 Statistique

 ...

 Domaines différents avec des intersections plus ou moins grandes :

Data Sciences (Attention à la traduction Anglais/ Français)


Analyse et Fouille des Données (AFD)
Analyse de données 9

Data Mining
 The part of AI (Intelligence Artificielle ) that is
driving these developments is = Deep Learning
Analyse de données 10

Data Mining - Définitions


AFD : une démarche plus qu’une théorie
 Processus ECD (extraction de connaissances à partir de données)
ou KDD (Knowledge Discovery in Databases)
Analyse de données 11

Data Mining - Pourquoi l’AFD ?


L’exploitation des données est importante car c’est :

 Méthode scientifique ⇒ nécessité de savoir exploiter des données


• c’est la base de la méthode scientifique (observations →
lois/règles)
• les données (et leur exploitation) au cœur de beaucoup
d’avancés récentes

 Source de revenus
• modèle économique des entreprises du web (Google, Facebook,
Amazon, ...)
• fournisse un service gratuit
• seule « valeur » : capacité à exploiter les données collectées

 Nouvelle « approche de programmation »


• « rêve » de l’intelligence artificielle : l’ordinateur qui Apprend
• il y a des algorithmes que l’on ne peut pas/sait pas formaliser
Analyse de données 12

Data Mining - Pourquoi l’AFD ?


Analyse de données 13

Data Mining - Pourquoi l’AFD ?


Analyse de données 14

Data Mining - Pourquoi l’AFD ?


Analyse de données 15

Data Mining - Pourquoi l’AFD ?


Analyse de données 16

Les méthodes d’ADD


 L’analyse des données est une des branches les plus vivantes
de la statistique. Ses principales méthodes se séparent en
deux groupes:
 Les méthodes de classification : visant à réduire la taille
de l’ensemble des individus en formant des groupes homogènes

 Les méthodes factorielles : cherchent à réduire le


nombre de variables en les résumant par un petit nombre de
composantes synthétiques en utilisant essentiellement des outils
de l’algèbre linéaire et donnant lieu à des représentations
graphiques dans lesquelles les objets à décrire se transforment en
des points sur des axes et des plans.
Analyse de données 17

Les méthodes d’ADD


Algèbre linéaire:
les données sont vues de manière abstraites comme un nuage
de points dans un espace vectoriel. On utilise :
 Des matrices qui permettent de manipuler un ensemble de
variables comme un objet mathématique unique ;
 Des valeurs et vecteurs propres qui permettent de décrire la
structure d'une matrice.
 Des métriques : permettent de définir la distance entre deux
points de l'espace vectoriel ; on utilise aussi des produits
scalaires.
Analyse de données 18

Les méthodes  3 Grandes Familles

CAH = classification ascendante hiérarchique


Analyse de données 19

Les données ?
• Les données se présentent généralement sous la
forme d’un tableau rectangulaire,
Les lignes correspondent à des individus ou unités
statistiques
Les colonnes à des variables appelées caractères
ou caractéristiques.

 Les données peuvent être vues comme une collection


d’objets (enregistrements) et leurs attributs.
Analyse de données 20

Les données ?
 Un attribut est une propriété et ou une caractéristique de l’objet.
 Un ensemble d’attributs décrit un objet
Exemple : Attributs (caractéristiques)

Individus
(Objets)
Analyse de données 21

Types d'Attributs (variables) – Valeur ?


 La valeur d’un attribut est un nombre ou un symbole.
Ne pas confondre attribut et valeur
Types :
1. Quantitative (numérique) : nombres sur lesquels les opérations usuelles (somme,
moyenne,...) ont un sens. Elles peuvent être :
• Discrète (ex : nombre d’étudiants dans un cours) ou continue (ex : taille, longueur)
• Echelle proportionnelle (chiffre d’affaires, taille), ou échelle d’intervalle (température, QI)

2. Qualificative : appartenance a une catégorie donnée, elles peuvent être :


• Variable ordinale quand les catégories sont ordonnées : classement à un concours, échelle
de satisfaction client. (Ex : très résistant, assez résistant, peu résistant).

• Variable nominale (couleur de yeux, diplôme obtenu, sexe)

 Les différents types de variables vont conditionner le choix des techniques utilisées.
Analyse de données 22

Types d'Attributs - Définitions


• Les Modalités d’une variable sont l’ensemble des valeurs
qu’elle prend
dans les données
Ex : les modalité de notes sont {0,1,2,··· ,20}
les modalités de couleur sont {bleu,vert,noir,...}

• Population
groupe ou ensemble d'individus que l'on analyse.

• Recensement
étude de tous les individus d'une population donnée.

• Sondage
étude d'une partie seulement d'une population appelée
échantillon.
Analyse de données 23

Les type de Tableaux


• On considère dans la pratique 04 tableaux de
données sur lesquels s’appliquent des méthodes
d’analyses factorielles différentes:
• Tableau de variables Quantitatives

• Tableau de Contingence (possibilité, modalité)

• Tableaux d’enquêtes ou de sondages

• Tableaux quantitatifs où les individus sont regroupés par

paquet en fonction d’une variable qualitative


Analyse de données 24

Tableau de variables Quantitatives


Analyse de données 25

Tableau de Contingence
Analyse de données 26

Tableaux d’enquêtes ou de sondages


Analyse de données 27

Tableaux d’enquêtes ou de sondages


Analyse de données 28

Tableaux Quantitatifs où les Individus sont


Regroupés par Paquet
Analyse de données 29

Types de connaissances extraites ?


Connaissances sous la forme de modèles de description
permettant de
• Décrire le comportement actuel des données et/ou
• Prédire le comportement futur des données.
• Analyses : ex. distribution du trafic routier en fonction de
l’heure
• Règles : ex. si un client a acheté un produit alors il sera
intéressé par un autre.
• Attribution de scores de qualité ex. score de fidélité au
client
• Classification d’entités : ex. mauvais payeurs.
Analyse de données 30

Les logiciels utilisés ?


• Les calculs de l’ADD ne se font jamais à la main.
• Les logiciels pour l’utiliser sont très nombreux :

• les logiciels de traitement d’enquête (Le Sphinx, ethnos,


Question, …). ils intègrent quelques méthodes d’analyses
factorielles;

• les logiciels boîtes à outils (XLSTAT, Statbox). Ils permettent de


réaliser diverses analyses factorielles (ACP, AFC, ACM), quelques
techniques de classification (Classification hiérarchique, K-
moyennes) ainsi que les techniques de prévision classiques;

• Les logiciels de statistique (SPSS, SPAD, SAS, …). Conçus pour


manipuler et analyser de grands tableaux de données, ils sont très
complets sur le plan des méthodes présentes et sur les options
disponibles.
Analyse de données 31

Exercice
• Pour chacune des variables suivantes préciser le type de cette
variable ?
• Groupes sanguins=
• Lieu de résidence =
• Citoyenneté =
• Âge =
• Sexe =
• Pointure en chaussures=
• Couleur des yeux=
• Nombre de langues parlées=

Vous aimerez peut-être aussi