Vous êtes sur la page 1sur 9

Data Mining

(Fouille de données, exploration de données, )

Ali BERRICHI,
ali.berrichi@gmail.com, ali.berrichi@univ-boumerdes.dz
Bureau: Bloc 5, N° 206 ou bien LIMOSE N° 03
Département d’informatique, Faculté des Sciences, UMBBoumerdes.
7. Les données
7.1 Définitions
• Les données : une collection Id Refund Marital Taxable
d’objets et leurs attributs. Un Status Income Cheat

attribut est une propriété ou 1 Yes Single 125K No

une caractéristique d'un objet. 2


3
No
No
Married
Single
100K
70K
No
No
4 Yes Married 120K No

- Au lieu de « attribut » on dit 5 No Divorced 95K Yes

également variable, champ, 6 No Married 60K No

caractéristique ou fonctionnalité. 7 Yes Divorced 220K No


8 No Single 85K Yes
9 No Married 75K No
- On dit Objet, mais également : 10 No Single 90K Yes
Enregistrement, point, individu,
10

entité ou instance.

2
7. Les données
7.2 Types de données

• Le type d'un attribut dépend des propriétés qu’il possède:

– Distinction = et ≠
– L’ordre <, ≤, > et ≥.
– Addition : + et –
– Multiplication : * et /

• on peut définir 4 types d’attributs : nominal, ordinal,


intervalle et ratio.

• Nominal + ordinal = attributs catégoriels ou qualitatifs


• Intervalle + ratio = attributs quantitatifs ou numériques
3
7. Les données
Le type Nominal
• Les valeurs sont juste des noms différents.

- Exemples:
numéros d'identification des étudiants, couleur des yeux,
codes postaux.

Remarque : Une variable nominale peut être sous forme


numérique, mais les valeurs numériques n'ont pas
d'interprétation mathématique. Exemple : on peut étiqueter
10 personnes à l’aide des numéros 1, 2, 3,. . . , 10, mais aucun
calcul sur ces valeurs n’a de sens.

• Cas particulier d'une variable nominale : Variables


binaires : (vrai ou faux, 1 ou 0, etc.)
4
7. Les données
Le type Ordinal :
Les valeurs fournissent assez d’informations pour ordonner les objets.
Exemple: la hauteur (haute, moyenne, courte), les diplômes,

* Ce sont des variables nominales comportant la notion d'ordre

Le type Intervalle
• La différence entre les valeurs de l’attribut a un sens, i.e une unité de
mesure existe. L’origine de mesure est arbitraire.
Exemples:
– les dates du calendrier (Par exemple, au lieu de traiter la date d'ouverture d’un
compte bancaire, nous traitons l'ancienneté qui est la différence entre la date
d'aujourd'hui et la date d’ouverture du compte),

– Les températures en degrés Celsius ou Fahrenheit (20° C ne signifie pas le double


de 10° C en termes de température).
5
7. Les données
Le type Ratio
• Les différences et les ratios entre les valeurs de l’attribut
ont un sens.
• L’origine n’est pas arbitraire, elle reflète l’absence de la
caractéristique de l’attribut.
Exemples: la longueur en centimètres, le temps en secondes,
la température en degrés Kelvin (0 est la température la plus
basse). Le poids d’une molécule. Les quantités monétaires (Un
prix de 100 DA est le double de 50 DA)

• Attribut nominal: la distinction


• Attribut ordinal: la distinction et l'ordre
• Attribut Intervalle: la distinction, de l'ordre et l’addition.
• Attribut Ratio: toutes les 4 propriétés

6
7. Les données
Dans de nombreuses études de DM les attributs sont divisés en deux types seulement:

• Attributs Discrets/continus
– Attributs Discrets
- Ont un nombre fini ou infini dénombrable, souvent représentés avec des variables entières.
- Exemples : code postal, le nombre de…, l’ensemble des mots dans une collection de
documents

– Attributs Continus
- Ont des nombres réels comme valeurs des attributs
- Exemples : température, hauteur ou poids

• Variables Catégorielles/Continues
- Variables Catégorielles ayant des valeurs nominales, binaires et ordinales
- Variables Continues correspondant aux variables entières, intervalle ou ratio.

• D’autres types de données :

Données textuelles, pages/liens web, transactions, etc.

7
8. Les tâches du data Mining (I)
• Méthodes prédictives (supervisées)
- Prédire la valeur inconnue ou future d’un attribut particulier en se
basant sur les valeurs des autres attributs (détection de SPAM,
détection d’intrusions).
- L’attribut à prédire : attribut cible ou variable dépendante.

• Méthodes Descriptives (non supervisées)


- Mettre en évidence des informations présentes mais cachées par
le volume des données (segmentations de clientèle, recherche
d’associations de produits sur les tickets de caisse).
- réduisent, résument, synthétisent les données
- Il n’y a pas de variable « cible » à prédire.

8
8. Les tâches du data Mining (II)

• Segmentation (classification en anglais) [prédictive]


• Classification (ou Clustering) [Descriptive]
• Découverte de règles d'association [Descriptive]
• Découverte de séquences [Descriptive]
• Régression [prédictive]
• Détection d’anomalies [prédictive]

Vous aimerez peut-être aussi