Académique Documents
Professionnel Documents
Culture Documents
OUALI
Rachid
Master
2
Statistiques
et
Probabilités
Approfondies
1
Avant-‐propos
Ce
stage
a
été
réalisé
à
Université
d’Orléans
du
12
Mai
au
31
Septembre.
Il
avait
pour
but
de
réaliser
une
analyse
statistique
et
de
mieux
comprendre
une
dynamique
du
comportement
de
la
production
de
l’électricité
sur
une
ferme
photovoltaïque.
En
d’autres
mots,
découvrir
des
associations
non
connues
en
utilisant
des
techniques
du
data
mining
temporel.
Remerciements
Je
remercie
particulièrement
monsieur
Ted
soubdhan,
maitre
de
conférence
à
l’université
des
Antilles
et
de
la
Guyane,
mon
maitre
de
Stage,
Richard
Emilion,
professeur
à
l’université
d’Orléans,
mon
tuteur
de
stage
et
Romain
Celerier,
ingénieur
Conceptions
et
Réalisations
à
GENERGIES
de
m’avoir
permis
d’effectuer
ce
stage,
accordé
leur
confiance
et
leur
temps
durant
cette
période.
De
manière
générale,
je
remercie
toutes
les
personnes
qui
m’ont
aidé
durant
cette
période
de
stage.
2
Sommaire
Avant-‐propos
...................................................................................................................................................................
2
Remerciements ............................................................................................................................................................... 2
1. Introduction ................................................................................................................................................................. 5
2. Le photovoltaïque ........................................................................................................................................................ 7
4.3. Les techniques et outils du data mining ............................................................................................................. 16
3
5.
Vérification
et
traitement
des
données
.....................................................................................................................
24
5.2.2. Transformation de la base de données façon Spade : ................................................................................. 27
4
1. Introduction
1.1. Contexte
L’électricité
renouvelable,
aussi
appelée
électricité
verte,
est
produite
uniquement
à
partir
des
sources
d’énergies
renouvelables
respectueuses
de
l’environnement
comme
l’éolien,
l’hélio
thermodynamique,
la
géothermie,
la
biomasse
solide
et
notamment
le
bois,
le
biogaz,
les
déchets
organiques,
l’hydraulique,
les
énergies
marines
et
aussi
le
solaire
photovoltaïque.
Elles
font
partie
de
ces
énergies
inépuisables
par
rapport
aux
énergies
tirées
des
gisements
de
combustibles
fossiles
en
voie
de
raréfaction
:
pétrole,
charbon,
lignite,
gaz
naturel.
Il
est
donc
important
de
privilégier
les
énergies
nouvelles,
comme
le
solaire
photovoltaïques.
En
2009,
le
solaire
photovoltaïque
représente
seulement
0.1%
de
la
production
électrique
mondiale
mais
il
est
en
forte
augmentation
durant
ces
5
dernières
années.
Figure
1,
Taux
de
croissance
annuel
moyen
2002-‐2012.
Ainsi
dans
le
cadre
du
programme
«
Photovoltaic
Power
Systems
»
(PVPS),
l’Agence
international
de
l’énergie
(IEA)
tend
à
améliorer
le
fonctionnement,
la
fiabilité
et,
par
conséquent,
la
puissance
électrique
et
économique
des
systèmes
d'énergie
photovoltaïque
afin
de
favoriser
leurs
utilisations
dans
le
monde.
5
1.2. Objectifs
Dans
le
cadre
d'un
projet
de
R&D
avec
une
entreprise
en
Energies
Renouvelables
(Génergies),
l’objectif
de
ce
stage
est
mettre
en
œuvre
des
modèles
statistiques
de
prévisions
de
la
production
d'électricité
d'une
ferme
photovoltaïque.
Ce
travail
s'inscrit
dans
un
projet
global
de
SMART
GRID
développé
par
l'entreprise.
Il
s’agit
de
traiter
et
de
vérifier
les
données
recueillies
sur
une
ferme
photovoltaïque
en
suivant
les
directives
de
l’équipe
qualité.
Ces
données
ont
été
par
la
suite
utilisées
pour
compléter
une
base
de
données
qui
contient
les
informations
nécessaires
à
une
étude
statistique
plus
approfondie.
Dans
un
deuxième
temps,
il
s’agit
de
réaliser
une
analyse
statistique
des
données
et
d’appliquer
des
techniques
de
data
mining
temporel.
1.3. Plan
Après
une
présentation
des
différentes
installations
PV
et
des
composants
qui
caractérisent
ces
systèmes,
nous
exposerons
la
disponibilité
des
données
photovoltaïques
auxquelles
nous
avons
eu
accès.
Nous
exposons
ensuite
une
introduction
à
la
fouille
de
données
(data
mining)
et
Nous
verrons
les
tâches
qui
nous
permettrons
de
traiter
ces
données
en
utilisant
un
algorithme
de
data
mining
temporel.
En
fin
de
rapport,
avant
d'exposer
les
conclusions
tirées
de
ces
analyses,
nous
commenterons
les
résultats
obtenus.
6
2. Le
photovoltaïque
2.1. Historique
La
naissance
d’une
technologie
résulte
bien
souvent
de
la
combinaison
des
résultats
des
travaux
connexes
menés
par
nombre
de
chercheurs.
C’est
bien
le
cas
pour
le
photovoltaïque.
De
l’effet
photoélectrique
à
la
conception
de
la
cellule
photovoltaïque
il
a
fallu
attendre
un
siècle
!
L’histoire
du
PV
débute
en
1839
lorsque
le
physicien
français
Antoine
César
Becquerel
découvre
le
principe
photovoltaïque
(C’est
son
petit-‐fils,
Antoine
Henri
Becquerel
qui
découvrira
la
radioactivité).
L'effet
photovoltaïque
en
tant
que
tel
a
été
découvert
en
1887
par
le
physicien
allemand
Heinrich
Rudolf
Hertz.
C'est
Albert
Einstein
qui,
le
premier,
a
pu
expliquer
le
principe
photovoltaïque.
En
1955,
des
chercheurs
américains
(Chapin,
Fuller,
Pearson
et
Prince)
travaillant
pour
les
laboratoires
Bell
Telephone
(devenus
aujourd’hui
Alcatel-‐
Lucent
Bell
Labs)
développent
une
cellule
photovoltaïque
à
haut
rendement
de
6
%.
Les
Américains
lancent
en
1959
le
satellite
Vanguard
qui
est
alimenté
par
des
piles
photovoltaïques
ayant
un
rendement
de
9%.
La
première
maison
avec
une
installation
photovoltaïque
voit
le
jour
en
1973
à
l’université
de
Delaware
aux
Etats-‐Unis
d’Amérique
et
c’est
en
1983
que
la
première
voiture
alimentée
par
énergie
photovoltaïque
parcourt
4000
kilomètres
en
Australie.
Il
faut
tout
de
même
attendre
les
années
90
et
les
premières
installations
raccordées
au
réseau,
technologie
permettant
d’injecter
l’énergie
produite
sur
le
réseau
public
d’électricité,
pour
voir
les
installations
PV
se
développer
à
grande
échelle.
En
1995,
des
programmes
de
toits
photovoltaïques
raccordés
au
réseau
ont
été
lancés
au
Japon
et
en
Allemagne,
et
se
généralisent
depuis
2001.
Le
nombre
d’installations
PV
ne
cesse
de
croitre,
aidé
par
des
coûts
de
plus
en
plus
faibles,
des
performances
améliorées
et
des
aides
financières
gouvernementales.
En
traversant
l’atmosphère,
le
rayonnement
solaire
est
absorbé
et
diffusé.
Au
sol,
on
distingue
plusieurs
composantes
(Figure
2)
:
1. Le
rayonnement
direct,
directement
reçu
du
soleil,
sans
rétrodiffusion
par
les
nuages
et
dans
l’atmosphère.
Ces
rayons
sont
parallèles
entre
eux,
ils
génèrent
les
ombres
des
objets.
2. Le
rayonnement
diffus
est
constitué
de
photons
diffusés
par
l’atmosphère
(air,
nuages,
etc.).
On
considère
ce
rayonnement
isotrope.
Figure
2,
Représentation
du
flux
global
et
de
ces
composantes.
3. L’albédo
(blancheur
en
latin)
est
la
fraction
de
rayonnement
réfléchie
par
un
obstacle,
généralement
le
sol.
Il
dépend
de
l’environnement
du
site.
Les
valeurs
de
coefficient
d’albédo
sont
tabulées
et
comprises
entre
0
(aucune
réflexion)
et
1
(miroir
parfait).
Dans
la
suite
du
rapport,
nous
prenons
0,2
pour
valeur
d’albédo.
Ces
trois
composantes
constituent
le
rayonnement
global
issu
du
soleil.
7
Les
cellules
PV
reposent
sur
l’effet
photoélectrique
pour
transformer
l’énergie
lumineuse
d’un
photon
incident
en
énergie
électrique.
Elles
sont
réalisées
dans
des
semi-‐conducteurs,
généralement
du
silicium
Si
(Figure
3),
que
nous
trouvons
sous
trois
formes
:
• Les
cellules
monocristallines
:
constituées
d’un
cristal
à
double
couche,
elles
ont
un
rendement
compris
entre
15
et
22%
mais
restent
relativement
coûteuses.
• Les
cellules
poly-‐cristallines
:
elles
sont
constituées
de
plusieurs
cristaux,
ce
qui
réduit
considérablement
le
coût
de
fabrication
mais
également
le
rendement.
Celui-‐ci
est
de
l’ordre
de
10
à
13%.
• Les
cellules
amorphes
:
leur
prix
est
plus
faible,
de
même
que
leur
rendement
qui
est
compris
entre
5
et
10%.
Figure
3,
principe
de
fonctionnement
des
cellules
photovoltaïques
Les
réseaux
électriques
intelligents,
ou
Smart
grids,
sont
communicants
car
ils
intègrent
des
fonctionnalités
issues
des
technologies
de
l’information
et
de
la
communication.
Cette
communication
entre
les
différents
points
des
réseaux
permet
de
prendre
en
compte
les
actions
des
différents
acteurs
du
système
électrique,
et
notamment
des
consommateurs.
L’objectif
est
d’assurer
l’équilibre
entre
l’offre
et
la
demande
à
tout
instant
avec
une
réactivité
et
une
fiabilité
accrues
et
d’optimiser
le
fonctionnement
des
réseaux.
Le
système
électrique
passe
d’une
chaîne
qui
fonctionne
linéairement
à
un
système
où
l’ensemble
des
acteurs
est
en
interaction.
Rendre
les
réseaux
électriques
intelligents
consiste
donc
en
grande
partie
à
les
instrumenter
pour
les
rendre
communicants.
Actuellement
le
réseau
de
transport
est
déjà
instrumenté
notamment
pour
des
raisons
de
sécurité
d’approvisionnement.
En
revanche,
les
réseaux
de
distribution
sont
faiblement
dotés
en
technologies
de
la
communication,
en
raison
du
nombre
très
important
d’ouvrages
(postes,
lignes,
etc.)
et
de
consommateurs
raccordés
à
ces
réseaux.
L’enjeu
des
Smart
grids
se
situe
donc
principalement
au
niveau
des
réseaux
de
distribution.
8
3. Entreprise
et
Données
disponibles
9
Figure
6,
Réalisation
PV
de
Genergies.
La
loi
Grenelle
1
du
3
août
2009
fixe
pour
la
Guadeloupe
des
objectifs
ambitieux
en
termes
de
politique
énergétique,
à
savoir
l’autonomie
énergétique
à
l’horizon
2030.
Une
étape
intermédiaire
prévoit
pour
2020,
un
objectif
de
50
%
au
minimum
d’énergies
renouvelables
dans
la
consommation
finale.
Une
politique
ambitieuse
au
regard
de
la
situation
actuelle.
Vis
à
vis
de
l’énergie,
la
Guadeloupe
se
trouve
dans
une
situation
de
dépendance
importante.
En
2006,
son
taux
de
dépendance
énergétique
est
supérieur
à
90
%
contre
54,4
%
en
métropole.
Cette
situation
tient
au
fait
que
90,3
%
de
l’énergie
primaire
consommée
est
d’origine
fossile.
Celle-‐ci
est
composée
à
71,8
%
de
produits
pétroliers
et
à
18,5%
de
charbon
importés
principalement
d’Europe
alors
que
la
part
des
énergies
renouvelables
dans
la
consommation
d’énergie
primaire
est
d’environ
10
%.
Les
secteurs
de
l’habitat,
du
transport
et
des
entreprises
consomment,
chacun,
près
d’un
tiers
de
l’énergie
primaire.
Figure
7,
Mix
énergétique
2012
en
Guadeloupe.
Dans
le
domaine
de
la
maîtrise
de
l’énergie,
des
efforts
ont
été
entrepris
entre
1994
et
2005
dans
le
cadre
du
plan
régional
de
maîtrise
de
l’énergie
(PRME).
Ils
ont
permis
de
réaliser
une
économie
d’énergie
fossile
de
près
de
366
GWh,
soit
une
économie
de
292
tonnes
de
CO2.
10
3.4. Installation
PV
Un
système
photovoltaïque
est
une
chaîne
de
composants
qui
vont
du
module
photovoltaïque
au
disjoncteur
de
raccordement
au
réseau
électrique.
Le
courant
continu
disponible
aux
bornes
du
module
peut
être
utilisé
de
différentes
manières
en
raccordant
ces
bornes
à
un
circuit
électrique
qui
l’achemine
vers
un
ensemble
de
composants
qui
forment
un
"système
photovoltaïque"
conçu
et
dimensionné
en
fonction
de
l’application
et
de
l’usage
qui
est
fait
de
l’électricité
produite.
Dans
les
systèmes
raccordés
au
réseau,
l’électricité
produite
en
courant
continu
est
transformée
en
courant
alternatif
par
l’onduleur
puis
comptabilisée
par
un
compteur
de
production
électrique
préalablement
installé
par
le
gestionnaire
du
réseau
avant
d’être
injectée
sur
le
réseau.
Plusieurs
options
de
branchements
sont
possibles
Ces
installations
suivent
le
schéma
de
la
figure
4,
où
:
(1) Le
rayonnement
du
soleil
sur
les
modules
photovoltaïques
est
transformé
en
courant
électrique
continu
(DC)
(2) L’onduleur
convertit
cette
électricité
(3) L’électricité
est
transformée
en
courant
alternatif
(AC)
compatible
avec
le
réseau
(4) Un
transformateur
élève
la
tension
(5) L’électricité
est
injectée
par
câble
jusqu’au
réseau
public
Figure
8,
Type
d’installation
PV
Les
bâtiments
de
JARRY
Baie-‐Mahault
(Figure
5)
nous
renseignent
sur
:
• L'éclairement
par
rapport
au
plan
des
modules,
• La
température
extérieure,
• La
puissance
AC,
• La
puissance
DC.
11
160 21.8
156 10.6
32.4
1027
14
PROJET
AGROSYSTEMES
JARRY - 97122 BAIE-MAHAULT
PLAN DE CALEPINAGE
CAP et PVL
N° PLAN INDICE
12/05/2010
Figure
9,
Agrosystèmes.
Dimension Signification
RENDEMENT
%
Rendement
Type
d’installation
Connecté
au
réseau
Raccordée
au
réseau
Date début des mesures 21/11/2013 Date début des mesures utilisées pour l’étude
12
3.6. Le projet micro-réseau Genergies
Le
micro-‐réseau
GENERGIES
est
un
système
électrique
pilotable,
comportant
des
sources
et
des
charges
électriques,
capable
d’être
opéré
aussi
bien
connecté
que
déconnecté
du
réseau
public.
Micro-‐réseau Genergies
L'ensemble
des
données
est
réparti
sur
les
années
2013,
2014.
Selon
le
type
d'acquisition,
la
présentation
des
données,
l'intervalle
de
temps
entre
les
mesures,
il
convient
de
les
modifier
avant
la
tâche
de
vérification
et
de
traitement.
Ainsi
les
données
proviennent
de
deux
types
de
fichiers
Excel.
Des
fichiers
contenant
la
température
et
l’éclairement
avec
un
pas
d’environ
1
minutes.
Tandis
que
la
puissance
DC
est
obtenue
à
partir
d'un
autre
fichier
avec
un
pas
de
temps
de
5
minutes
environ
et
ne
contenant
que
les
mesures
en
journée.
Nous
avons
traité
un
ensemble
de
données
recueillies
du
21.11.2013
au
31.01.2014
avec
un
pas
de
5
minutes.
Extrait
de
la
base
de
données
13
4. Introduction
Data
mining
Le
terme
de
Data
Mining
est
souvent
employé
pour
désigner
l’ensemble
des
outils
permettant
à
l’utilisateur
d’accéder
aux
données
volumineuses
de
l'entreprise
et
à
en
extraire
de
manière
automatique
des
connaissances
intéressantes
et
inconnues,
imprévues,
a
priori.
Nous
restreindrons
ici
le
terme
de
Data
Mining
aux
outils
ayant
pour
objet
de
générer
des
informations
riches
à
partir
des
données
de
l’entreprise,
notamment
des
données
historiques,
de
découvrir
des
modèles
implicites
dans
les
données.
Ils
peuvent
permettre
par
exemple
à
un
magasin
de
dégager
des
profils
de
client
et
des
achats
types
et
de
prévoir
ainsi
les
ventes
futures.
Il
permet
d’augmenter
la
valeur
des
données
contenues
dans
le
DW
(Datawarehouse).
Les
outils
d’aide
à
la
décision,
qu’ils
soient
relationnels
ou
OLAP,
laissent
l’initiative
à
l’utilisateur,
qui
choisit
les
éléments
qu’il
veut
observer
ou
analyser.
Au
contraire,
dans
le
cas
du
Data
Mining,
le
système
a
l’initiative
et
découvre
lui-‐même
les
associations
entre
données,
sans
que
l’utilisateur
ait
à
lui
dire
de
rechercher
plutôt
dans
telle
ou
telle
direction
ou
à
poser
des
hypothèses.
Il
est
alors
possible
de
prédire
l’avenir,
par
exemple
le
comportement
d’un
client,
et
de
détecter,
dans
le
passé,
les
données
inusuelles,
exceptionnelles.
Ces
outils
ne
sont
plus
destinés
aux
seuls
experts
statisticiens
mais
doivent
pouvoir
être
employés
par
des
utilisateurs
connaissant
leur
métier
et
voulant
l’analyser,
l’explorer.
Seul
un
utilisateur
connaissant
le
métier
peut
déterminer
si
les
modèles,
les
règles,
les
tendances
trouvées
par
l’outil
sont
pertinents,
intéressantes
et
utiles
à
l’entreprise.
Ces
utilisateurs
n’ont
donc
pas
obligatoirement
un
bagage
statistique
important.
L’outil
doit
donc
soit
être
ergonomique,
facile
à
utiliser
et
rendant
transparentes
toutes
les
formules
mathématiques
et
termes
techniques
utilisés,
soit
permettre
de
construire
une
application
«clé
en
main»,
rendant
à
l’utilisateur
transparentes
toutes
les
techniques
utilisées.
On
pourrait
définir
le
data
mining
comme
une
démarche
ayant
pour
objet
de
découvrir
des
relations
et
des
faits,
à
la
fois
nouveaux
et
significatifs,
sur
de
grands
ensembles
de
données.
On
devrait
ajouter
que
la
pertinence
et
l'intérêt
du
Data
Mining
sont
conditionnés
par
les
enjeux
attachés
à
la
démarche
entreprise,
qui
doit
être
guidée
par
des
objectifs
directeurs
clairement
explicités
("améliorer
la
performance
commerciale",
"mieux
cibler
les
prospects",
"fidéliser
la
clientèle",
"mieux
comprendre
les
performances
de
production"...).
Nous
appellerons
Data
Mining
l'ensemble
des
techniques
qui
permettent
de
transformer
les
données
en
connaissances.
14
4.2. KDD
(Knowledge
Discovery
in
Data
bases)
Dans
sa
plus
ancienne
acception,
le
datamining
est
le
processus
central
du
KDD
(Knowledge
Discovery
in
Data
bases).
Cette
étape
est
si
importante
que
le
terme
de
KDD
est
maintenant
souvent
remplacé
par
celui
de
Data
mining,
plus
parlant.
Le
KDD
peut
être
schématisé
par
une
suite
d’opérations
de
transformation
et
d’analyse
des
données
:
• Data
cleaning
:
phase
d’élimination
du
bruit
et
des
données
inutiles
:
filtrer,
trier,
homogénéiser,
nettoyer.
Les
données
peuvent
être
incomplètes,
contradictoires,
ou
contenir
des
erreurs
humaines
ou
informatiques.
Lors
du
data
cleaning
les
données
sont
comparées,
pour
tenter
de
combler
automatiquement
les
lacunes
et
corriger
les
erreurs.
• Data
integration
:
phase
d’association
de
multiples
sources
des
données
sous
une
forme
unique,
généralement
dans
le
cadre
de
l’architecture
d’une
data
warehouse.
Cette
étape
sert
à
régler
le
problème
des
incompatibilités
entre
les
différents
systèmes
informatiques
et
systèmes
de
stockage
des
données
d’une
même
entreprise.
Par
exemple
toutes
les
sommes
indiquées
dans
des
devises
différentes
peuvent
être
converties
eu
euros.
Ou
encore,
le
champ
adresse
peut
être
décomposé
en
champs
ville,
rue
et
pays.
Les
données
sont
aussi
datées
et
résumées.
• Data
selection
:
les
données
ayant
un
rapport
avec
l’analyse
demandée
sont
retrouvées
dans
la
• Data
transformation
:
les
données
sont
regroupées,
normalisées,
et
transformées
dans
un
format
qui
les
prépare
au
mining.
• Data
mining
:
un
processus
essentiel
où
des
méthodes
intelligentes
sont
appliquées
pour
extraire
des
éléments
remarquables,
des
patterns.
Il
s’agit
de
configurations
de
données
dont
la
structure
est
inhabituelle,
qui
présentent
des
corrélations
imprévues,
des
écarts
statistiques,
ou
tout
ce
qui
sort
de
l’ordinaire.
• Pattern
evaluation
:
On
identifie
les
patterns
intéressants,
ceux
qui
représentent
de
l’information.
L’intérêt
des
patterns
est
évalué
par
les
outils
de
data
mining
en
utilisant
des
règles
objectives
basées
sur
la
structure
des
patterns
et
les
statistiques
qui
les
sous-‐tendent,
ainsi
que
des
règles
subjectives
basées
sur
les
croyances
des
utilisateurs
(ce
savoir
est
stocké
dans
une
base
de
connaissances).
Par
exemple,
une
information
est
intéressante
si
elle
contredit
les
croyances
de
l’utilisateur.
15
• Knowledge
présentation
:
des
techniques
de
visualisation
et
de
représentation
sont
utilisées
pour
présenter
clairement
à
l’utilisateur
le
savoir
extrait
des
données
:
tables,
arbres,
règles,
graphiques,
courbes,
matrices,
cubes,
etc.
Figure
10,
KDD
Process.
Les
outils
de
data
mining
ne
sont
pas
tous
basés
sur
les
mêmes
principes.
Différentes
méthodes
peuvent
être
utilisées
en
fonction
de
la
nature
des
données
dont
on
dispose,
et
des
informations
recherchées.
Voici
quelques
unes
des
techniques
les
plus
couramment
employées
:
• Découvertes de règles,
• Arbres de décision,
• Pattern recognition,
• Réseaux neuraux,
• Apprentissage automatique,
• Analyse des liens,
• Algorithmes génétiques
Avant
d’aborder
quelques
concepts
théoriques
et
le
mode
de
fonctionnement
de
l’algorithme
Cspad
avec
lequel
le
travail
a
été
effectué,
la
présentation
et
la
compréhension
de
certains
outils.
16
4.4. Règles
d’associations
Dans
cette
section,
nous
parlerons
des
concepts
ou
termes
souvent
employés
dans
ce
rapport,
on
expliquera
les
différentes
étapes
de
la
recherche
d’une
règle
d’association,
celle
des
règles
séquentielles
en
passant
par
les
motifs
séquentiels.
4.4.1. Recherche
de
règles
d’association
Une
règle
d’association
est
une
relation
d’implication
X→Y
entre
deux
ensembles
disjoints
d’articles
X
et
Y.
Cette
règle
indique
que
les
transactions
qui
contiennent
les
articles
de
l’ensemble
X
ont
tendance
à
contenir
les
articles
de
l’ensemble
Y.
X
est
appelé
condition
ou
prémisse
et
Y
résultat
ou
conclusion.
L’extraction
des
règles
d’association
est
l’un
des
principaux
problèmes
de
l’ECD
(Extraction
de
Connaissances
à
partir
de
Données).
Ce
problème
fut
développé
à
l’origine
pour
l’analyse
de
base
de
données
de
transactions
de
ventes.
Chaque
transaction
est
constituée
d’une
liste
d’articles
achetés
dans
un
contexte
d’un
client
consommateur,
afin
d’identifier
les
groupes
d’articles
vendus
le
plus
fréquemment
ensemble.
Ces
règles
sont
intuitivement
faciles
à
interpréter
car
elles
montrent
comment
des
produits
ou
des
services
se
situent
les
uns
par
rapport
aux
autres.
Ces
règles
sont
particulièrement
utiles
en
marketing.
Les
règles
d'association
produites
par
la
méthode
peuvent
être
facilement
utilisées
dans
le
système
d'information
de
l'entreprise.
Cependant,
il
faut
noter
que
la
méthode,
si
elle
peut
produire
des
règles
intéressantes,
peut
aussi
produire
des
règles
triviales
(déjà
bien
connues
des
intervenants
du
domaine)
ou
inutiles
(provenant
de
particularités
de
l'ensemble
d'apprentissage).
La
recherche
de
règles
d'association
est
une
méthode
non
supervisée
car
on
ne
dispose
en
entrée
que
de
la
description
des
achats.
On
peut
dire
donc
qu’une
règle
d'association
est
une
règle
de
la
forme
:
Si
condition
alors
résultat.
Dans
la
pratique,
on
se
limite,
en
général,
à
des
règles
où
la
condition
est
une
conjonction
d'apparition
d'articles
et
le
résultat
est
constitué
d'un
seul
article
(ABDELALI
Mouad,
2003).
Par
exemple,
une
règle
à
trois
articles
sera
de
la
forme
:
Si
X
et
Y
alors
Z
;
règle
dont
la
sémantique
peu
être
énoncée
:
Si
les
articles
X
et
Y
apparaissent
simultanément
dans
un
achat
alors
l'article
Z
apparaît.
17
L’extraction
des
règles
d’association
peut
être
décomposée
en
quatre
étapes
qu’illustre
la
Figure
11.
Les
étapes
d’extraction
de
règles
d’association
suivante
:
§ Sélection
et
préparation
des
données
:
Cette
étape
permet
de
préparer
les
données
afin
de
leur
appliquer
les
algorithmes
d’extraction
des
règles
d’association.
Elle
est
constituée
de
deux
phases
:
-‐
La
sélection
des
données
de
la
base
qui
permettront
d’extraire
les
informations
intéressant
l’utilisateur.
Ainsi
la
taille
des
données
traitées
est
réduite
ce
qui
assure
une
meilleure
efficacité
de
l’extraction.
-‐
La
transformation
de
ces
données
en
un
contexte
d’extraction
(il
s’agit
d’un
triplet
constitué
d’un
ensemble
d’objets,
d’un
ensemble
d’itemsets
et
d’une
relation
binaire
entre
les
deux).
La
transformation
des
données
sélectionnées
en
données
binaires
améliore
l’efficacité
de
l’extraction
et
la
pertinence
des
règles
d’association
extraites.
§ Découverte
des
itemsets
fréquents
:
C’est
l’étape
la
plus
coûteuse
en
terme
de
temps
d’exécution
car,
le
nombre
d’itemsets
fréquents
dépend
exponentiellement
du
nombre
d’items
manipulés
(pour
n
items,
on
a
2n
itemsets
potentiellement
fréquents).
§ Génération
des
règles
d’association
:
À
partir
de
l’ensemble
des
itemsets
fréquents
pour
un
seuil
minimal
de
support
minsup,
la
génération
des
règles
d’association
est
un
problème
qui
dépend
exponentiellement
de
la
taille
de
l’ensemble
des
itemsets
fréquents.
§ Visualisation
et
interprétation
des
règles
d’associations
:
Elle
met
entre
les
mains
de
l’utilisateur
un
ensemble
de
déductions
fiables
qui
peuvent
l’aider
à
prendre
une
décision.
18
4.4.2. Définitions
• Item
et
itemset
:
Un
item
peut
être
défini
comme
un
article
et
un
itemset
un
ensemble
d’articles.
• Transactions
:
Une
transaction
est
un
ensemble
d’items
achetés
par
un
client
C
à
une
date
précise.
Dans
une
base
de
données
une
transaction
est
représentée
par
trois
attributs
:
idClient
(identifiant
d’un
client),
idDate
(un
identifiant
pour
une
date),
itemset
(un
ensemble
d’items
non
vide).
• Support
minimal
:
Le
support
minimal
est
le
nombre
minimum
d’occurrence
d’un
motif
séquentiel
pour
être
considéré
comme
fréquent.
L’occurrence
n’est
prise
en
compte
qu'une
fois
dans
la
séquence.
C’est
un
seuil
choisi
par
l’utilisateur.
• La
force
d'une
règle
d'association
est
mesurée
par
son
indice
de
support
et
son
indice
de
confiance.
• L'indice
de
support
(«
support
»)
d'une
règle
X
à
Y
est
défini
par
la
proportion
de
transactions
de
T
qui
contiennent
X
∪
Y
(à
la
fois
X
et
Y,
et
non
X
ou
Y),
soit
Supp
(X
∪
Y).
Il
s'agit
donc
d'une
estimation
de
la
probabilité
Pr
(X
∪
Y).
• L'indice
de
confiance
(«
confidence
»)
d'une
règle
X
à
Y
est
défini
par
la
proportion
de
transactions
𝐗 ∪ 𝐘 .𝐜𝐨𝐮𝐧𝐭
de
T
contenant
X
qui
contiennent
aussi
Y,
soit
.
Il
peut
être
vu
comme
une
estimation
de
la
𝐗.𝐜𝐨𝐮𝐧𝐭
probabilité
conditionnelle
Pr
(Y
/
X).
19
§ Fréquence
d’une
séquence
:
Une
séquence
est
considérée
fréquente,
si
le
support
de
cette
séquence
respecte
le
support
minimum,
en
d’autres
termes,
si
le
support
de
cette
séquence
est
supérieur
ou
égal
au
support
minimum.
Celui-‐ci
est
introduit
par
le
client
afin
de
mesurer
la
pertinence
d’une
séquence.
§ Séquences
fréquentes
maximales
ou
motifs
séquentiels
:
Une
fois
toutes
les
séquences
fréquentes
trouvées,
on
procède
à
la
recherche
de
celles
qui
ont
une
fréquence
maximale,
c’est-‐à-‐dire
celles
qui
ne
sont
incluses
dans
aucune
autre
séquence,
on
les
appellera
des
motifs
séquentiels.
Les
motifs
séquentiels
peuvent
être
vus
comme
une
extension
de
la
notion
de
règles
d’association,
Intégrant
diverses
contraintes
temporelles.
Aussi,
la
recherche
de
tels
motifs
consiste
à
extraire
des
ensembles
d’items,
couramment
associés
sur
une
période
de
temps
bien
spécifiée.
En
fait,
cette
recherche
met
en
évidence
des
associations
inter-‐transactions,
contrairement
à
celle
des
règles
d’association
qui
extrait
des
combinaisons
intra-‐transaction.
Dans
ce
contexte,
et
contrairement
aux
règles
d’association,
l’identification
des
individus
ou
objets
est
indispensable,
afin
de
pouvoir
suivre
leur
comportement
au
cours
du
temps.
§ Support
d’une
séquence
:
Le
support
d’une
séquence
quelconque
S
est
le
pourcentage
de
clients
qui
supportent
cette
séquence
S.
c’est
une
mesure
dite
d’utilité.
Supp
({ae}
→
{bc})
=
Supp
({ae}
U
{bc})
§ Confiance
d’une
règle
:
La
confiance
d’une
règle
est
une
mesure
dite
de
précision,
c’est
la
probabilité
qu’on
achète
un
certain
nombre
d’articles
A
sachant
qu’on
a
déjà
acheté
B,
soit
la
probabilité
conditionnelle
:
p
(A/B).
Conf
({ae
→
{/bc})
=
Supp
({abce})
/
Supp
({ae})
On
voit
immédiatement
que
la
confiance
se
traduit
par
un
rapport
de
support.
4.4.4.
Les
séries
temporelles
Les
séries
temporelles
représentent
la
mesure
de
certaines
caractéristiques
en
fonction
du
temps.
Les
statisticiens
ont
établi
ce
concept
et
ses
propriétés
depuis
plus
d’un
siècle;
mais
leurs
techniques
s’avèrent
insuffisantes
pour
les
énormes
quantités
de
données
des
séries
temporelles
réelles.
En
tant
qu’outil
de
Datamining
les
‘grandes’
séries
temporelles
sont
traitées
selon
plusieurs
aspects.
Elles
sont
d’abord
représentées
de
telle
sorte
à
ce
que
l’on
puisse
définir
une
mesure
de
similarité
entre
séries.
Puis
on
les
manipule
pour
plusieurs
utilisations.
-‐
Clustering
:
trouver
des
groupes
de
séries
temporelles
similaires
à
partir
des
données
brutes
sans
fixer
les
groupes
au
préalable.
-‐ Classification : étant données des classes prédéfinies, affecter une série temporelle à une classe.
-‐
Prédiction
:
étant
donnée
une
série
temporelle
discrète
de
n
points,
prédire
la
valeur
de
la
caractéristique
au
temps
n+1.
-‐
Résumé
:
étant
donnée
une
série
temporelle
Q
comportant
n
points
de
données,
avec
n
extrêmement
grand
;
créer
une
approximation
de
Q
de
dimension
beaucoup
plus
petite.
20
4.4.5. Techniques
de
data
mining
temporel
Des
techniques
ont
vu
le
jour
à
la
fin
des
années
1970
(John
F.Roddick,
Kathleen
Hornsby
et
Myra
Spiliopoulou
ont
dressé
un
panorama
riche
sur
les
travaux
parus
sur
le
data
mining
temporel).
Les
procédés
que
nous
allons
décrire
sont
des
extensions
de
ce
qui
s’est
déjà
fait
pour
des
bases
de
données
classiques,
ou
aussi
des
techniques
conçues
spécialement
pour
ces
données
complexes.
Nous
citons
que
le
domaine
de
recherche
sur
les
bases
de
données
temporelles
connait
un
succès
remarquable.
C’est
dans
ce
contexte
et
donc
avec
l’utilisation
de
ce
qui
se
fait
actuellement
au
niveau
des
bases
de
données
temporelles
que
se
situent
les
méthodes
de
fouille
de
données
temporelles
que
nous
allons
présenter.
De
nombreuses
publications
ont
été
effectuées
dans
le
cadre
du
ECDT
(Extraction
des
Connaissances
à
partir
des
Données
Temporelles).
4.4.5.1. Algorithmes
de
data
mining
séquentiel
Les
possibilités
offertes
par
la
notion
de
séquence
en
font
un
domaine
de
recherche
riche
et
pluridisciplinaire.
Les
séquences
peuvent
en
effet
modéliser,
de
manière
basique,
le
déroulement
d’évènements
dans
le
temps,
mais
aussi
la
structure
d’un
génome,
ou
plus
généralement
des
comportements
humains
(qu’ils
soient
des
consommateurs,
des
utilisateurs
ou
encore
des
cas
particuliers
à
comprendre).
Du
pattern
matching
(appariement
de
formes)
à
la
détection
d’une
séquence
commune
à
deux
séquences
(par
exemple
des
chaines
de
caractères)
communes
à
plusieurs
séquences
et
enfin
la
détection
de
sous-‐séquences
communes
à
plusieurs
séquences,
les
techniques
algorithmiques
ne
manquent
plus.
L’apprentissage
en
produisant
ou
en
adoptant,
puis
en
appliquant
certaines
de
ces
techniques
a
largement
contribué
à
leur
développement.
Depuis
quelques
années
cependant,
un
phénomène
incontournable
est
apparu,
relatif
aux
séquences
et
se
traduisant
par
la
capacité
grandissante
des
moyens
de
stockage.
Le
domaine
de
la
fouille
de
données
s’est
alors
mis
en
place
avec
pour
objectif
de
faire
face
aux
grandes
quantité
de
données
à
traiter.
La
problématique
de
l’extraction
de
motifs
séquentiels
est
une
sorte
d’extension
de
celle
de
l’extraction
des
règles
d’association,
intégrant
diverses
contraintes
temporelles.
La
recherche
de
tels
motifs
consiste
ainsi
à
extraire
des
ensembles
d’items,
couramment
associes
sur
une
période
de
temps
bien
spécifiée.
En
fait
cette
recherche
met
en
évidence
des
associations
inter-‐transactions
contrairement
à
celle
des
règles
d’association
qui
extrait
des
combinaisons
intra-‐transaction.
Dans
ce
contexte,
et
contrairement
aux
règles
d’association,
l’identification
des
individus
ou
objets
est
indispensable,
afin
de
suivre
leur
comportement
au
cours
du
temps.
Par
exemple,
des
motifs
séquentiels
peuvent
montrer
que
“60
%
des
gens
qui
achètent
une
télévision,
achètent
un
magnétoscope
dans
les
deux
ans
qui
suivent”.
Ce
problème
posé
à
l’origine
dans
un
contexte
de
marketing,
intéresse
à
présent
les
domaines
assez
varies
que
les
télécommunications
(détection
de
fraudes),
la
finance,
ou
encore
la
médecine
(identification
des
symptômes
précédant
les
maladies).
21
4.4.5.2. Algorithme
SPADE
SPADE
se
classe
dans
la
catégorie
des
algorithmes
qui
cherchent
à
réduire
l’espace
des
solutions
en
regroupant
les
motifs
séquentiels
par
catégorie.
Pour
SPADE,
les
motifs
fréquents
présentent
des
préfixes
communs,
qui
permettent
de
décomposer
le
problème
en
sous-‐problèmes
qui
seront
traités
en
mémoire.
Le
calcul
de
(les
fréquents
de
taille
2)
par
SPADE,
passe
par
une
inversion
de
la
base,
qui
la
transforme
d’un
format
vertical
vers
un
format
horizontal.
Les
auteurs
considèrent
que
cette
opération
peut
être
simplifiée
si
la
base
peut-‐être
chargée
en
mémoire
vive.
De
plus,
lors
de
leurs
expérimentations,
les
auteurs
ne
considèrent
pas,
dans
les
temps
de
calcul
relevés,
le
temps
de
réécriture
de
la
base,
dans
le
cas
où
celle-‐ci
ne
tiendrait
pas
en
mémoire.
SPADE
gère
les
candidats
et
les
séquences
fréquentes
à
l’aide
de
classes
d’équivalence
comme
suit
:
deux
k
séquences
appartiennent
à
la
même
classe
si
elles
présentent
un
préfixe
commun
de
taille
(k-‐1).
Plus
formellement,
soit
la
𝓟𝕂!𝟏 𝛂 séquence
de
taille
k-‐1
qui
préfixe
la
séquence
α. Comme
α
est
fréquente,
avec
𝓟𝕂!𝟏 𝛂 ∈ 𝓕𝕂!𝟏
les
𝓕𝕂!𝟏 fréquents de
taille
k-‐1
Une
classe
d’équivalence
est
définie
de
la
manière
suivante
:
𝓹 ∈ 𝓕𝕂 ! = { 𝛂 ∈ 𝓕𝕂 | 𝓟𝕂 ! 𝛂 = 𝓹}
Le
reste
de
l’algorithme,
à
savoir
le
comptage
du
support
pour
les
candidats
générés,
repose
sur
la
réécriture
préalable
de
la
base
de
données.
En
effet
la
transformation
consiste
à
associer
à
chaque
séquence
l’ensemble
des
couples
(client,
itemset)
qui
lui
correspondent
dans
la
base.
22
Figure
15,
Intersections
de
listes
d’itemsets
dans
SPADE,
avec
la
base
de
données
de
la
figure
14.
Développé
par
M.
Zaki
comme
une
extension
de
Spade,
cSpade
apporte
la
gestion
de
plusieurs
contraintes
:
longueur
et
largeur
maximales
des
motifs,
distances
minimales
exigées
et
distances
maximales
permises
entre
les
motifs
d’une
séquence,
taille
de
fenêtres,
présence
ou
absence
de
motifs.
L’ajout
de
ces
contraintes
est
assez
intuitif.
Soit
(X,
d1,
f1)
∈
IdList
(S1)
et
(X,
d2,
f2)
∈
IdList
(S2)
–
Absence
d’un
évènement
L’évènement
non
désire
est
efface
de
F1.
–
maxLen
La
jointure
temporelle
vérifie
que
la
f2
−
d1
<
maxLen.
–
minGap
La
jointure
temporelle
vérifie
que
la
d2
−
d1
>
minGap.
–
maxGap
La
jointure
temporelle
vérifie
que
la
d2
−
f1
<
maxGap.
–
Tout
autre
contrainte
anti-‐monotone
se
greffe
facilement
sur
ce
schéma.
Il
faut
faire
attention
lors
de
la
gestion
de
la
contrainte
maxGap
qui
n’est
pas
anti-‐
monotone.
En
effet,
une
séquence
non
valide
peut
générer
une
séquence
plus
longue
valide.
Si
la
contrainte
est
maxGap
<
3
et
les
séquences
b
(2)
d
(4)
et
b
(2)
f
(5)
sont
fréquente,
le
gap
dans
b
(2)
f
(5)
vaut
3,
ce
qui
est
supérieure
à
maxGap.
Cependant,
b
(2)
d
(4)
f
(5)
est
un
candidat
valide.
Afin
de
palier
à
ce
problème,
M.
Zaki
modifie
la
génération
des
candidats.
Au
lieu
de
fusionner
deux
IdList
de
longueur
k,
il
propose
de
fusionner
Fk
avec
F2,
et
affaiblit
l’élagage
à
base
de
fréquence.
23
5. Vérification
et
traitement
des
données
Puissance DC
0
Novembre 2013
Figure
16,
Boxplot
de
la
puissance
DC
entre
0
et
32.4
kWc
du
mois
de
novembre
2013.
5000 10000 15000 20000 25000
Puissance DC
Decembre 2013
Figure
17,
Boxplot
de
la
puissance
DC
entre
0
et
32.4
kWc
du
mois
de
décembre.
5000 10000 15000 20000 25000 30000
Puissance DC
Janvier 2014
Figure
18,
Boxplot
de
la
puissance
DC
entre
0
et
32.4
kWc
du
mois
de
janvier
2014.
D'autres
moyens
sont
également
utilisés
pour
vérifier
les
données
:
des
conditions
de
cohérences
définissant
les
valeurs
maximum
et
minimum
admissibles
sur
les
différentes
paramètres
sont
mise
en
place.
Il
faut
aussi
observer
directement
les
mesures
prises
sur
les
fichiers
d'enregistrement.
24
A
partir
de
ces
vérifications,
dans
le
cas
où
des
valeurs
incohérentes
sont
détectées
et
en
nombre
élevé,
il
s'agira
d'effectuer
un
traitement
en
mettant
en
place
une
procédure
de
corrections.
Cependant,
pour
ne
pas
fausser
l'étude
statistique
qui
en
suivra,
les
données
ne
doivent
pas
subir
d'importante
transformation,
c'est
pourquoi
dans
la
majorité
des
cas
ces
données
sont
supprimées.
La
qualité
des
données
est
plus
importante
que
la
quantité
des
données.
Pour
vérifier
les
données,
on
installe
des
conditions
de
cohérence
sur
certains
paramètres
:
• Température
:
Pour
la
température
les
valeurs
doivent
être
comprissent
entre
-‐10
°C
et
40°C,
avec
une
variation
de
3°C,
lorsque
l’intervalle
de
temps
entre
deux
relevés
de
mesures
est
de
15
minutes.
• Eclairement
:
L’éclairement
doit
être
compris
entre
0
W/m²
et
1
400
W/m²
avec
une
variation
de
300
W/m².
• Puissance
AC,
Puissance
DC,
Eclairement
:
D'autres
vérifications
sont
effectuées
pour
détecter
des
données
incohérentes,
il
s'agit
du
lien
entre
la
présence
de
la
puissance
AC,
de
la
puissance
DC
et
de
l'éclairement.
Chaque
mesure
doit
respecter
la
condition
suivante
:
Présence
de
la
puissance
AC
=>
Présence
de
la
puissance
DC
=>
Présence
de
l'éclairement
Dans
les
relevés
de
mesure,
la
mesure
Total
DC
prend
une
valeur
en
Watt.
Il
s’agit
d’une
mesure
qui
nous
renseigne
sur
la
production
de
l’énergie
de
deux
champs
PV
(figure
19).
Les
données
sont
enregistrées
toutes
les
5
minutes.
25
5.2.1. La
puissance
DC
:
Il
s’agit
de
l’étude
de
l’évolution
de
la
production
DC
des
champs
PV
à
l’étude,
on
va
changer
l’horizon
de
la
production
en
appliquant
un
cumul
sur
une
heure
de
production
de
l’énergie
(figure
21).
Avant
d’effectuer
le
cumul,
on
va
ramener
toute
la
production
sur
la
même
échelle
de
temps
(figure
20).
Cumul
sur
1
heure
Figure 20, Extrait de la base de données avec la nouvelle échelle. Figure 21, Extrait de la base de données avec l’horizon d’une heure.
Dans
le
cadre
la
transformation
de
la
base
de
données
façon
cspade,
on
va
transformer
la
variable
Total
DC
en
variable
qualitative.
Pour
cela
on
va
appliquer
la
méthode
des
quantiles.
Le
critère
visé
est
l'équirépartition,
c'est
à
dire
le
même
nombre
de
données
par
classe.
Dans
la
version
stricte,
à
partir
du
nombre
du
nombre
N
de
données
et
du
nombre
n
classes,
on
en
déduit
le
nombre
F
d'individus
par
classe.
On
trie
les
données
par
ordre
croissant
et
on
met
dans
la
classe
1
les
F
premières
données,
dans
la
classe
2
les
F
suivantes
etc.
Dans
la
version
relâchée,
on
met
éventuellement
plus
de
F
données
par
classe
car
on
force
les
données
égales
à
être
dans
une
même.
26
5.2.2. Transformation
de
la
base
de
données
façon
Spade
:
A
des
fins
d’optimisation
du
temps
d’exécution,
l’algorithme
CSPADE
charge
la
base
de
données
en
mémoire
pour
n’effectuer
par
la
suite
qu’une
seule
passe
sur
celle-‐ci,
ce
qui
implique
une
concession
au
niveau
de
la
consommation
de
la
mémoire.
La
transformation
proposée
par
SPADE
simplifie
le
comptage
du
nombre
de
jours
supportant
une
séquence,
car
cette
opération
nous
permet
de
disposer
d’un
ensemble
de
données
où
l’accès
aux
informations
(Date,
Heure
de
transaction)
pour
un
item
est
facilité.
La
base
de
données
horizontale
représente
la
liste
des
items
de
productions
par
jour
à
une
heure
donnée.
En
revanche,
la
base
de
données
verticale
nous
permet
d’extraire,
pour
un
item
donné,
la
liste
des
couples
(Date,
Heure
de
productions)
qui
témoignent
de
son
apparition
dans
la
base
de
données.
27
Afin
de
mieux
adapter
la
base
de
données
aux
résultats
que
nous
souhaitons
obtenir,
on
a
ajouté
à
chaque
item
l’heure
qui
lui
correspond
(figure
24).
Cette
nouvelle
configuration
nous
permet
de
mieux
interpréter
les
résultats.
Figure
25,
Extrait
de
la
base
de
données.
La
Structure
des
données
utilisée
par
l’algorithme
est
la
suivante
:
Figure
26,
Structure
de
la
base
de
données.
28
5.3 Résultats et Discussion
5.3.1 Les
Itemset
Fréquents
C’est
l’étape
la
plus
coûteuse
en
terme
de
temps
d’exécution
car,
le
nombre
d’itemsets
fréquents
dépend
exponentiellement
du
nombre
d’items
manipulés
(pour
n
items,
on
a
2n
itemsets
potentiellement
fréquents).
La
recherche
des
régularités
dans
les
bases
de
données
est
l’idée
principale
du
data
mining.
Ces
régularités
s’expriment
sous
différentes
formes.
Dans
l’analyse
de
la
production
de
la
ferme
PV,
l’extraction
des
itemsets
consiste
à
mettre
en
exergue
les
cooccurrences
entres
les
production
PV
pendant
des
heures
précise
c’est
à
dire
déterminer
les
productions
(les
items)
qui
sont
«
souvent
»
répété
à
des
heures
précise
simultanément.
On
parle
alors
d’itemsets
fréquents.
Un
itemset
est
dit
fréquent
si
son
support
est
supérieur
à
un
seuil
défini
à
l’avance,
paramètre
de
l’algorithme
de
recherche.
Dans
notre
exemple,
en
fixant
le
support
minimum
à
2
(ou
20%
en
relatif),
nous
observons
dans
le
tableau
suivant
un
extrait
des
itemsets
fréquents
(figure
27).
Figure
27,
Itemsets
fréquents.
Dans
le
Tableau
(figure
27)
En
fixant
le
support
minimal
à
20%,
on
découvre
les
épisodes
fréquents
comme
La
production
de
type
‘’a’’
à
16h
avec
un
support
de
92.5
%
et
l’itemsets
{a-‐15
et
a-‐16}
avec
un
support
à
52.5
%.
La
recherche
des
itemsets
fréquents
est
souvent
présentée
comme
un
préalable
à
l’extraction
des
règles
d’association
où
l’on
essaie,
en
sus,
de
mettre
en
évidence
des
relations
de
causalité.
29
5.3.2 Les
règles
d’associations
En
fouille
de
données,
les
règles
d'association
permettent
la
découverte
non
supervisée
de
tendances
implicatives
dans
les
données.
Plus
précisément,
une
règle
d’association
a
-‐>
b
signifie
que
la
plupart
des
enregistrements
qui
vérifient
la
prémisse
a
dans
la
base
de
données
vérifient
aussi
la
conclusion
b.
Chaque
règle
est
évaluée
par
deux
mesures
:
le
support
et
la
confiance.
Nous
avons
utilisé
l’algorithme
cspade
et
fixé
un
seuil
de
support
de
10%
et
un
seuil
de
confiance
de
40%.
L’algorithme
a
extrait
191
règles
d’association.
Un
extrait
des
ces
règles
est
présenté
dans
le
tableau
(figure
28).
Nous
retrouvons
dans
le
tableau
les
informations
usuelles
sur
les
règles
:
l’antécédent
de
la
règle
;
le
conséquent
de
la
règle
;
le
support,
la
confiance
et
le
lift.
Malheureusement,
cette
technique
pose
un
problème
majeur
:
elle
fournit
de
très
grandes
quantités
de
règles
qui
ne
peuvent
être
exploitées
sans
la
mise
en
place
d’un
post-‐traitement
efficace
et
adapté
à
la
fois
aux
préférences
du
décideur
et
à
la
structure
des
données
étudiées.
30
5.3.3 Interprétation
des
résultats
:
Cette
phase
consiste
en
la
visualisation
par
l'utilisateur
des
règles
d'association
extraites
du
contexte
et
leur
interprétation
afin
d'en
déduire
des
connaissances
utiles
pour
l'amélioration
de
l'activité
concernée.
Le
nombre
important
de
règles
d'association
extraites
en
général
impose
le
développement
d'outils
de
classification
des
règles,
de
sélection
par
l'utilisateur
de
sous-‐ensembles
de
règles,
et
de
leur
visualisation
sous
une
forme
intelligible.
§ Tri
des
règles
d’associations
selon
le
Lift
Les
résultats
sont
classés
selon
le
Lift.
L’interprétation
du
Lift
:
• Le
Lift
supérieur
à
1
indique
une
corrélation
positive
• Un
Lift
de
1
indique
une
corrélation
nulle
• Le
Lift
inférieur
à
1
indique
une
corrélation
négative
Figure
28,
Sous-‐ensemble
des
règles
d’association
selon
Lift.
31
Dans
notre
Tableau
la
règle
d’association
<{c-‐10},
{d-‐12},
{d-‐13}>
=>
<
{d-‐14}>
obtient
le
lift
le
plus
élevé
2.916667.
• 12,85
%
des
transactions
contiennent
les
quatre
productions
(Support).
• 75
%
des
transactions
avec
les
productions
(c
à
10h,
d
à
12h
et
d
à
13h)
contiennent
aussi
la
production
de
type
d
à
14h.
Le
nombre
de
règles
d’association
possibles
est
souvent
énorme.
Vouloir
étudier
toutes
les
associations
entre
des
produits
à
un
niveau
très
fin
de
granularité
amènerait
à
des
résultats
non
interprétables.
Pour
obtenir
des
résultats
cohérents
et
utiles,
il
faut
tout
d’abord
faire
une
liste
pertinente
des
règles
d’association
d’intérêt.
Si
le
support
est
petit,
il
faut
se
questionner
sur
l’intérêt
de
la
règle
d’association.
En
pratique,
on
peut
fixer
un
support
minimum
requis
et
exclure
les
règles
d’association
n’ayant
pas
le
support
requis.
L’objectif
d’étudier
la
production
de
l’énergie
est
de
mieux
comprendre
une
dynamique
du
comportement
de
cette
production
de
l’électricité.
En
d’autres
mots,
on
veut
découvrir
des
associations
non
connues
et
prendre
des
décisions
d’affaires
basées
sur
ces
nouvelles
connaissances.
Les
règles
qui
obtiennent
un
bon
support,
une
bonne
confiance
et
un
bon
lift
sont
potentiellement
utiles.
Règles
Support
Confiance
Lift
D’associations
d-‐11
=>
d-‐12
0.3714286
0.7878788
1.4513557
c-‐10
=>
d-‐11
0.2857143
0.6060606
1.2855831
c-‐10,
d11
=>
d-‐12
0.2285714
0.8000000
1.4736842
Figure
29,
Extrait
de
règles
d’association
utiles.
Dans
le
Tableau
(figure
29)
la
règle
d’association
<
{d-‐11}>
=>
<
{d-‐12}>
obtient
un
lift
de
1.4513557
qui
nous
renseigne
sur
la
corrélation
de
ces
deux
productions.
• 37,15
%
des
transactions
contiennent
les
deux
productions
(Support).
• 78,79
%
des
transactions
avec
la
production
(d
à
11h)
contiennent
aussi
la
production
d
à
12h.
32
§ Extrait
des
règles
d’association
selon
l’antécédent
de
la
règle
L’objectif
est
d’extraire
les
règles
d’association
en
précisant
l’antécédent
de
la
règle.
En
prenant
par
exemple
comme
antécédent
une
production
de
type
d
à
11h
on
aura
toutes
les
règles
avec
antécédent
comportant
une
production
de
type
d
à
11h
(figure
30).
Figure
30,
Extrait
de
règles
d’association
avec
d-‐11
en
antécédent.
Dans
le
Tableau
(figure
30)
la
règle
d’association
<
{c-‐10,
d-‐11}>
=>
<
{d-‐12}>
obtient
un
lift
de
1.4736842
qui
nous
renseigne
sur
la
corrélation
de
ces
deux
productions.
• 22,85
%
des
transactions
contiennent
les
trois
productions
(Support).
• 80
%
des
transactions
avec
la
production
(c
à
10h
et
d
à
11h)
contiennent
aussi
la
production
d
à
12h.
33
On
peut
extraire
de
la
même
manière
les
règles
d’association
en
précisant
le
conséquent
de
la
règle.
Figure
31,
Extrait
de
règles
d’association
en
précisant
le
conséquent.
Dans
le
Tableau
(figure
31)
la
règle
d’association
<
{c-‐10,
d-‐12
et
d-‐13}>
=>
<
{d-‐14}>
obtient
un
lift
de
2.9166
qui
nous
renseigne
sur
la
corrélation
de
ces
quatre
productions.
• 12,85
%
des
transactions
contiennent
les
trois
productions
(Support).
• 75
%
des
transactions
avec
la
production
(c
à
10h
et
d
à
11h)
contiennent
aussi
la
production
d
à
12h.
Cette
règle
nous
renseigne
sur
les
bonnes
conditions
qui
donnent
une
bonne
production
à
14h.
Pour
avoir
une
production
de
type
d
à
14h,
il
faut
avoir
une
production
c
à
11h,
une
production
d
à
12h
et
une
production
d
à
13h.
34
6. Conclusion
L’analyse
de
la
mesure
Total
DC
avait
pour
objectif
d’identifier
des
associations
non
connues
dans
le
cadre
des
prévisions
de
la
production
d'électricité
d'une
ferme
photovoltaïque.
De
fait,
à
partir
des
historiques
les
principaux
fichiers
permettant
de
déterminer
la
production
de
l’électricité
ont
pu
être
crées.
Les
analyses
statistiques
ont
pu
ensuite
être
effectuées
pour
expliquer
une
dynamique
du
comportement
de
la
production
de
l’électricité
sur
la
ferme
photovoltaïque.
Les
résultats
obtenus
permettent
à
l’entreprise
de
dégager
des
renseignement
qui
leurs
permettrait
d’agir
et
d’améliorer
la
production
et
la
distribution
de
l’électricité
dans
le
cadre
du
projet
micro-‐réseau
Genergies.
Nous
avons
utilisé
une
autre
méthode
dite
de
«
statistiques
supervisées
»
qui
est
l’arbre
de
décision,
cette
méthode
présente
l’avantage
de
proposer
des
modèles
graphiques
hiérarchisés
intelligibles.
Ces
arbres
permettent
de
distinguer
des
groupes
d’individus
semblables
et
des
règles
de
décisions
simples.
De
plus,
aucune
hypothèse
préalable
sur
les
données
n’est
nécessaire.
Les
résultats
obtenus
avec
la
méthode
arbre
de
décision
n’étaient
pas
convaincants
en
terme
d’erreurs
(autour
de
50
%
d’erreur),
pour
cela
on
a
choisi
de
ne
pas
les
exposés
et
de
réfléchir
d’avantage
a
amélioré
ces
taux
d’erreurs.
Ce
stage
effectué
au
sein
de
l’université
d’Orléans
en
relation
avec
l’entreprise
Genergies
a
été
très
enrichissant
et
très
formateur.
J’ai
pu
en
effet
mettre
en
pratique
les
méthodes
statistiques
étudiées
au
cours
de
ma
formation
à
l’université
mais
également
développer
mes
compétences
dans
le
logiciel
R.
Enfin,
j’ai
particulièrement
apprécié
les
conseils
et
la
confiance
qui
m’ont
été
accordés
par
l’ensemble
de
l’équipe
durant
ces
quatre
mois
de
stage.
35
Référence
http://fr.wikipedia.org/
http://www.photovoltaique.info/-‐Photovoltaique-‐sur-‐batiment-‐.html
ZAKI
M.
(2001).
”SPADE
:
an
efficient
algorithm
for
Mining
Frequent
Sequences“,
Machine
Learning,
Vol.
42,2001,
p31‐60.
Kluwer
Academic
Publishers.
http://www.insee.fr/fr/themes/document.asp?ref_id=16930&page=etudes_detaillees/drire/drire_36.htm
http://genergies.fr/
http://theses.insa-‐lyon.fr/publication/2007ISAL0039/these.pdf
http://www.info.univ-‐angers.fr/~gh/wstat/discr.php
http://www-‐poleia.lip6.fr/~amann/BDMD-‐M2/02-‐reglesassoc.pdf
https://conferences.telecom-‐bretagne.eu/data/qcd2008/marinica_etal_QDC_2008.pdf
36
BILAN
PERSONNEL
Ce
stage
s'est
révélé
riche
en
enseignement
en
ce
qui
concerne
les
connaissances
et
les
compétences
apportées.
Mon
stage
chez
Genergies
fut
ma
deuxième
expérience
professionnelle
dans
le
domaine
des
statistiques,
ce
qui
m'a
permis
de
voir
en
quoi
peut
consister
le
métier
de
statisticien.
Durant
ces
quatre
mois
de
stage,
j'ai
eu
l'opportunité
de
travailler
sur
un
projet
très
enrichissant.
Outre
le
fait
d'avoir
mis
en
oeuvre
mes
connaissances
théoriques
acquises
durant
mes
études,
je
me
suis
enrichi
sur
le
plan
humain
en
m'intégrant
à
des
personnes
très
sympathiques,
qui
ont
su
me
faire
partager
leurs
connaissances
et
leurs
expériences.
Cette
expérience
professionnelle
m'a
permis
d'enrichir
mes
connaissances
dans
les
domaines
de
l'informatique
et
des
statistiques.
J'ai
approfondi
l'utilisation
des
logiciels
statistiques
(R
et
Excel),
ce
qui
est
une
chance
pour
la
suite
de
mon
parcours
professionnel.
Tout
ceci
m'encourage
à
poursuivre
dans
le
domaine
des
statistiques.
Ce
stage
a
été
une
ouverture
très
intéressante
sur
le
monde
professionnel.
37
Annexes
Séquences fréquentes
Séquence
support
1
<{a-‐10}>
0.1000000
2
<{a-‐13}>
0.1000000
3
<{a-‐14}>
0.1571429
4
<{a-‐15}>
0.4000000
5
<{a-‐16}>
0.8571429
6
<{b-‐10}>
0.3285714
7
<{b-‐11}>
0.1571429
8
<{b-‐12}>
0.2000000
9
<{b-‐13}>
0.2142857
10
<{b-‐14}>
0.3142857
11
<{b-‐15}>
0.3857143
12
<{b-‐16}>
0.1428571
13
<{c-‐10}>
0.4714286
14
<{c-‐11}>
0.3142857
15
<{c-‐12}>
0.1714286
16
<{c-‐13}>
0.3142857
17
<{c-‐14}>
0.2714286
18
<{c-‐15}>
0.2000000
19
<{d-‐10}>
0.1000000
20
<{d-‐11}>
0.4714286
21
<{d-‐12}>
0.5428571
22
<{d-‐13}>
0.3714286
23
<{d-‐14}>
0.2571429
24
<{c-‐10},{d-‐14}>
0.1428571
25
<{d-‐11},{d-‐14}>
0.1714286
26
<{d-‐12},{d-‐14}>
0.2142857
27
<{d-‐13},{d-‐14}>
0.1428571
28
<{d-‐12},{d-‐13},{d-‐14}>
0.1428571
29
<{d-‐11},{d-‐13},{d-‐14}>
0.1000000
30
<{c-‐10},{d-‐13},{d-‐14}>
0.1285714
31
<{d-‐11},{d-‐12},{d-‐13},{d-‐14}>
0.1000000
32
<{c-‐10},{d-‐12},{d-‐13},{d-‐14}>
0.1285714
33
<{d-‐11},{d-‐12},{d-‐14}>
0.1571429
34
<{c-‐10},{d-‐12},{d-‐14}>
0.1428571
35
<{c-‐10},{d-‐11},{d-‐12},{d-‐14}>
0.1000000
36
<{c-‐10},{d-‐11},{d-‐14}>
0.1000000
37
<{c-‐10},{d-‐13}>
0.2571429
38
38
<{c-‐11},{d-‐13}>
0.1428571
39
<{d-‐11},{d-‐13}>
0.2142857
40
<{d-‐12},{d-‐13}>
0.2714286
41
<{d-‐11},{d-‐12},{d-‐13}>
0.2000000
42
<{c-‐10},{d-‐12},{d-‐13}>
0.1714286
43
<{c-‐10},{d-‐11},{d-‐12},{d-‐13}>
0.1285714
44
<{c-‐10},{d-‐11},{d-‐13}>
0.1428571
45
<{c-‐10},{c-‐11},{d-‐13}>
0.1142857
46
<{b-‐10},{d-‐12}>
0.1000000
47
<{c-‐10},{d-‐12}>
0.3000000
48
<{c-‐11},{d-‐12}>
0.1428571
49
<{d-‐10},{d-‐12}>
0.1000000
50
<{d-‐11},{d-‐12}>
0.3714286
51
<{c-‐10},{d-‐11},{d-‐12}>
0.2285714
52
<{b-‐10},{d-‐11}>
0.1000000
53
<{c-‐10},{d-‐11}>
0.2857143
54
<{c-‐10},{c-‐15}>
0.1285714
55
<{d-‐11},{c-‐15}>
0.1142857
56
<{d-‐12},{c-‐15}>
0.1571429
57
<{d-‐13},{c-‐15}>
0.1285714
58
<{d-‐14},{c-‐15}>
0.1142857
59
<{d-‐12},{d-‐14},{c-‐15}>
0.1000000
60
<{d-‐12},{d-‐13},{c-‐15}>
0.1142857
61
<{c-‐10},{d-‐13},{c-‐15}>
0.1142857
62
<{c-‐10},{d-‐12},{d-‐13},{c-‐15}>
0.1000000
63
<{d-‐11},{d-‐12},{c-‐15}>
0.1000000
64
<{c-‐10},{d-‐12},{c-‐15}>
0.1142857
65
<{b-‐10},{c-‐14}>
0.1000000
66
<{c-‐10},{c-‐14}>
0.1142857
67
<{c-‐11},{c-‐14}>
0.1285714
68
<{c-‐12},{c-‐14}>
0.1142857
69
<{c-‐13},{c-‐14}>
0.1142857
70
<{d-‐12},{c-‐14}>
0.1000000
71
<{d-‐13},{c-‐14}>
0.1428571
72
<{c-‐11},{d-‐13},{c-‐14}>
0.1000000
73
<{b-‐10},{c-‐13}>
0.1428571
74
<{c-‐10},{c-‐13}>
0.1428571
75
<{d-‐11},{c-‐13}>
0.1714286
76
<{d-‐12},{c-‐13}>
0.1571429
77
<{d-‐11},{d-‐12},{c-‐13}>
0.1142857
78
<{c-‐10},{d-‐11},{c-‐13}>
0.1000000
79
<{c-‐10},{c-‐12}>
0.1000000
80
<{b-‐10},{c-‐11}>
0.1285714
81
<{c-‐10},{c-‐11}>
0.1571429
39
82
<{b-‐10},{b-‐15}>
0.1571429
83
<{c-‐10},{b-‐15}>
0.1714286
84
<{c-‐11},{b-‐15}>
0.1714286
85
<{c-‐12},{b-‐15}>
0.1142857
86
<{c-‐13},{b-‐15}>
0.1285714
87
<{c-‐14},{b-‐15}>
0.1571429
88
<{d-‐11},{b-‐15}>
0.1428571
89
<{d-‐12},{b-‐15}>
0.2000000
90
<{d-‐13},{b-‐15}>
0.1714286
91
<{d-‐14},{b-‐15}>
0.1142857
92
<{d-‐12},{d-‐14},{b-‐15}>
0.1000000
93
<{c-‐11},{d-‐13},{b-‐15}>
0.1000000
94
<{c-‐10},{d-‐13},{b-‐15}>
0.1142857
95
<{d-‐11},{d-‐12},{b-‐15}>
0.1142857
96
<{c-‐11},{c-‐14},{b-‐15}>
0.1000000
97
<{b-‐13},{b-‐14}>
0.1428571
98
<{c-‐10},{b-‐14}>
0.1571429
99
<{d-‐11},{b-‐14}>
0.1571429
100
<{d-‐12},{b-‐14}>
0.1857143
101
<{d-‐11},{d-‐12},{b-‐14}>
0.1142857
102
<{c-‐10},{d-‐12},{b-‐14}>
0.1000000
103
<{c-‐10},{d-‐11},{b-‐14}>
0.1000000
104
<{b-‐10},{b-‐13}>
0.1142857
105
<{b-‐10},{b-‐12}>
0.1285714
106
<{a-‐13},{a-‐16}>
0.1000000
107
<{a-‐14},{a-‐16}>
0.1285714
108
<{a-‐15},{a-‐16}>
0.3857143
109
<{b-‐10},{a-‐16}>
0.2857143
110
<{b-‐11},{a-‐16}>
0.1571429
111
<{b-‐12},{a-‐16}>
0.1714286
112
<{b-‐13},{a-‐16}>
0.2000000
113
<{b-‐14},{a-‐16}>
0.3142857
114
<{b-‐15},{a-‐16}>
0.3285714
115
<{c-‐10},{a-‐16}>
0.3857143
116
<{c-‐11},{a-‐16}>
0.2571429
117
<{c-‐12},{a-‐16}>
0.1428571
118
<{c-‐13},{a-‐16}>
0.2571429
119
<{c-‐14},{a-‐16}>
0.2285714
120
<{c-‐15},{a-‐16}>
0.1428571
121
<{d-‐10},{a-‐16}>
0.1000000
122
<{d-‐11},{a-‐16}>
0.3857143
123
<{d-‐12},{a-‐16}>
0.4571429
124
<{d-‐13},{a-‐16}>
0.3000000
40
125
<{d-‐14},{a-‐16}>
0.1857143
126
<{d-‐13},{d-‐14},{a-‐16}>
0.1142857
127
<{d-‐12},{d-‐14},{a-‐16}>
0.1571429
128
<{d-‐11},{d-‐14},{a-‐16}>
0.1285714
129
<{c-‐10},{d-‐14},{a-‐16}>
0.1000000
130
<{d-‐12},{d-‐13},{d-‐14},{a-‐16}>
0.1142857
131
<{c-‐10},{d-‐13},{d-‐14},{a-‐16}>
0.1000000
132
<{c-‐10},{d-‐12},{d-‐13},{d-‐14},{a-‐16}>
0.1000000
133
<{d-‐11},{d-‐12},{d-‐14},{a-‐16}>
0.1142857
134
<{c-‐10},{d-‐12},{d-‐14},{a-‐16}>
0.1000000
135
<{d-‐12},{d-‐13},{a-‐16}>
0.2285714
136
<{d-‐11},{d-‐13},{a-‐16}>
0.1714286
137
<{d-‐13},{c-‐14},{a-‐16}>
0.1142857
138
<{c-‐11},{d-‐13},{a-‐16}>
0.1142857
139
<{c-‐10},{d-‐13},{a-‐16}>
0.2000000
140
<{d-‐13},{b-‐15},{a-‐16}>
0.1428571
141
<{d-‐11},{d-‐12},{d-‐13},{a-‐16}>
0.1714286
142
<{c-‐10},{d-‐12},{d-‐13},{a-‐16}>
0.1428571
143
<{c-‐10},{d-‐11},{d-‐12},{d-‐13},{a-‐16}>
0.1000000
144
<{c-‐10},{d-‐11},{d-‐13},{a-‐16}>
0.1000000
145
<{c-‐10},{c-‐11},{d-‐13},{a-‐16}>
0.1000000
146
<{d-‐11},{d-‐12},{a-‐16}>
0.3142857
147
<{d-‐10},{d-‐12},{a-‐16}>
0.1000000
148
<{d-‐12},{c-‐15},{a-‐16}>
0.1142857
149
<{d-‐12},{c-‐13},{a-‐16}>
0.1142857
150
<{c-‐11},{d-‐12},{a-‐16}>
0.1142857
151
<{c-‐10},{d-‐12},{a-‐16}>
0.2428571
152
<{d-‐12},{b-‐15},{a-‐16}>
0.1857143
153
<{d-‐12},{b-‐14},{a-‐16}>
0.1857143
154
<{d-‐12},{a-‐15},{a-‐16}>
0.1571429
155
<{c-‐10},{d-‐11},{d-‐12},{a-‐16}>
0.1714286
156
<{d-‐11},{c-‐13},{a-‐16}>
0.1285714
157
<{c-‐10},{d-‐11},{a-‐16}>
0.2142857
158
<{d-‐11},{b-‐15},{a-‐16}>
0.1142857
159
<{d-‐11},{b-‐14},{a-‐16}>
0.1571429
160
<{d-‐11},{a-‐15},{a-‐16}>
0.2000000
161
<{c-‐10},{c-‐15},{a-‐16}>
0.1000000
162
<{c-‐13},{c-‐14},{a-‐16}>
0.1000000
163
<{c-‐12},{c-‐14},{a-‐16}>
0.1000000
164
<{c-‐11},{c-‐14},{a-‐16}>
0.1000000
165
<{c-‐10},{c-‐14},{a-‐16}>
0.1000000
166
<{c-‐14},{b-‐15},{a-‐16}>
0.1428571
167
<{c-‐10},{c-‐13},{a-‐16}>
0.1142857
41
168
<{c-‐13},{b-‐15},{a-‐16}>
0.1142857
169
<{b-‐10},{c-‐13},{a-‐16}>
0.1142857
170
<{c-‐13},{a-‐15},{a-‐16}>
0.1285714
171
<{c-‐10},{c-‐12},{a-‐16}>
0.1000000
172
<{c-‐12},{b-‐15},{a-‐16}>
0.1000000
173
<{c-‐10},{c-‐11},{a-‐16}>
0.1428571
174
<{c-‐11},{b-‐15},{a-‐16}>
0.1428571
175
<{b-‐10},{c-‐11},{a-‐16}>
0.1000000
176
<{c-‐10},{b-‐15},{a-‐16}>
0.1285714
177
<{c-‐10},{b-‐14},{a-‐16}>
0.1571429
178
<{c-‐10},{a-‐15},{a-‐16}>
0.1571429
179
<{b-‐10},{b-‐15},{a-‐16}>
0.1428571
180
<{d-‐11},{d-‐12},{b-‐15},{a-‐16}>
0.1000000
181
<{b-‐13},{b-‐14},{a-‐16}>
0.1428571
182
<{b-‐14},{a-‐15},{a-‐16}>
0.2000000
183
<{d-‐11},{d-‐12},{b-‐14},{a-‐16}>
0.1142857
184
<{c-‐10},{d-‐12},{b-‐14},{a-‐16}>
0.1000000
185
<{c-‐10},{d-‐11},{b-‐14},{a-‐16}>
0.1000000
186
<{b-‐10},{b-‐13},{a-‐16}>
0.1000000
187
<{b-‐13},{a-‐15},{a-‐16}>
0.1142857
188
<{b-‐10},{b-‐12},{a-‐16}>
0.1285714
189
<{b-‐12},{a-‐15},{a-‐16}>
0.1142857
190
<{b-‐10},{a-‐15},{a-‐16}>
0.1142857
191
<{a-‐14},{a-‐15},{a-‐16}>
0.1142857
192
<{d-‐11},{d-‐12},{a-‐15},{a-‐16}>
0.1428571
193
<{c-‐10},{d-‐12},{a-‐15},{a-‐16}>
0.1000000
194
<{d-‐12},{b-‐14},{a-‐15},{a-‐16}>
0.1000000
195
<{c-‐10},{d-‐11},{a-‐15},{a-‐16}>
0.1142857
196
<{d-‐11},{b-‐14},{a-‐15},{a-‐16}>
0.1285714
197
<{c-‐10},{b-‐14},{a-‐15},{a-‐16}>
0.1142857
198
<{a-‐14},{a-‐15}>
0.1285714
199
<{b-‐10},{a-‐15}>
0.1142857
200
<{b-‐12},{a-‐15}>
0.1142857
201
<{b-‐13},{a-‐15}>
0.1142857
202
<{b-‐14},{a-‐15}>
0.2000000
203
<{c-‐10},{a-‐15}>
0.1714286
204
<{c-‐13},{a-‐15}>
0.1428571
205
<{d-‐11},{a-‐15}>
0.2142857
206
<{d-‐12},{a-‐15}>
0.1714286
207
<{d-‐11},{d-‐12},{a-‐15}>
0.1571429
208
<{c-‐10},{d-‐12},{a-‐15}>
0.1142857
209
<{d-‐12},{b-‐14},{a-‐15}>
0.1000000
210
<{c-‐10},{d-‐11},{d-‐12},{a-‐15}>
0.1000000
42
211
<{c-‐10},{d-‐11},{a-‐15}>
0.1285714
212
<{d-‐11},{b-‐14},{a-‐15}>
0.1285714
213
<{c-‐10},{c-‐13},{a-‐15}>
0.1000000
214
<{c-‐10},{b-‐14},{a-‐15}>
0.1142857
Extraction
des
191
règles
d’associations
rule
support
confidence
lift
5
<{d-‐12},{d-‐13}>
=>
<{d-‐14}>
0.1428571
0.5263158
2.0467836
6
<{d-‐11},{d-‐13}>
=>
<{d-‐14}>
0.1000000
0.4666667
1.8148148
7
<{c-‐10},{d-‐13}>
=>
<{d-‐14}>
0.1285714
0.5000000
1.9444444
8
<{d-‐11},{d-‐12},{d-‐13}>
=>
<{d-‐14}>
0.1000000
0.5000000
1.9444444
9
<{c-‐10},{d-‐12},{d-‐13}>
=>
<{d-‐14}>
0.1285714
0.7500000
2.9166667
10
<{d-‐11},{d-‐12}>
=>
<{d-‐14}>
0.1571429
0.4230769
1.6452991
11
<{c-‐10},{d-‐12}>
=>
<{d-‐14}>
0.1428571
0.4761905
1.8518519
12
<{c-‐10},{d-‐11},{d-‐12}>
=>
<{d-‐14}>
0.1000000
0.4375000
1.7013889
14
<{c-‐10}>
=>
<{d-‐13}>
0.2571429
0.5454545
1.4685315
15
<{c-‐11}>
=>
<{d-‐13}>
0.1428571
0.4545455
1.2237762
16
<{d-‐11}>
=>
<{d-‐13}>
0.2142857
0.4545455
1.2237762
17
<{d-‐12}>
=>
<{d-‐13}>
0.2714286
0.5000000
1.3461538
18
<{d-‐11},{d-‐12}>
=>
<{d-‐13}>
0.2000000
0.5384615
1.4497041
19
<{c-‐10},{d-‐12}>
=>
<{d-‐13}>
0.1714286
0.5714286
1.5384615
20
<{c-‐10},{d-‐11},{d-‐12}>
=>
<{d-‐13}>
0.1285714
0.5625000
1.5144231
21
<{c-‐10},{d-‐11}>
=>
<{d-‐13}>
0.1428571
0.5000000
1.3461538
22
<{c-‐10},{c-‐11}>
=>
<{d-‐13}>
0.1142857
0.7272727
1.9580420
24
<{c-‐10}>
=>
<{d-‐12}>
0.3000000
0.6363636
1.1722488
25
<{c-‐11}>
=>
<{d-‐12}>
0.1428571
0.4545455
0.8373206
26
<{d-‐10}>
=>
<{d-‐12}>
0.1000000
1.0000000
1.8421053
27
<{d-‐11}>
=>
<{d-‐12}>
0.3714286
0.7878788
1.4513557
28
<{c-‐10},{d-‐11}>
=>
<{d-‐12}>
0.2285714
0.8000000
1.4736842
30
<{c-‐10}>
=>
<{d-‐11}>
0.2857143
0.6060606
1.2855831
35
<{d-‐14}>
=>
<{c-‐15}>
0.1142857
0.4444444
2.2222222
36
<{d-‐12},{d-‐14}>
=>
<{c-‐15}>
0.1000000
0.4666667
2.3333333
37
<{d-‐12},{d-‐13}>
=>
<{c-‐15}>
0.1142857
0.4210526
2.1052632
38
<{c-‐10},{d-‐13}>
=>
<{c-‐15}>
0.1142857
0.4444444
2.2222222
39
<{c-‐10},{d-‐12},{d-‐13}>
=>
<{c-‐15}>
0.1000000
0.5833333
2.9166667
44
<{c-‐11}>
=>
<{c-‐14}>
0.1285714
0.4090909
1.5071770
45
<{c-‐12}>
=>
<{c-‐14}>
0.1142857
0.6666667
2.4561404
49
<{c-‐11},{d-‐13}>
=>
<{c-‐14}>
0.1000000
0.7000000
2.5789474
43
50
<{b-‐10}>
=>
<{c-‐13}>
0.1428571
0.4347826
1.3833992
59
<{b-‐10}>
=>
<{b-‐15}>
0.1571429
0.4782609
1.2399356
61
<{c-‐11}>
=>
<{b-‐15}>
0.1714286
0.5454545
1.4141414
62
<{c-‐12}>
=>
<{b-‐15}>
0.1142857
0.6666667
1.7283951
63
<{c-‐13}>
=>
<{b-‐15}>
0.1285714
0.4090909
1.0606061
64
<{c-‐14}>
=>
<{b-‐15}>
0.1571429
0.5789474
1.5009747
67
<{d-‐13}>
=>
<{b-‐15}>
0.1714286
0.4615385
1.1965812
68
<{d-‐14}>
=>
<{b-‐15}>
0.1142857
0.4444444
1.1522634
69
<{d-‐12},{d-‐14}>
=>
<{b-‐15}>
0.1000000
0.4666667
1.2098765
70
<{c-‐11},{d-‐13}>
=>
<{b-‐15}>
0.1000000
0.7000000
1.8148148
71
<{c-‐10},{d-‐13}>
=>
<{b-‐15}>
0.1142857
0.4444444
1.1522634
73
<{c-‐11},{c-‐14}>
=>
<{b-‐15}>
0.1000000
0.7777778
2.0164609
74
<{b-‐13}>
=>
<{b-‐14}>
0.1428571
0.6666667
2.1212121
83
<{a-‐13}>
=>
<{a-‐16}>
0.1000000
1.0000000
1.1666667
84
<{a-‐14}>
=>
<{a-‐16}>
0.1285714
0.8181818
0.9545455
85
<{a-‐15}>
=>
<{a-‐16}>
0.3857143
0.9642857
1.1250000
86
<{b-‐10}>
=>
<{a-‐16}>
0.2857143
0.8695652
1.0144928
87
<{b-‐11}>
=>
<{a-‐16}>
0.1571429
1.0000000
1.1666667
88
<{b-‐12}>
=>
<{a-‐16}>
0.1714286
0.8571429
1.0000000
89
<{b-‐13}>
=>
<{a-‐16}>
0.2000000
0.9333333
1.0888889
90
<{b-‐14}>
=>
<{a-‐16}>
0.3142857
1.0000000
1.1666667
91
<{b-‐15}>
=>
<{a-‐16}>
0.3285714
0.8518519
0.9938272
92
<{c-‐10}>
=>
<{a-‐16}>
0.3857143
0.8181818
0.9545455
93
<{c-‐11}>
=>
<{a-‐16}>
0.2571429
0.8181818
0.9545455
94
<{c-‐12}>
=>
<{a-‐16}>
0.1428571
0.8333333
0.9722222
95
<{c-‐13}>
=>
<{a-‐16}>
0.2571429
0.8181818
0.9545455
96
<{c-‐14}>
=>
<{a-‐16}>
0.2285714
0.8421053
0.9824561
97
<{c-‐15}>
=>
<{a-‐16}>
0.1428571
0.7142857
0.8333333
98
<{d-‐10}>
=>
<{a-‐16}>
0.1000000
1.0000000
1.1666667
99
<{d-‐11}>
=>
<{a-‐16}>
0.3857143
0.8181818
0.9545455
100
<{d-‐12}>
=>
<{a-‐16}>
0.4571429
0.8421053
0.9824561
101
<{d-‐13}>
=>
<{a-‐16}>
0.3000000
0.8076923
0.9423077
102
<{d-‐14}>
=>
<{a-‐16}>
0.1857143
0.7222222
0.8425926
103
<{d-‐13},{d-‐14}>
=>
<{a-‐16}>
0.1142857
0.8000000
0.9333333
104
<{d-‐12},{d-‐14}>
=>
<{a-‐16}>
0.1571429
0.7333333
0.8555556
105
<{d-‐11},{d-‐14}>
=>
<{a-‐16}>
0.1285714
0.7500000
0.8750000
106
<{c-‐10},{d-‐14}>
=>
<{a-‐16}>
0.1000000
0.7000000
0.8166667
107
<{d-‐12},{d-‐13},{d-‐14}>
=>
<{a-‐16}>
0.1142857
0.8000000
0.9333333
108
<{c-‐10},{d-‐13},{d-‐14}>
=>
<{a-‐16}>
0.1000000
0.7777778
0.9074074
109
<{c-‐10},{d-‐12},{d-‐13},{d-‐14}>
=>
<{a-‐16}>
0.1000000
0.7777778
0.9074074
110
<{d-‐11},{d-‐12},{d-‐14}>
=>
<{a-‐16}>
0.1142857
0.7272727
0.8484848
111
<{c-‐10},{d-‐12},{d-‐14}>
=>
<{a-‐16}>
0.1000000
0.7000000
0.8166667
112
<{d-‐12},{d-‐13}>
=>
<{a-‐16}>
0.2285714
0.8421053
0.9824561
44
113
<{d-‐11},{d-‐13}>
=>
<{a-‐16}>
0.1714286
0.8000000
0.9333333
114
<{d-‐13},{c-‐14}>
=>
<{a-‐16}>
0.1142857
0.8000000
0.9333333
115
<{c-‐11},{d-‐13}>
=>
<{a-‐16}>
0.1142857
0.8000000
0.9333333
116
<{c-‐10},{d-‐13}>
=>
<{a-‐16}>
0.2000000
0.7777778
0.9074074
117
<{d-‐13},{b-‐15}>
=>
<{a-‐16}>
0.1428571
0.8333333
0.9722222
118
<{d-‐11},{d-‐12},{d-‐13}>
=>
<{a-‐16}>
0.1714286
0.8571429
1.0000000
119
<{c-‐10},{d-‐12},{d-‐13}>
=>
<{a-‐16}>
0.1428571
0.8333333
0.9722222
120
<{c-‐10},{d-‐11},{d-‐12},{d-‐13}>
=>
<{a-‐16}>
0.1000000
0.7777778
0.9074074
121
<{c-‐10},{d-‐11},{d-‐13}>
=>
<{a-‐16}>
0.1000000
0.7000000
0.8166667
122
<{c-‐10},{c-‐11},{d-‐13}>
=>
<{a-‐16}>
0.1000000
0.8750000
1.0208333
123
<{d-‐11},{d-‐12}>
=>
<{a-‐16}>
0.3142857
0.8461538
0.9871795
124
<{d-‐10},{d-‐12}>
=>
<{a-‐16}>
0.1000000
1.0000000
1.1666667
125
<{d-‐12},{c-‐15}>
=>
<{a-‐16}>
0.1142857
0.7272727
0.8484848
126
<{d-‐12},{c-‐13}>
=>
<{a-‐16}>
0.1142857
0.7272727
0.8484848
127
<{c-‐11},{d-‐12}>
=>
<{a-‐16}>
0.1142857
0.8000000
0.9333333
128
<{c-‐10},{d-‐12}>
=>
<{a-‐16}>
0.2428571
0.8095238
0.9444444
129
<{d-‐12},{b-‐15}>
=>
<{a-‐16}>
0.1857143
0.9285714
1.0833333
130
<{d-‐12},{b-‐14}>
=>
<{a-‐16}>
0.1857143
1.0000000
1.1666667
131
<{d-‐12},{a-‐15}>
=>
<{a-‐16}>
0.1571429
0.9166667
1.0694444
132
<{c-‐10},{d-‐11},{d-‐12}>
=>
<{a-‐16}>
0.1714286
0.7500000
0.8750000
133
<{d-‐11},{c-‐13}>
=>
<{a-‐16}>
0.1285714
0.7500000
0.8750000
134
<{c-‐10},{d-‐11}>
=>
<{a-‐16}>
0.2142857
0.7500000
0.8750000
135
<{d-‐11},{b-‐15}>
=>
<{a-‐16}>
0.1142857
0.8000000
0.9333333
136
<{d-‐11},{b-‐14}>
=>
<{a-‐16}>
0.1571429
1.0000000
1.1666667
137
<{d-‐11},{a-‐15}>
=>
<{a-‐16}>
0.2000000
0.9333333
1.0888889
138
<{c-‐10},{c-‐15}>
=>
<{a-‐16}>
0.1000000
0.7777778
0.9074074
139
<{c-‐13},{c-‐14}>
=>
<{a-‐16}>
0.1000000
0.8750000
1.0208333
140
<{c-‐12},{c-‐14}>
=>
<{a-‐16}>
0.1000000
0.8750000
1.0208333
141
<{c-‐11},{c-‐14}>
=>
<{a-‐16}>
0.1000000
0.7777778
0.9074074
142
<{c-‐10},{c-‐14}>
=>
<{a-‐16}>
0.1000000
0.8750000
1.0208333
143
<{c-‐14},{b-‐15}>
=>
<{a-‐16}>
0.1428571
0.9090909
1.0606061
144
<{c-‐10},{c-‐13}>
=>
<{a-‐16}>
0.1142857
0.8000000
0.9333333
145
<{c-‐13},{b-‐15}>
=>
<{a-‐16}>
0.1142857
0.8888889
1.0370370
146
<{b-‐10},{c-‐13}>
=>
<{a-‐16}>
0.1142857
0.8000000
0.9333333
147
<{c-‐13},{a-‐15}>
=>
<{a-‐16}>
0.1285714
0.9000000
1.0500000
148
<{c-‐10},{c-‐12}>
=>
<{a-‐16}>
0.1000000
1.0000000
1.1666667
149
<{c-‐12},{b-‐15}>
=>
<{a-‐16}>
0.1000000
0.8750000
1.0208333
150
<{c-‐10},{c-‐11}>
=>
<{a-‐16}>
0.1428571
0.9090909
1.0606061
151
<{c-‐11},{b-‐15}>
=>
<{a-‐16}>
0.1428571
0.8333333
0.9722222
152
<{b-‐10},{c-‐11}>
=>
<{a-‐16}>
0.1000000
0.7777778
0.9074074
153
<{c-‐10},{b-‐15}>
=>
<{a-‐16}>
0.1285714
0.7500000
0.8750000
154
<{c-‐10},{b-‐14}>
=>
<{a-‐16}>
0.1571429
1.0000000
1.1666667
155
<{c-‐10},{a-‐15}>
=>
<{a-‐16}>
0.1571429
0.9166667
1.0694444
45
156
<{b-‐10},{b-‐15}>
=>
<{a-‐16}>
0.1428571
0.9090909
1.0606061
157
<{d-‐11},{d-‐12},{b-‐15}>
=>
<{a-‐16}>
0.1000000
0.8750000
1.0208333
158
<{b-‐13},{b-‐14}>
=>
<{a-‐16}>
0.1428571
1.0000000
1.1666667
159
<{b-‐14},{a-‐15}>
=>
<{a-‐16}>
0.2000000
1.0000000
1.1666667
160
<{d-‐11},{d-‐12},{b-‐14}>
=>
<{a-‐16}>
0.1142857
1.0000000
1.1666667
161
<{c-‐10},{d-‐12},{b-‐14}>
=>
<{a-‐16}>
0.1000000
1.0000000
1.1666667
162
<{c-‐10},{d-‐11},{b-‐14}>
=>
<{a-‐16}>
0.1000000
1.0000000
1.1666667
163
<{b-‐10},{b-‐13}>
=>
<{a-‐16}>
0.1000000
0.8750000
1.0208333
164
<{b-‐13},{a-‐15}>
=>
<{a-‐16}>
0.1142857
1.0000000
1.1666667
165
<{b-‐10},{b-‐12}>
=>
<{a-‐16}>
0.1285714
1.0000000
1.1666667
166
<{b-‐12},{a-‐15}>
=>
<{a-‐16}>
0.1142857
1.0000000
1.1666667
167
<{b-‐10},{a-‐15}>
=>
<{a-‐16}>
0.1142857
1.0000000
1.1666667
168
<{a-‐14},{a-‐15}>
=>
<{a-‐16}>
0.1142857
0.8888889
1.0370370
169
<{d-‐11},{d-‐12},{a-‐15}>
=>
<{a-‐16}>
0.1428571
0.9090909
1.0606061
170
<{c-‐10},{d-‐12},{a-‐15}>
=>
<{a-‐16}>
0.1000000
0.8750000
1.0208333
171
<{d-‐12},{b-‐14},{a-‐15}>
=>
<{a-‐16}>
0.1000000
1.0000000
1.1666667
172
<{c-‐10},{d-‐11},{a-‐15}>
=>
<{a-‐16}>
0.1142857
0.8888889
1.0370370
173
<{d-‐11},{b-‐14},{a-‐15}>
=>
<{a-‐16}>
0.1285714
1.0000000
1.1666667
174
<{c-‐10},{b-‐14},{a-‐15}>
=>
<{a-‐16}>
0.1142857
1.0000000
1.1666667
175
<{a-‐14}>
=>
<{a-‐15}>
0.1285714
0.8181818
2.0454545
177
<{b-‐12}>
=>
<{a-‐15}>
0.1142857
0.5714286
1.4285714
178
<{b-‐13}>
=>
<{a-‐15}>
0.1142857
0.5333333
1.3333333
179
<{b-‐14}>
=>
<{a-‐15}>
0.2000000
0.6363636
1.5909091
181
<{c-‐13}>
=>
<{a-‐15}>
0.1428571
0.4545455
1.1363636
182
<{d-‐11}>
=>
<{a-‐15}>
0.2142857
0.4545455
1.1363636
184
<{d-‐11},{d-‐12}>
=>
<{a-‐15}>
0.1571429
0.4230769
1.0576923
186
<{d-‐12},{b-‐14}>
=>
<{a-‐15}>
0.1000000
0.5384615
1.3461538
187
<{c-‐10},{d-‐11},{d-‐12}>
=>
<{a-‐15}>
0.1000000
0.4375000
1.0937500
188
<{c-‐10},{d-‐11}>
=>
<{a-‐15}>
0.1285714
0.4500000
1.1250000
189
<{d-‐11},{b-‐14}>
=>
<{a-‐15}>
0.1285714
0.8181818
2.0454545
190
<{c-‐10},{c-‐13}>
=>
<{a-‐15}>
0.1000000
0.7000000
1.7500000
191
<{c-‐10},{b-‐14}>
=>
<{a-‐15}>
0.1142857
0.7272727
1.8181818
46
47