Ouali

OUALI Rachid
Master 2

Statistiques et Probabilités Approfondies

Data mining temporel et prédiction de PV

Dans les SMART GRIDS

Société GENERGIES Le Laboratoire de Recherche
Une filiale du En Géosciences et Energies
Groupe Blandin université des Antilles et Guyane

Maître de stage : SOUBDHAN Ted
Tuteur de stage : EMILION Richard Année 2013-‐2014
1

Avant-‐propos

Ce stage a été réalisé à Université d’Orléans du 12 Mai au 31 Septembre. Il avait pour but de réaliser une
analyse statistique et de mieux comprendre une dynamique du comportement de la production de l’électricité sur une
ferme photovoltaïque. En d’autres mots, découvrir des associations non connues en utilisant des techniques du data
mining temporel.

Remerciements

Je remercie particulièrement monsieur Ted soubdhan, maitre de conférence à l’université des Antilles et de la
Guyane, mon maitre de Stage, Richard Emilion, professeur à l’université d’Orléans, mon tuteur de stage et Romain
Celerier, ingénieur Conceptions et Réalisations à GENERGIES de m’avoir permis d’effectuer ce stage, accordé leur
confiance et leur temps durant cette période.

De manière générale, je remercie toutes les personnes qui m’ont aidé durant cette période de stage.

2
Sommaire

Avant-‐propos ................................................................................................................................................................... 2
Remerciements ............................................................................................................................................................... 2
1. Introduction ................................................................................................................................................................. 5
1.1. Contexte ................................................................................................................................................................ 5
1.2. Objectifs ................................................................................................................................................................ 6
1.3. Plan ....................................................................................................................................................................... 6
2. Le photovoltaïque ........................................................................................................................................................ 7
2.1. Historique ............................................................................................................................................................. 7
2.2. Le rayonnement solaire ........................................................................................................................................ 7
2.3. Principe de fonctionnement ................................................................................................................................. 8
3. Entreprise et Données disponibles .............................................................................................................................. 9
3.1. Entreprise Genergies ............................................................................................................................................. 9
3.2. Exemples de réalisations PV Genergies ................................................................................................................ 9
3.3. Le contexte énergétique guadeloupéen ............................................................................................................ 10
3.4. Installation PV ..................................................................................................................................................... 11
3.5. Caractéristiques des champs photovoltaïques à l'étude .................................................................................... 12
3.6. Smart Grids .................................................................................................................. Erreur ! Signet non défini.
3.7. Données disponibles ........................................................................................................................................... 13
4. Introduction Data mining ........................................................................................................................................... 14
4.1. Présentation du data mining .............................................................................................................................. 14
4.2. KDD (Knowledge Discovery in Data bases) ......................................................................................................... 15
4.3. Les techniques et outils du data mining ............................................................................................................. 16
4.4. Règles d’associations .......................................................................................................................................... 17
3
5. Vérification et traitement des données ..................................................................................................................... 24
5.1. Vérification des données .................................................................................................................................... 24
5.2. Traitement des données : ................................................................................................................................... 25
5.2.1. La puissance DC : .......................................................................................................................................... 26
5.2.2. Transformation de la base de données façon Spade : ................................................................................. 27
5.3 Résultats et Discussion ........................................................................................................................................ 29
5.3.1 Les Itemset Fréquents ................................................................................................................................... 29
5.3.2 Les règles d’associations ............................................................................................................................... 30
5.3.3 Interprétation des résultats : ........................................................................................................................ 31
6. Conclusion .................................................................................................................................................................. 35
Référence .......................................................................................................................................................................... 36
Annexes ............................................................................................................................................................................. 38

4
1. Introduction

1.1. Contexte

L’électricité renouvelable, aussi appelée électricité verte, est produite uniquement à partir des sources
d’énergies renouvelables respectueuses de l’environnement comme l’éolien, l’hélio thermodynamique, la
géothermie, la biomasse solide et notamment le bois, le biogaz, les déchets organiques, l’hydraulique, les énergies
marines et aussi le solaire photovoltaïque.

Elles font partie de ces énergies inépuisables par rapport aux énergies tirées des gisements de combustibles
fossiles en voie de raréfaction : pétrole, charbon, lignite, gaz naturel.

Il est donc important de privilégier les énergies nouvelles, comme le solaire photovoltaïques.
En 2009, le solaire photovoltaïque représente seulement 0.1% de la production électrique mondiale mais il est en forte
augmentation durant ces 5 dernières années.

Figure 1, Taux de croissance annuel moyen 2002-‐2012.

Ainsi dans le cadre du programme « Photovoltaic Power Systems » (PVPS), l’Agence international de l’énergie
(IEA) tend à améliorer le fonctionnement, la fiabilité et, par conséquent, la puissance électrique et économique
des systèmes d'énergie photovoltaïque afin de favoriser leurs utilisations dans le monde.

5
1.2. Objectifs

Dans le cadre d'un projet de R&D avec une entreprise en Energies Renouvelables (Génergies), l’objectif de ce
stage est mettre en œuvre des modèles statistiques de prévisions de la production d'électricité d'une ferme
photovoltaïque. Ce travail s'inscrit dans un projet global de SMART GRID développé par l'entreprise.

Il s’agit de traiter et de vérifier les données recueillies sur une ferme photovoltaïque en suivant les directives
de l’équipe qualité. Ces données ont été par la suite utilisées pour compléter une base de données qui contient les
informations nécessaires à une étude statistique plus approfondie.

Dans un deuxième temps, il s’agit de réaliser une analyse statistique des données et d’appliquer des
techniques de data mining temporel.

1.3. Plan

Après une présentation des différentes installations PV et des composants qui caractérisent ces systèmes,
nous exposerons la disponibilité des données photovoltaïques auxquelles nous avons eu accès.

Nous exposons ensuite une introduction à la fouille de données (data mining) et Nous verrons les tâches qui nous
permettrons de traiter ces données en utilisant un algorithme de data mining temporel.

En fin de rapport, avant d'exposer les conclusions tirées de ces analyses, nous commenterons les résultats
obtenus.

6
2. Le photovoltaïque
2.1. Historique
La naissance d’une technologie résulte bien souvent de la combinaison des résultats des travaux connexes
menés par nombre de chercheurs. C’est bien le cas pour le photovoltaïque. De l’effet photoélectrique à la
conception de la cellule photovoltaïque il a fallu attendre un siècle !

L’histoire du PV débute en 1839 lorsque le physicien français Antoine César Becquerel découvre le principe
photovoltaïque (C’est son petit-‐fils, Antoine Henri Becquerel qui découvrira la radioactivité). L'effet photovoltaïque
en tant que tel a été découvert en 1887 par le physicien allemand Heinrich Rudolf Hertz.
C'est Albert Einstein qui, le premier, a pu expliquer le principe photovoltaïque.
En 1955, des chercheurs américains (Chapin, Fuller, Pearson et Prince)
travaillant pour les laboratoires Bell Telephone (devenus aujourd’hui Alcatel-‐
Lucent Bell Labs) développent une cellule photovoltaïque à haut rendement
de 6 %. Les Américains lancent en 1959 le satellite Vanguard qui est alimenté par
des piles photovoltaïques ayant un rendement de 9%. La première maison avec
une installation photovoltaïque voit le jour en 1973 à l’université de Delaware
aux Etats-‐Unis d’Amérique et c’est en 1983 que la première voiture alimentée par énergie photovoltaïque parcourt
4000 kilomètres en Australie.
Il faut tout de même attendre les années 90 et les premières installations raccordées au réseau, technologie
permettant d’injecter l’énergie produite sur le réseau public d’électricité, pour voir les installations PV se
développer à grande échelle. En 1995, des programmes de toits photovoltaïques raccordés au réseau ont été
lancés au Japon et en Allemagne, et se généralisent depuis 2001. Le nombre d’installations PV ne cesse de croitre,
aidé par des coûts de plus en plus faibles, des performances améliorées et des aides financières gouvernementales.

2.2. Le rayonnement solaire
En traversant l’atmosphère, le rayonnement solaire est absorbé et diffusé. Au sol, on distingue plusieurs
composantes (Figure 2) :

1. Le rayonnement direct, directement
reçu du soleil, sans rétrodiffusion par
les nuages et dans l’atmosphère. Ces
rayons sont parallèles entre eux, ils
génèrent les ombres des objets.

2. Le rayonnement diffus est constitué de
photons diffusés par l’atmosphère (air,
nuages, etc.). On considère ce
rayonnement isotrope.
Figure 2, Représentation du flux global et de ces composantes.
3. L’albédo (blancheur en latin) est la fraction de rayonnement réfléchie par un obstacle, généralement le sol. Il
dépend de l’environnement du site. Les valeurs de coefficient d’albédo sont tabulées et comprises entre 0
(aucune réflexion) et 1 (miroir parfait). Dans la suite du rapport, nous prenons 0,2 pour valeur d’albédo.

Ces trois composantes constituent le rayonnement global issu du soleil.
7

2.3. Principe de fonctionnement
Les cellules PV reposent sur l’effet photoélectrique pour transformer l’énergie lumineuse d’un photon
incident en énergie électrique. Elles sont réalisées dans des semi-‐conducteurs, généralement du silicium Si
(Figure 3), que nous trouvons sous trois formes :

• Les cellules monocristallines :
constituées d’un cristal à double
couche, elles ont un rendement
compris entre 15 et 22% mais restent
relativement coûteuses.

• Les cellules poly-‐cristallines : elles sont
constituées de plusieurs cristaux, ce qui
réduit considérablement le coût de
fabrication mais également le
rendement. Celui-‐ci est de l’ordre de 10
à 13%.

• Les cellules amorphes : leur prix est
plus faible, de même que leur
rendement qui est compris entre 5 et
10%.
Figure 3, principe de fonctionnement des cellules photovoltaïques

2.4. Smart Grids
Les réseaux électriques intelligents, ou Smart grids, sont communicants car ils intègrent des fonctionnalités
issues des technologies de l’information et de la communication. Cette communication entre les différents points
des réseaux permet de prendre en compte les actions des différents acteurs du système électrique, et notamment
des consommateurs. L’objectif est d’assurer l’équilibre entre l’offre et la demande à tout instant avec une réactivité
et une fiabilité accrues et d’optimiser le fonctionnement des réseaux. Le système électrique passe d’une chaîne qui
fonctionne linéairement à un système où l’ensemble des acteurs est en interaction.

Rendre les réseaux électriques
intelligents consiste donc en grande partie à
les instrumenter pour les rendre
communicants. Actuellement le réseau de
transport est déjà instrumenté notamment
pour des raisons de sécurité
d’approvisionnement. En revanche, les
réseaux de distribution sont faiblement
dotés en technologies de la communication,
en raison du nombre très important
d’ouvrages (postes, lignes, etc.) et de
consommateurs raccordés à ces réseaux.
L’enjeu des Smart grids se situe donc
principalement au niveau des réseaux de distribution.
8
3. Entreprise et Données disponibles
3.1. Entreprise Genergies
Genergies, une filiale du Groupe Blandin, est fondée en

2009 afin d’offrir des solutions dans le domaine des Énergies
Renouvelables. Genergies propose des solutions innovantes,
particulièrement adaptées aux régions cycloniques des
départements d’Outre-‐mer, installables sur des bâtiments
industriels, collectifs, ou pour des particuliers. De plus,
Genergies investis dans le développement des systèmes de production d’énergies diffus et intermittents, son
objectif étant de trouver des solutions aux problématiques majeures de stockage et de prédictibilité de la
consommation d’énergie. Pour ce faire, Genergies met en place des programmes de recherche en collaboration avec
les universités.

3.2. Exemples de réalisations PV Genergies

Des toitures bleues et des systèmes photovoltaïques au sol apparaissent de plus en plus dans le paysage
français. Les panels de typologies de modules photovoltaïques, d’intégration au bâtiment, et de tailles de
systèmes offrent un choix de plus en plus grand aux personnes souhaitant s’équiper d’une production d’électricité
solaire, du particulier, au professionnel de l’énergie, en passant par les collectivités publiques, les agriculteurs, et
les entreprises non professionnelles du secteur.

Ci-‐dessous quelques exemples de systèmes photovoltaïques reflétant cette diversité.

Figure 4, Réalisation PV de Genergies.
9

3.3. Le contexte énergétique guadeloupéen
La loi Grenelle 1 du 3 août 2009 fixe pour la Guadeloupe des objectifs ambitieux en termes de politique
énergétique, à savoir l’autonomie énergétique à l’horizon 2030. Une étape intermédiaire prévoit pour 2020, un
objectif de 50 % au minimum d’énergies renouvelables dans la consommation finale. Une politique ambitieuse au
regard de la situation actuelle.
Vis à vis de l’énergie, la Guadeloupe se trouve
dans une situation de dépendance importante. En
2006, son taux de dépendance énergétique est
supérieur à 90 % contre 54,4 % en métropole. Cette
situation tient au fait que 90,3 % de l’énergie
primaire consommée est d’origine fossile.
Celle-‐ci est composée à 71,8 % de produits
pétroliers et à 18,5% de charbon importés
principalement d’Europe alors que la part des
énergies renouvelables dans la consommation
d’énergie primaire est d’environ 10 %.
Les secteurs de l’habitat, du transport et des
entreprises consomment, chacun, près d’un tiers de
l’énergie primaire.

Figure 7, Mix énergétique 2012 en Guadeloupe.

Dans le domaine de la maîtrise de l’énergie, des efforts ont été entrepris entre 1994 et 2005 dans le cadre du
plan régional de maîtrise de l’énergie (PRME). Ils ont permis de réaliser une économie d’énergie fossile de près de
366 GWh, soit une économie de 292 tonnes de CO2.
10
3.4. Installation PV
Un système photovoltaïque est une chaîne de composants qui vont du module photovoltaïque au
disjoncteur de raccordement au réseau électrique. Le courant continu disponible aux bornes du module peut être
utilisé de différentes manières en raccordant ces bornes à un circuit électrique qui l’achemine vers un ensemble de
composants qui forment un "système photovoltaïque" conçu et dimensionné en fonction de l’application et de
l’usage qui est fait de l’électricité produite.

Dans les systèmes raccordés au réseau, l’électricité produite en courant continu est transformée en courant
alternatif par l’onduleur puis comptabilisée par un compteur de production électrique préalablement installé par
le gestionnaire du réseau avant d’être injectée sur le réseau. Plusieurs options de branchements sont possibles
Ces installations suivent le schéma de la figure 4, où :

(1) Le rayonnement du soleil sur les modules photovoltaïques est transformé en courant électrique
continu (DC)
(2) L’onduleur convertit cette électricité
(3) L’électricité est transformée en courant alternatif (AC) compatible avec le réseau
(4) Un transformateur élève la tension
(5) L’électricité est injectée par câble jusqu’au réseau public

Figure 8, Type d’installation PV

Les bâtiments de JARRY Baie-‐Mahault (Figure 5) nous renseignent sur :

• L'éclairement par rapport au plan des modules,
• La température extérieure,
• La puissance AC,
• La puissance DC.

11
160 21.8
156 10.6
32.4
1027
14
PROJET
AGROSYSTEMES
JARRY - 97122 BAIE-MAHAULT
PLAN DE CALEPINAGE
CAP et PVL
N° PLAN INDICE
12/05/2010

Figure 9, Agrosystèmes.

3.5. Caractéristiques des champs photovoltaïques à l'étude
Dimension Signification
PUISSANCE DC Watt Courant continu
PUISSANCE AC Watt Courant alternatif
TENSION VDC (V) Volte Tension électrique

RENDEMENT % Rendement
Type d’installation Connecté au réseau Raccordée au réseau
Type d’utilisation habitat Habitation
Date début des mesures 21/11/2013 Date début des mesures utilisées pour l’étude
Surface 1027 m2 Surface de la toiture
Puissance Totale 32.4 kwc Puissance Totale de L’installation
Surface 1027 m2 Surface de la toiture
12
3.6. Le projet micro-réseau Genergies
Le micro-‐réseau GENERGIES est un système électrique pilotable, comportant des sources et des charges
électriques, capable d’être opéré aussi bien connecté que déconnecté du réseau public.
Micro-‐réseau Genergies
3.7. Données disponibles
L'ensemble des données est réparti sur les années 2013, 2014. Selon le type d'acquisition, la présentation
des données, l'intervalle de temps entre les mesures, il convient de les modifier avant la tâche de vérification et
de traitement.

Ainsi les données proviennent de deux types de fichiers Excel. Des fichiers contenant la température et
l’éclairement avec un pas d’environ 1 minutes. Tandis que la puissance DC est obtenue à partir d'un autre fichier
avec un pas de temps de 5 minutes environ et ne contenant que les mesures en journée. Nous avons traité un
ensemble de données recueillies du 21.11.2013 au 31.01.2014 avec un pas de 5 minutes.

Extrait de la base de données
13
4. Introduction Data mining
4.1. Présentation du data mining
Le terme de Data Mining est souvent employé pour désigner l’ensemble des outils permettant à l’utilisateur
d’accéder aux données volumineuses de l'entreprise et à en extraire de manière automatique des connaissances
intéressantes et inconnues, imprévues, a priori. Nous restreindrons ici le terme de Data Mining aux outils ayant
pour objet de générer des informations riches à partir des données de l’entreprise, notamment des données
historiques, de découvrir des modèles implicites dans les données. Ils peuvent permettre par exemple à un magasin
de dégager des profils de client et des achats types et de prévoir ainsi les ventes futures. Il permet d’augmenter la
valeur des données contenues dans le DW (Datawarehouse).

Les outils d’aide à la décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à l’utilisateur, qui choisit
les éléments qu’il veut observer ou analyser. Au contraire, dans le cas du Data Mining, le système a l’initiative et
découvre lui-‐même les associations entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans
telle ou telle direction ou à poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le
comportement d’un client, et de détecter, dans le passé, les données inusuelles, exceptionnelles.
Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être employés par des
utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un utilisateur connaissant le métier peut
déterminer si les modèles, les règles, les tendances trouvées par l’outil sont pertinents, intéressantes et utiles à
l’entreprise. Ces utilisateurs n’ont donc pas obligatoirement un bagage statistique important. L’outil doit donc soit
être ergonomique, facile à utiliser et rendant transparentes toutes les formules mathématiques et termes
techniques utilisés, soit permettre de construire une application «clé en main», rendant à l’utilisateur
transparentes toutes les techniques utilisées.

On pourrait définir le data mining comme une démarche ayant pour objet de découvrir des relations et des
faits, à la fois nouveaux et significatifs, sur de grands ensembles de données. On devrait ajouter que la pertinence
et l'intérêt du Data Mining sont conditionnés par les enjeux attachés à la démarche entreprise, qui doit être guidée
par des objectifs directeurs clairement explicités ("améliorer la performance commerciale", "mieux cibler les
prospects", "fidéliser la clientèle", "mieux comprendre les performances de production"...).
Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les données en
connaissances.
14
4.2. KDD (Knowledge Discovery in Data bases)
Dans sa plus ancienne acception, le datamining est le processus central du KDD (Knowledge Discovery in
Data bases). Cette étape est si importante que le terme de KDD est maintenant souvent remplacé par celui de Data
mining, plus parlant. Le KDD peut être schématisé par une suite d’opérations de transformation et d’analyse des
données :

• Data cleaning : phase d’élimination du bruit et des données inutiles : filtrer, trier, homogénéiser, nettoyer.
Les données peuvent être incomplètes, contradictoires, ou contenir des erreurs humaines ou informatiques.
Lors du data cleaning les données sont comparées, pour tenter de combler automatiquement les lacunes et
corriger les erreurs.

• Data integration : phase d’association de multiples sources des données sous une forme unique,
généralement dans le cadre de l’architecture d’une data warehouse. Cette étape sert à régler le problème
des incompatibilités entre les différents systèmes informatiques et systèmes de stockage des données
d’une même entreprise. Par exemple toutes les sommes indiquées dans des devises différentes peuvent
être converties eu euros. Ou encore, le champ adresse peut être décomposé en champs ville, rue et pays.
Les données sont aussi datées et résumées.

• Data selection : les données ayant un rapport avec l’analyse demandée sont retrouvées dans la

• Data transformation : les données sont regroupées, normalisées, et transformées dans un format qui
les prépare au mining.

• Data mining : un processus essentiel où des méthodes intelligentes sont appliquées pour extraire des
éléments remarquables, des patterns. Il s’agit de configurations de données dont la structure est
inhabituelle, qui présentent des corrélations imprévues, des écarts statistiques, ou tout ce qui sort de
l’ordinaire.
• Pattern evaluation : On identifie les patterns intéressants, ceux qui représentent de l’information.
L’intérêt des patterns est évalué par les outils de data mining en utilisant des règles objectives basées sur
la structure des patterns et les statistiques qui les sous-‐tendent, ainsi que des règles subjectives basées sur
les croyances des utilisateurs (ce savoir est stocké dans une base de connaissances). Par exemple, une
information est intéressante si elle contredit les croyances de l’utilisateur.
15
• Knowledge présentation : des techniques de visualisation et de représentation sont utilisées pour
présenter clairement à l’utilisateur le savoir extrait des données : tables, arbres, règles, graphiques,
courbes, matrices, cubes, etc.

Figure 10, KDD Process.

4.3. Les techniques et outils du data mining
Les outils de data mining ne sont pas tous basés sur les mêmes principes. Différentes méthodes peuvent être
utilisées en fonction de la nature des données dont on dispose, et des informations recherchées. Voici quelques
unes des techniques les plus couramment employées :

• Découvertes de règles,
• Arbres de décision,
• Pattern recognition,
• Réseaux neuraux,
• Apprentissage automatique,
• Analyse des liens,
• Algorithmes génétiques
Avant d’aborder quelques concepts théoriques et le mode de fonctionnement de l’algorithme Cspad avec
lequel le travail a été effectué, la présentation et la compréhension de certains outils.
16
4.4. Règles d’associations

Dans cette section, nous parlerons des concepts ou termes souvent employés dans ce rapport, on
expliquera les différentes étapes de la recherche d’une règle d’association, celle des règles séquentielles en
passant par les motifs séquentiels.

4.4.1. Recherche de règles d’association
Une règle d’association est une relation d’implication X→Y entre deux ensembles disjoints d’articles X et Y.
Cette règle indique que les transactions qui contiennent les articles de l’ensemble X ont tendance à contenir les
articles de l’ensemble Y.

X est appelé condition ou prémisse et Y résultat ou conclusion.

L’extraction des règles d’association est l’un des principaux problèmes de l’ECD (Extraction de Connaissances
à partir de Données). Ce problème fut développé à l’origine pour l’analyse de base de données de transactions de
ventes. Chaque transaction est constituée d’une liste d’articles achetés dans un contexte d’un client consommateur,
afin d’identifier les groupes d’articles vendus le plus fréquemment ensemble.

Ces règles sont intuitivement faciles à interpréter car elles montrent comment des produits ou des services se
situent les uns par rapport aux autres. Ces règles sont particulièrement utiles en marketing. Les règles d'association
produites par la méthode peuvent être facilement utilisées dans le système d'information de l'entreprise.
Cependant, il faut noter que la méthode, si elle peut produire des règles intéressantes, peut aussi produire des
règles triviales (déjà bien connues des intervenants du domaine) ou inutiles (provenant de particularités de
l'ensemble d'apprentissage).

La recherche de règles d'association est une méthode non supervisée car on ne dispose en entrée que de la
description des achats.

On peut dire donc qu’une règle d'association est une règle de la forme : Si condition alors résultat. Dans la
pratique, on se limite, en général, à des règles où la condition est une conjonction d'apparition d'articles et le résultat
est constitué d'un seul article (ABDELALI Mouad, 2003). Par exemple, une règle à trois articles sera de la forme :
Si X et Y alors Z ; règle dont la sémantique peu être énoncée : Si les articles X et Y apparaissent simultanément
dans un achat alors l'article Z apparaît.

17
L’extraction des règles d’association peut être décomposée en quatre étapes qu’illustre la Figure 11.
Les étapes d’extraction de règles d’association suivante :

Figure 13, Les étapes d’extraction de règles d’association.

§ Sélection et préparation des données : Cette étape permet de préparer les données afin de leur
appliquer les algorithmes d’extraction des règles d’association. Elle est constituée de deux phases :

-‐ La sélection des données de la base qui permettront d’extraire les informations intéressant
l’utilisateur. Ainsi la taille des données traitées est réduite ce qui assure une meilleure efficacité de
l’extraction.

-‐ La transformation de ces données en un contexte d’extraction (il s’agit d’un triplet constitué d’un
ensemble d’objets, d’un ensemble d’itemsets et d’une relation binaire entre les deux).
La transformation des données sélectionnées en données binaires améliore l’efficacité de l’extraction
et la pertinence des règles d’association extraites.

§ Découverte des itemsets fréquents : C’est l’étape la plus coûteuse en terme de temps d’exécution
car, le nombre d’itemsets fréquents dépend exponentiellement du nombre d’items manipulés (pour n
items, on a 2n itemsets potentiellement fréquents).

§ Génération des règles d’association : À partir de l’ensemble des itemsets fréquents pour un seuil
minimal de support minsup, la génération des règles d’association est un problème qui dépend
exponentiellement de la taille de l’ensemble des itemsets fréquents.

§ Visualisation et interprétation des règles d’associations : Elle met entre les mains de l’utilisateur
un ensemble de déductions fiables qui peuvent l’aider à prendre une décision.

18
4.4.2. Définitions

• Item et itemset : Un item peut être défini comme un article et un itemset un ensemble d’articles.

• Transactions : Une transaction est un ensemble d’items achetés par un client C à une date précise.
Dans une base de données une transaction est représentée par trois attributs : idClient (identifiant
d’un client), idDate (un identifiant pour une date), itemset (un ensemble d’items non vide).

• Support minimal : Le support minimal est le nombre minimum d’occurrence d’un motif séquentiel pour
être considéré comme fréquent. L’occurrence n’est prise en compte qu'une fois dans la séquence.
C’est un seuil choisi par l’utilisateur.

• La force d'une règle d'association est mesurée par son indice de support et son indice de confiance.

• L'indice de support (« support ») d'une règle X à Y est défini par la proportion de transactions
de T qui contiennent X ∪ Y (à la fois X et Y, et non X ou Y), soit Supp (X ∪ Y). Il s'agit donc d'une
estimation de la probabilité Pr (X ∪ Y).

• L'indice de confiance (« confidence ») d'une règle X à Y est défini par la proportion de transactions
𝐗 ∪ 𝐘 .𝐜𝐨𝐮𝐧𝐭
de T contenant X qui contiennent aussi Y, soit . Il peut être vu comme une estimation de la
𝐗.𝐜𝐨𝐮𝐧𝐭
probabilité conditionnelle Pr (Y / X).
𝐒𝐮𝐩𝐩 (𝐗 ∪ 𝐘)

Remarque : Conf (X à Y) =
𝐒𝐮𝐩𝐩 (𝐗)

• Le « lift » d'une règle X à Y mesure l'amélioration apportée par la règle d'association par rapport
𝐒𝐮𝐩𝐩 (𝐗 ∪ 𝐘)
à un jeu de transactions aléatoire (où X et Y seraient indépendants). Il est défini par
𝐒𝐮𝐩𝐩 𝐗 .𝐒𝐮𝐩𝐩 (𝐘)

Un « lift » supérieur à 1 traduit une corrélation positive de X et Y, et donc le caractère significatif de
l'association.

4.4.3. Recherche de règles séquentielles

Une règle séquentielle est une règle d’association à laquelle on rajoute le facteur temps. La recherche de
règles séquentielles est un processus complexe et passe par différentes étapes notamment, la recherche de
motifs séquentiels, c’est pourquoi dans cette section nous commencerons par la description d’une séquence, d’une
séquence fréquente et d’un motif séquentiel.

§ Séquence : Une séquence est une liste ordonnée d’itemset non vides. Contrairement à la théorie
ensembliste des règles d’association dont les éléments ne sont pas ordonnés, une séquence utilise le
principe de précédence c’est-‐à-‐dire chaque élément de la liste est précédé des éléments qui l’ont
précédé dans les transactions d’un client donné.
19
§ Fréquence d’une séquence : Une séquence est considérée fréquente, si le support de cette séquence
respecte le support minimum, en d’autres termes, si le support de cette séquence est supérieur ou égal
au support minimum. Celui-‐ci est introduit par le client afin de mesurer la pertinence d’une séquence.

§ Séquences fréquentes maximales ou motifs séquentiels : Une fois toutes les séquences
fréquentes trouvées, on procède à la recherche de celles qui ont une fréquence maximale, c’est-‐à-‐dire
celles qui ne sont incluses dans aucune autre séquence, on les appellera des motifs séquentiels.
Les motifs séquentiels peuvent être vus comme une extension de la notion de règles d’association,
Intégrant diverses contraintes temporelles. Aussi, la recherche de tels motifs consiste à extraire des
ensembles d’items, couramment associés sur une période de temps bien spécifiée. En fait, cette
recherche met en évidence des associations inter-‐transactions, contrairement à celle des règles
d’association qui extrait des combinaisons intra-‐transaction. Dans ce contexte, et contrairement aux
règles d’association, l’identification des individus ou objets est indispensable, afin de pouvoir suivre
leur comportement au cours du temps.

§ Support d’une séquence : Le support d’une séquence quelconque S est le pourcentage de clients qui
supportent cette séquence S. c’est une mesure dite d’utilité.

Supp ({ae} → {bc}) = Supp ({ae} U {bc})

§ Confiance d’une règle : La confiance d’une règle est une mesure dite de précision, c’est la probabilité
qu’on achète un certain nombre d’articles A sachant qu’on a déjà acheté B, soit la probabilité
conditionnelle : p (A/B).

Conf ({ae → {/bc}) = Supp ({abce}) / Supp ({ae})

On voit immédiatement que la confiance se traduit par un rapport de support.

4.4.4. Les séries temporelles

Les séries temporelles représentent la mesure de certaines caractéristiques en fonction du temps. Les
statisticiens ont établi ce concept et ses propriétés depuis plus d’un siècle; mais leurs techniques s’avèrent
insuffisantes pour les énormes quantités de données des séries temporelles réelles.
En tant qu’outil de Datamining les ‘grandes’ séries temporelles sont traitées selon plusieurs aspects. Elles
sont d’abord représentées de telle sorte à ce que l’on puisse définir une mesure de similarité entre séries. Puis
on les manipule pour plusieurs utilisations.
-‐ Indexation : trouver les séries temporelles les plus similaires.
-‐ Clustering : trouver des groupes de séries temporelles similaires à partir des données brutes sans
fixer les groupes au préalable.
-‐ Classification : étant données des classes prédéfinies, affecter une série temporelle à une classe.
-‐ Prédiction : étant donnée une série temporelle discrète de n points, prédire la valeur de la
caractéristique au temps n+1.
-‐ Résumé : étant donnée une série temporelle Q comportant n points de données, avec n
extrêmement grand ; créer une approximation de Q de dimension beaucoup plus petite.
20
4.4.5. Techniques de data mining temporel

Des techniques ont vu le jour à la fin des années 1970 (John F.Roddick, Kathleen Hornsby et Myra
Spiliopoulou ont dressé un panorama riche sur les travaux parus sur le data mining temporel).

Les procédés que nous allons décrire sont des extensions de ce qui s’est déjà fait pour des bases de
données classiques, ou aussi des techniques conçues spécialement pour ces données complexes. Nous citons
que le domaine de recherche sur les bases de données temporelles connait un succès remarquable. C’est dans ce
contexte et donc avec l’utilisation de ce qui se fait actuellement au niveau des bases de données temporelles
que se situent les méthodes de fouille de données temporelles que nous allons présenter. De nombreuses
publications ont été effectuées dans le cadre du ECDT (Extraction des Connaissances à partir des Données
Temporelles).

4.4.5.1. Algorithmes de data mining séquentiel

Les possibilités offertes par la notion de séquence en font un domaine de recherche riche et pluridisciplinaire.
Les séquences peuvent en effet modéliser, de manière basique, le déroulement d’évènements dans le temps,
mais aussi la structure d’un génome, ou plus généralement des comportements humains (qu’ils soient des
consommateurs, des utilisateurs ou encore des cas particuliers à comprendre). Du pattern matching (appariement
de formes) à la détection d’une séquence commune à deux séquences (par exemple des chaines de caractères)
communes à plusieurs séquences et enfin la détection de sous-‐séquences communes à plusieurs séquences, les
techniques algorithmiques ne manquent plus. L’apprentissage en produisant ou en adoptant, puis en appliquant
certaines de ces techniques a largement contribué à leur développement.
Depuis quelques années cependant, un phénomène incontournable est apparu, relatif aux séquences et se
traduisant par la capacité grandissante des moyens de stockage. Le domaine de la fouille de données s’est alors
mis en place avec pour objectif de faire face aux grandes quantité de données à traiter.
La problématique de l’extraction de motifs séquentiels est une sorte d’extension de celle de l’extraction des
règles d’association, intégrant diverses contraintes temporelles. La recherche de tels motifs consiste ainsi à extraire
des ensembles d’items, couramment associes sur une période de temps bien spécifiée. En fait cette recherche met
en évidence des associations inter-‐transactions contrairement à celle des règles d’association qui extrait des
combinaisons intra-‐transaction. Dans ce contexte, et contrairement aux règles d’association, l’identification des
individus ou objets est indispensable, afin de suivre leur comportement au cours du temps. Par exemple, des
motifs séquentiels peuvent montrer que “60 % des gens qui achètent une télévision, achètent un magnétoscope
dans les deux ans qui suivent”. Ce problème posé à l’origine dans un contexte de marketing, intéresse à présent
les domaines assez varies que les télécommunications (détection de fraudes), la finance, ou encore la médecine
(identification des symptômes précédant les maladies).

21
4.4.5.2. Algorithme SPADE

SPADE se classe dans la catégorie des algorithmes qui cherchent à réduire l’espace des solutions en
regroupant les motifs séquentiels par catégorie. Pour SPADE, les motifs fréquents présentent des préfixes
communs, qui permettent de décomposer le problème en sous-‐problèmes qui seront traités en mémoire.
Le calcul de (les fréquents de taille 2) par SPADE, passe par une inversion de la base, qui la transforme d’un
format vertical vers un format horizontal. Les auteurs considèrent que cette opération peut être simplifiée si la
base peut-‐être chargée en mémoire vive. De plus, lors de leurs expérimentations, les auteurs ne considèrent pas,
dans les temps de calcul relevés, le temps de réécriture de la base, dans le cas où celle-‐ci ne tiendrait pas en
mémoire.
Figure 14, Base de données exemple pour Spade.
SPADE gère les candidats et les séquences fréquentes à l’aide de classes d’équivalence comme suit :
deux k séquences appartiennent à la même classe si elles présentent un préfixe commun de taille (k-‐1). Plus
formellement, soit la 𝓟𝕂!𝟏 𝛂 séquence de taille k-‐1 qui préfixe la séquence α. Comme α est fréquente, avec
𝓟𝕂!𝟏 𝛂 ∈ 𝓕𝕂!𝟏 les 𝓕𝕂!𝟏 fréquents de taille k-‐1 Une classe d’équivalence est définie de la manière suivante :
𝓹 ∈ 𝓕𝕂 ! = { 𝛂 ∈ 𝓕𝕂 | 𝓟𝕂 ! 𝛂 = 𝓹}
Le reste de l’algorithme, à savoir le comptage du support pour les candidats générés, repose sur la
réécriture préalable de la base de données. En effet la transformation consiste à associer à chaque séquence
l’ensemble des couples (client, itemset) qui lui correspondent dans la base.
22

Figure 15, Intersections de listes d’itemsets dans SPADE, avec la base de données de la figure 14.
4.4.5.3. Algorithme CSPADE

Développé par M. Zaki comme une extension de Spade, cSpade apporte la gestion de plusieurs contraintes :
longueur et largeur maximales des motifs, distances minimales exigées et distances maximales permises entre
les motifs d’une séquence, taille de fenêtres, présence ou absence de motifs. L’ajout de ces contraintes est assez
intuitif.
Soit (X, d1, f1) ∈ IdList (S1) et (X, d2, f2) ∈ IdList (S2)

– Absence d’un évènement L’évènement non désire est efface de F1.

– maxLen La jointure temporelle vérifie que la f2 − d1 < maxLen.

– minGap La jointure temporelle vérifie que la d2 − d1 > minGap.

– maxGap La jointure temporelle vérifie que la d2 − f1 < maxGap.

– Tout autre contrainte anti-‐monotone se greffe facilement sur ce schéma.

Il faut faire attention lors de la gestion de la contrainte maxGap qui n’est pas anti-‐ monotone. En effet,
une séquence non valide peut générer une séquence plus longue valide. Si la contrainte est maxGap < 3 et les
séquences b (2) d (4) et b (2) f (5) sont fréquente, le gap dans b (2) f (5) vaut 3, ce qui est supérieure à maxGap.
Cependant, b (2) d (4) f (5) est un candidat valide. Afin de palier à ce problème, M. Zaki modifie la génération des
candidats. Au lieu de fusionner deux IdList de longueur k, il propose de fusionner Fk avec F2, et affaiblit l’élagage
à base de fréquence.
23
5. Vérification et traitement des données
5.1. Vérification des données

Dans un premier temps, on trace la collection de graphe pour chaque mois ce qui facilitera la vérification des
données.
10000 20000 30000
0 10000 20000 30000

Puissance DC
Puissance DC
0
21-11-2013 24-11-2013 27-11-2013 30-11-2013 21

Novembre 2013
Figure 16, Boxplot de la puissance DC entre 0 et 32.4 kWc du mois de novembre 2013.

5000 10000 15000 20000 25000
Puissance DC
01-12-2013 05-12-2013 09-12-2013 13-12-2013 17-12-2013 21-12-2013 25-12-2013 29-12-2013
Decembre 2013

Figure 17, Boxplot de la puissance DC entre 0 et 32.4 kWc du mois de décembre.

5000 10000 15000 20000 25000 30000
Puissance DC
01-01-2014 05-01-2014 09-01-2014 13-01-2014 17-01-2014 21-01-2014 25-01-2014 29-01-2014
Janvier 2014

Figure 18, Boxplot de la puissance DC entre 0 et 32.4 kWc du mois de janvier 2014.

D'autres moyens sont également utilisés pour vérifier les données : des conditions de cohérences
définissant les valeurs maximum et minimum admissibles sur les différentes paramètres sont mise en place.
Il faut aussi observer directement les mesures prises sur les fichiers d'enregistrement.
24
A partir de ces vérifications, dans le cas où des valeurs incohérentes sont détectées et en nombre élevé,
il s'agira d'effectuer un traitement en mettant en place une procédure de corrections.

Cependant, pour ne pas fausser l'étude statistique qui en suivra, les données ne doivent pas subir
d'importante transformation, c'est pourquoi dans la majorité des cas ces données sont supprimées. La qualité des
données est plus importante que la quantité des données.

Pour vérifier les données, on installe des conditions de cohérence sur certains paramètres :

• Température :
Pour la température les valeurs doivent être comprissent entre -‐10 °C et 40°C, avec une variation de 3°C,
lorsque l’intervalle de temps entre deux relevés de mesures est de 15 minutes.

• Eclairement :
L’éclairement doit être compris entre 0 W/m² et 1 400 W/m² avec une variation de 300 W/m².

• Puissance AC, Puissance DC, Eclairement :
D'autres vérifications sont effectuées pour détecter des données incohérentes, il s'agit du lien entre la présence
de la puissance AC, de la puissance DC et de l'éclairement.
Chaque mesure doit respecter la condition suivante :

Présence de la puissance AC => Présence de la puissance DC => Présence de l'éclairement

5.2. Traitement des données :
Dans les relevés de mesure, la mesure Total DC prend une valeur en Watt. Il s’agit d’une mesure qui nous
renseigne sur la production de l’énergie de deux champs PV (figure 19). Les données sont enregistrées toutes
les 5 minutes.
Figure 19, Extrait de la base de données.
25
5.2.1. La puissance DC :
Il s’agit de l’étude de l’évolution de la production DC des champs PV à l’étude, on va changer l’horizon de
la production en appliquant un cumul sur une heure de production de l’énergie (figure 21). Avant d’effectuer
le cumul, on va ramener toute la production sur la même échelle de temps (figure 20).

Cumul sur
1 heure
Figure 20, Extrait de la base de données avec la nouvelle échelle. Figure 21, Extrait de la base de données avec l’horizon d’une heure.
Dans le cadre la transformation de la base de données façon cspade, on va transformer la variable Total DC
en variable qualitative. Pour cela on va appliquer la méthode des quantiles.

Le critère visé est l'équirépartition, c'est à dire le même nombre de données par classe. Dans la version
stricte, à partir du nombre du nombre N de données et du nombre n classes, on en déduit le nombre F d'individus
par classe. On trie les données par ordre croissant et on met dans la classe 1 les F premières données, dans la
classe 2 les F suivantes etc. Dans la version relâchée, on met éventuellement plus de F données par classe car on
force les données égales à être dans une même.
Figure 22, Extrait de la base de données transformée.

26
5.2.2. Transformation de la base de données façon Spade :
A des fins d’optimisation du temps d’exécution, l’algorithme CSPADE charge la base de données en
mémoire pour n’effectuer par la suite qu’une seule passe sur celle-‐ci, ce qui implique une concession au niveau
de la consommation de la mémoire.

La transformation proposée par SPADE simplifie le comptage du nombre de jours supportant une séquence,
car cette opération nous permet de disposer d’un ensemble de données où l’accès aux informations (Date, Heure
de transaction) pour un item est facilité.
Figure 23, Représentation horizontale de la base de données.

Figure 24, Représentation verticale de la base de données.
La base de données horizontale représente la liste des items de productions par jour à une heure donnée.
En revanche, la base de données verticale nous permet d’extraire, pour un item donné, la liste des couples (Date,
Heure de productions) qui témoignent de son apparition dans la base de données.

27
Afin de mieux adapter la base de données aux résultats que nous souhaitons obtenir, on a ajouté à chaque
item l’heure qui lui correspond (figure 24). Cette nouvelle configuration nous permet de mieux interpréter les
résultats.

Figure 25, Extrait de la base de données.

La Structure des données utilisée par l’algorithme est la suivante :

Figure 26, Structure de la base de données.

28
5.3 Résultats et Discussion
5.3.1 Les Itemset Fréquents

C’est l’étape la plus coûteuse en terme de temps d’exécution car, le nombre d’itemsets fréquents
dépend exponentiellement du nombre d’items manipulés (pour n items, on a 2n itemsets potentiellement
fréquents).

La recherche des régularités dans les bases de données est l’idée principale du data mining. Ces régularités
s’expriment sous différentes formes. Dans l’analyse de la production de la ferme PV, l’extraction des itemsets
consiste à mettre en exergue les cooccurrences entres les production PV pendant des heures précise c’est à dire
déterminer les productions (les items) qui sont « souvent » répété à des heures précise simultanément. On parle
alors d’itemsets fréquents.

Un itemset est dit fréquent si son support est supérieur à un seuil défini à l’avance, paramètre de
l’algorithme de recherche. Dans notre exemple, en fixant le support minimum à 2 (ou 20% en relatif), nous
observons dans le tableau suivant un extrait des itemsets fréquents (figure 27).

Figure 27, Itemsets fréquents.

Dans le Tableau (figure 27) En fixant le support minimal à 20%, on découvre les épisodes fréquents comme
La production de type ‘’a’’ à 16h avec un support de 92.5 % et l’itemsets {a-‐15 et a-‐16} avec un support à 52.5 %.

La recherche des itemsets fréquents est souvent présentée comme un préalable à l’extraction des règles
d’association où l’on essaie, en sus, de mettre en évidence des relations de causalité.

29
5.3.2 Les règles d’associations

En fouille de données, les règles d'association permettent la découverte non supervisée de tendances
implicatives dans les données. Plus précisément, une règle d’association a -‐> b signifie que la plupart des
enregistrements qui vérifient la prémisse a dans la base de données vérifient aussi la conclusion b. Chaque
règle est évaluée par deux mesures : le support et la confiance.

Nous avons utilisé l’algorithme cspade et fixé un seuil de support de 10% et un seuil de confiance de 40%.
L’algorithme a extrait 191 règles d’association. Un extrait des ces règles est présenté dans le tableau (figure 28).
Nous retrouvons dans le tableau les informations usuelles sur les règles : l’antécédent de la règle ; le
conséquent de la règle ; le support, la confiance et le lift.
Règles D’associations Support Confiance Lift
<d-‐11, d-‐13> => < d-‐14 > 0,1 0,4666667 1,8148148

< c-‐10, d-‐13 > => < d-‐14 > 0,1285714 0,5 1,9444444
< d-‐11, d-‐12, d-‐13 > => < d-‐14 > 0,1 0,5 1,9444444
< c-‐10 > => < d-‐13 > 0,2571429 0,5454545 1,4685315
< d-‐11 > => < d-‐12 > 0,3714286 0,7878788 1,4513557
< d-‐14 > => < c-‐15}> 0,1142857 0,4444444 2,2222222
< c-‐11, d-‐13 > => < c-‐14 > 0,1 0,7 2,5789474
< a-‐15 > => < a-‐16 > 0,3857143 0,9642857 1,125
< b-‐11 > => < a-‐16 > 0,1571429 1 1,1666667
< a-‐14 > => < a-‐15 > 0,1285714 0,8181818 2,0454545
< c-‐10, b-‐14 > => < a-‐15 > 0,1142857 0,7272727 1,8181818
Figure 28, Sous-‐ensemble des règles d’association.

Malheureusement, cette technique pose un problème majeur : elle fournit de très grandes quantités de
règles qui ne peuvent être exploitées sans la mise en place d’un post-‐traitement efficace et adapté à la fois aux
préférences du décideur et à la structure des données étudiées.

30
5.3.3 Interprétation des résultats :

Cette phase consiste en la visualisation par l'utilisateur des règles d'association extraites du contexte et
leur interprétation afin d'en déduire des connaissances utiles pour l'amélioration de l'activité concernée. Le
nombre important de règles d'association extraites en général impose le développement d'outils de classification
des règles, de sélection par l'utilisateur de sous-‐ensembles de règles, et de leur visualisation sous une forme
intelligible.

§ Tri des règles d’associations selon le Lift

Les résultats sont classés selon le Lift. L’interprétation du Lift :

• Le Lift supérieur à 1 indique une corrélation positive
• Un Lift de 1 indique une corrélation nulle
• Le Lift inférieur à 1 indique une corrélation négative

Figure 28, Sous-‐ensemble des règles d’association selon Lift.

31

Dans notre Tableau la règle d’association <{c-‐10}, {d-‐12}, {d-‐13}> => < {d-‐14}> obtient le lift le plus élevé 2.916667.

• 12,85 % des transactions contiennent les quatre productions (Support).
• 75 % des transactions avec les productions (c à 10h, d à 12h et d à 13h) contiennent aussi la production
de type d à 14h.

Le nombre de règles d’association possibles est souvent énorme. Vouloir étudier toutes les associations
entre des produits à un niveau très fin de granularité amènerait à des résultats non interprétables. Pour obtenir
des résultats cohérents et utiles, il faut tout d’abord faire une liste pertinente des règles d’association d’intérêt.

Si le support est petit, il faut se questionner sur l’intérêt de la règle d’association. En pratique, on peut fixer
un support minimum requis et exclure les règles d’association n’ayant pas le support requis.

L’objectif d’étudier la production de l’énergie est de mieux comprendre une dynamique du comportement
de cette production de l’électricité. En d’autres mots, on veut découvrir des associations non connues et prendre
des décisions d’affaires basées sur ces nouvelles connaissances.

Les règles qui obtiennent un bon support, une bonne confiance et un bon lift sont potentiellement utiles.

Règles Support Confiance Lift
D’associations
d-‐11 => d-‐12 0.3714286 0.7878788 1.4513557
c-‐10 => d-‐11 0.2857143 0.6060606 1.2855831
c-‐10, d11 => d-‐12 0.2285714 0.8000000 1.4736842

Figure 29, Extrait de règles d’association utiles.

Dans le Tableau (figure 29) la règle d’association < {d-‐11}> => < {d-‐12}> obtient un lift de 1.4513557 qui
nous renseigne sur la corrélation de ces deux productions.

• 37,15 % des transactions contiennent les deux productions (Support).
• 78,79 % des transactions avec la production (d à 11h) contiennent aussi la production d à 12h.

32
§ Extrait des règles d’association selon l’antécédent de la règle

L’objectif est d’extraire les règles d’association en précisant l’antécédent de la règle. En prenant par
exemple comme antécédent une production de type d à 11h on aura toutes les règles avec antécédent
comportant une production de type d à 11h (figure 30).

Figure 30, Extrait de règles d’association avec d-‐11 en antécédent.

Dans le Tableau (figure 30) la règle d’association < {c-‐10, d-‐11}> => < {d-‐12}> obtient un lift de 1.4736842 qui
nous renseigne sur la corrélation de ces deux productions.

• 22,85 % des transactions contiennent les trois productions (Support).
• 80 % des transactions avec la production (c à 10h et d à 11h) contiennent aussi la production d à 12h.

33

On peut extraire de la même manière les règles d’association en précisant le conséquent de la règle.

Figure 31, Extrait de règles d’association en précisant le conséquent.

Dans le Tableau (figure 31) la règle d’association < {c-‐10, d-‐12 et d-‐13}> => < {d-‐14}> obtient un lift de 2.9166 qui
nous renseigne sur la corrélation de ces quatre productions.

• 12,85 % des transactions contiennent les trois productions (Support).
• 75 % des transactions avec la production (c à 10h et d à 11h) contiennent aussi la production d à 12h.

Cette règle nous renseigne sur les bonnes conditions qui donnent une bonne production à 14h. Pour avoir une
production de type d à 14h, il faut avoir une production c à 11h, une production d à 12h et une production d à 13h.

34
6. Conclusion
L’analyse de la mesure Total DC avait pour objectif d’identifier des associations non connues dans le cadre des
prévisions de la production d'électricité d'une ferme photovoltaïque. De fait, à partir des historiques les principaux
fichiers permettant de déterminer la production de l’électricité ont pu être crées. Les analyses statistiques ont pu
ensuite être effectuées pour expliquer une dynamique du comportement de la production de l’électricité sur la
ferme photovoltaïque.

Les résultats obtenus permettent à l’entreprise de dégager des renseignement qui leurs permettrait d’agir et
d’améliorer la production et la distribution de l’électricité dans le cadre du projet micro-‐réseau Genergies.

Nous avons utilisé une autre méthode dite de « statistiques supervisées » qui est l’arbre de décision, cette
méthode présente l’avantage de proposer des modèles graphiques hiérarchisés intelligibles. Ces arbres permettent
de distinguer des groupes d’individus semblables et des règles de décisions simples. De plus, aucune hypothèse
préalable sur les données n’est nécessaire.

Les résultats obtenus avec la méthode arbre de décision n’étaient pas convaincants en terme d’erreurs
(autour de 50 % d’erreur), pour cela on a choisi de ne pas les exposés et de réfléchir d’avantage a amélioré ces
taux d’erreurs.

Ce stage effectué au sein de l’université d’Orléans en relation avec l’entreprise Genergies a été très
enrichissant et très formateur. J’ai pu en effet mettre en pratique les méthodes statistiques étudiées au cours de
ma formation à l’université mais également développer mes compétences dans le logiciel R. Enfin, j’ai
particulièrement apprécié les conseils et la confiance qui m’ont été accordés par l’ensemble de l’équipe durant
ces quatre mois de stage.

35

Référence

http://fr.wikipedia.org/
http://www.photovoltaique.info/-‐Photovoltaique-‐sur-‐batiment-‐.html

ZAKI M. (2001). ”SPADE : an efficient algorithm for Mining Frequent Sequences“, Machine Learning,
Vol. 42,2001, p31‐60. Kluwer Academic Publishers.

http://www.insee.fr/fr/themes/document.asp?ref_id=16930&page=etudes_detaillees/drire/drire_36.htm
http://genergies.fr/
http://theses.insa-‐lyon.fr/publication/2007ISAL0039/these.pdf
http://www.info.univ-‐angers.fr/~gh/wstat/discr.php
http://www-‐poleia.lip6.fr/~amann/BDMD-‐M2/02-‐reglesassoc.pdf
https://conferences.telecom-‐bretagne.eu/data/qcd2008/marinica_etal_QDC_2008.pdf

36

BILAN PERSONNEL

Ce stage s'est révélé riche en enseignement en ce qui concerne les connaissances et les compétences apportées.
Mon stage chez Genergies fut ma deuxième expérience professionnelle dans le domaine des statistiques, ce qui m'a
permis de voir en quoi peut consister le métier de statisticien.

Durant ces quatre mois de stage, j'ai eu l'opportunité de travailler sur un projet très enrichissant. Outre le fait
d'avoir mis en oeuvre mes connaissances théoriques acquises durant mes études, je me suis enrichi sur le plan humain
en m'intégrant à des personnes très sympathiques, qui ont su me faire partager leurs connaissances et leurs
expériences.

Cette expérience professionnelle m'a permis d'enrichir mes connaissances dans les domaines de l'informatique et
des statistiques. J'ai approfondi l'utilisation des logiciels statistiques (R et Excel), ce qui est une chance pour la suite de
mon parcours professionnel.

Tout ceci m'encourage à poursuivre dans le domaine des statistiques. Ce stage a été une ouverture
très intéressante sur le monde professionnel.

37
Annexes
Séquences fréquentes

Séquence support
1 <{a-‐10}> 0.1000000
2 <{a-‐13}> 0.1000000
3 <{a-‐14}> 0.1571429
4 <{a-‐15}> 0.4000000
5 <{a-‐16}> 0.8571429
6 <{b-‐10}> 0.3285714
7 <{b-‐11}> 0.1571429
8 <{b-‐12}> 0.2000000
9 <{b-‐13}> 0.2142857
10 <{b-‐14}> 0.3142857
11 <{b-‐15}> 0.3857143
12 <{b-‐16}> 0.1428571
13 <{c-‐10}> 0.4714286
14 <{c-‐11}> 0.3142857
15 <{c-‐12}> 0.1714286
16 <{c-‐13}> 0.3142857
17 <{c-‐14}> 0.2714286
18 <{c-‐15}> 0.2000000
19 <{d-‐10}> 0.1000000
20 <{d-‐11}> 0.4714286
21 <{d-‐12}> 0.5428571
22 <{d-‐13}> 0.3714286
23 <{d-‐14}> 0.2571429
24 <{c-‐10},{d-‐14}> 0.1428571
25 <{d-‐11},{d-‐14}> 0.1714286
26 <{d-‐12},{d-‐14}> 0.2142857
27 <{d-‐13},{d-‐14}> 0.1428571
28 <{d-‐12},{d-‐13},{d-‐14}> 0.1428571
29 <{d-‐11},{d-‐13},{d-‐14}> 0.1000000
30 <{c-‐10},{d-‐13},{d-‐14}> 0.1285714
31 <{d-‐11},{d-‐12},{d-‐13},{d-‐14}> 0.1000000
32 <{c-‐10},{d-‐12},{d-‐13},{d-‐14}> 0.1285714
33 <{d-‐11},{d-‐12},{d-‐14}> 0.1571429
34 <{c-‐10},{d-‐12},{d-‐14}> 0.1428571
35 <{c-‐10},{d-‐11},{d-‐12},{d-‐14}> 0.1000000
36 <{c-‐10},{d-‐11},{d-‐14}> 0.1000000
37 <{c-‐10},{d-‐13}> 0.2571429
38
38 <{c-‐11},{d-‐13}> 0.1428571
39 <{d-‐11},{d-‐13}> 0.2142857
40 <{d-‐12},{d-‐13}> 0.2714286
41 <{d-‐11},{d-‐12},{d-‐13}> 0.2000000
42 <{c-‐10},{d-‐12},{d-‐13}> 0.1714286
43 <{c-‐10},{d-‐11},{d-‐12},{d-‐13}> 0.1285714
44 <{c-‐10},{d-‐11},{d-‐13}> 0.1428571
45 <{c-‐10},{c-‐11},{d-‐13}> 0.1142857
46 <{b-‐10},{d-‐12}> 0.1000000
47 <{c-‐10},{d-‐12}> 0.3000000
48 <{c-‐11},{d-‐12}> 0.1428571
49 <{d-‐10},{d-‐12}> 0.1000000
50 <{d-‐11},{d-‐12}> 0.3714286
51 <{c-‐10},{d-‐11},{d-‐12}> 0.2285714
52 <{b-‐10},{d-‐11}> 0.1000000
53 <{c-‐10},{d-‐11}> 0.2857143
54 <{c-‐10},{c-‐15}> 0.1285714
55 <{d-‐11},{c-‐15}> 0.1142857
56 <{d-‐12},{c-‐15}> 0.1571429
57 <{d-‐13},{c-‐15}> 0.1285714
58 <{d-‐14},{c-‐15}> 0.1142857
59 <{d-‐12},{d-‐14},{c-‐15}> 0.1000000
60 <{d-‐12},{d-‐13},{c-‐15}> 0.1142857
61 <{c-‐10},{d-‐13},{c-‐15}> 0.1142857
62 <{c-‐10},{d-‐12},{d-‐13},{c-‐15}> 0.1000000
63 <{d-‐11},{d-‐12},{c-‐15}> 0.1000000
64 <{c-‐10},{d-‐12},{c-‐15}> 0.1142857
65 <{b-‐10},{c-‐14}> 0.1000000
66 <{c-‐10},{c-‐14}> 0.1142857
67 <{c-‐11},{c-‐14}> 0.1285714
68 <{c-‐12},{c-‐14}> 0.1142857
69 <{c-‐13},{c-‐14}> 0.1142857
70 <{d-‐12},{c-‐14}> 0.1000000
71 <{d-‐13},{c-‐14}> 0.1428571
72 <{c-‐11},{d-‐13},{c-‐14}> 0.1000000
73 <{b-‐10},{c-‐13}> 0.1428571
74 <{c-‐10},{c-‐13}> 0.1428571
75 <{d-‐11},{c-‐13}> 0.1714286
76 <{d-‐12},{c-‐13}> 0.1571429
77 <{d-‐11},{d-‐12},{c-‐13}> 0.1142857
78 <{c-‐10},{d-‐11},{c-‐13}> 0.1000000
79 <{c-‐10},{c-‐12}> 0.1000000
80 <{b-‐10},{c-‐11}> 0.1285714
81 <{c-‐10},{c-‐11}> 0.1571429
39
82 <{b-‐10},{b-‐15}> 0.1571429
83 <{c-‐10},{b-‐15}> 0.1714286
84 <{c-‐11},{b-‐15}> 0.1714286
85 <{c-‐12},{b-‐15}> 0.1142857
86 <{c-‐13},{b-‐15}> 0.1285714
87 <{c-‐14},{b-‐15}> 0.1571429
88 <{d-‐11},{b-‐15}> 0.1428571
89 <{d-‐12},{b-‐15}> 0.2000000
90 <{d-‐13},{b-‐15}> 0.1714286
91 <{d-‐14},{b-‐15}> 0.1142857
92 <{d-‐12},{d-‐14},{b-‐15}> 0.1000000
93 <{c-‐11},{d-‐13},{b-‐15}> 0.1000000
94 <{c-‐10},{d-‐13},{b-‐15}> 0.1142857
95 <{d-‐11},{d-‐12},{b-‐15}> 0.1142857
96 <{c-‐11},{c-‐14},{b-‐15}> 0.1000000
97 <{b-‐13},{b-‐14}> 0.1428571
98 <{c-‐10},{b-‐14}> 0.1571429
99 <{d-‐11},{b-‐14}> 0.1571429
100 <{d-‐12},{b-‐14}> 0.1857143
101 <{d-‐11},{d-‐12},{b-‐14}> 0.1142857
102 <{c-‐10},{d-‐12},{b-‐14}> 0.1000000
103 <{c-‐10},{d-‐11},{b-‐14}> 0.1000000
104 <{b-‐10},{b-‐13}> 0.1142857
105 <{b-‐10},{b-‐12}> 0.1285714
106 <{a-‐13},{a-‐16}> 0.1000000
107 <{a-‐14},{a-‐16}> 0.1285714
108 <{a-‐15},{a-‐16}> 0.3857143
109 <{b-‐10},{a-‐16}> 0.2857143
110 <{b-‐11},{a-‐16}> 0.1571429
111 <{b-‐12},{a-‐16}> 0.1714286
112 <{b-‐13},{a-‐16}> 0.2000000
113 <{b-‐14},{a-‐16}> 0.3142857
114 <{b-‐15},{a-‐16}> 0.3285714
115 <{c-‐10},{a-‐16}> 0.3857143
116 <{c-‐11},{a-‐16}> 0.2571429
117 <{c-‐12},{a-‐16}> 0.1428571
118 <{c-‐13},{a-‐16}> 0.2571429
119 <{c-‐14},{a-‐16}> 0.2285714
120 <{c-‐15},{a-‐16}> 0.1428571
121 <{d-‐10},{a-‐16}> 0.1000000
122 <{d-‐11},{a-‐16}> 0.3857143
123 <{d-‐12},{a-‐16}> 0.4571429
124 <{d-‐13},{a-‐16}> 0.3000000
40
125 <{d-‐14},{a-‐16}> 0.1857143
126 <{d-‐13},{d-‐14},{a-‐16}> 0.1142857
127 <{d-‐12},{d-‐14},{a-‐16}> 0.1571429
128 <{d-‐11},{d-‐14},{a-‐16}> 0.1285714
129 <{c-‐10},{d-‐14},{a-‐16}> 0.1000000
130 <{d-‐12},{d-‐13},{d-‐14},{a-‐16}> 0.1142857
131 <{c-‐10},{d-‐13},{d-‐14},{a-‐16}> 0.1000000
132 <{c-‐10},{d-‐12},{d-‐13},{d-‐14},{a-‐16}> 0.1000000
133 <{d-‐11},{d-‐12},{d-‐14},{a-‐16}> 0.1142857
134 <{c-‐10},{d-‐12},{d-‐14},{a-‐16}> 0.1000000
135 <{d-‐12},{d-‐13},{a-‐16}> 0.2285714
136 <{d-‐11},{d-‐13},{a-‐16}> 0.1714286
137 <{d-‐13},{c-‐14},{a-‐16}> 0.1142857
138 <{c-‐11},{d-‐13},{a-‐16}> 0.1142857
139 <{c-‐10},{d-‐13},{a-‐16}> 0.2000000
140 <{d-‐13},{b-‐15},{a-‐16}> 0.1428571
141 <{d-‐11},{d-‐12},{d-‐13},{a-‐16}> 0.1714286
142 <{c-‐10},{d-‐12},{d-‐13},{a-‐16}> 0.1428571
143 <{c-‐10},{d-‐11},{d-‐12},{d-‐13},{a-‐16}> 0.1000000
144 <{c-‐10},{d-‐11},{d-‐13},{a-‐16}> 0.1000000
145 <{c-‐10},{c-‐11},{d-‐13},{a-‐16}> 0.1000000
146 <{d-‐11},{d-‐12},{a-‐16}> 0.3142857
147 <{d-‐10},{d-‐12},{a-‐16}> 0.1000000
148 <{d-‐12},{c-‐15},{a-‐16}> 0.1142857
149 <{d-‐12},{c-‐13},{a-‐16}> 0.1142857
150 <{c-‐11},{d-‐12},{a-‐16}> 0.1142857
151 <{c-‐10},{d-‐12},{a-‐16}> 0.2428571
152 <{d-‐12},{b-‐15},{a-‐16}> 0.1857143
153 <{d-‐12},{b-‐14},{a-‐16}> 0.1857143
154 <{d-‐12},{a-‐15},{a-‐16}> 0.1571429
155 <{c-‐10},{d-‐11},{d-‐12},{a-‐16}> 0.1714286
156 <{d-‐11},{c-‐13},{a-‐16}> 0.1285714
157 <{c-‐10},{d-‐11},{a-‐16}> 0.2142857
158 <{d-‐11},{b-‐15},{a-‐16}> 0.1142857
159 <{d-‐11},{b-‐14},{a-‐16}> 0.1571429
160 <{d-‐11},{a-‐15},{a-‐16}> 0.2000000
161 <{c-‐10},{c-‐15},{a-‐16}> 0.1000000
162 <{c-‐13},{c-‐14},{a-‐16}> 0.1000000
163 <{c-‐12},{c-‐14},{a-‐16}> 0.1000000
164 <{c-‐11},{c-‐14},{a-‐16}> 0.1000000
165 <{c-‐10},{c-‐14},{a-‐16}> 0.1000000
166 <{c-‐14},{b-‐15},{a-‐16}> 0.1428571
167 <{c-‐10},{c-‐13},{a-‐16}> 0.1142857
41
168 <{c-‐13},{b-‐15},{a-‐16}> 0.1142857
169 <{b-‐10},{c-‐13},{a-‐16}> 0.1142857
170 <{c-‐13},{a-‐15},{a-‐16}> 0.1285714
171 <{c-‐10},{c-‐12},{a-‐16}> 0.1000000
172 <{c-‐12},{b-‐15},{a-‐16}> 0.1000000
173 <{c-‐10},{c-‐11},{a-‐16}> 0.1428571
174 <{c-‐11},{b-‐15},{a-‐16}> 0.1428571
175 <{b-‐10},{c-‐11},{a-‐16}> 0.1000000
176 <{c-‐10},{b-‐15},{a-‐16}> 0.1285714
177 <{c-‐10},{b-‐14},{a-‐16}> 0.1571429
178 <{c-‐10},{a-‐15},{a-‐16}> 0.1571429
179 <{b-‐10},{b-‐15},{a-‐16}> 0.1428571
180 <{d-‐11},{d-‐12},{b-‐15},{a-‐16}> 0.1000000
181 <{b-‐13},{b-‐14},{a-‐16}> 0.1428571
182 <{b-‐14},{a-‐15},{a-‐16}> 0.2000000
183 <{d-‐11},{d-‐12},{b-‐14},{a-‐16}> 0.1142857
184 <{c-‐10},{d-‐12},{b-‐14},{a-‐16}> 0.1000000
185 <{c-‐10},{d-‐11},{b-‐14},{a-‐16}> 0.1000000
186 <{b-‐10},{b-‐13},{a-‐16}> 0.1000000
187 <{b-‐13},{a-‐15},{a-‐16}> 0.1142857
188 <{b-‐10},{b-‐12},{a-‐16}> 0.1285714
189 <{b-‐12},{a-‐15},{a-‐16}> 0.1142857
190 <{b-‐10},{a-‐15},{a-‐16}> 0.1142857
191 <{a-‐14},{a-‐15},{a-‐16}> 0.1142857
192 <{d-‐11},{d-‐12},{a-‐15},{a-‐16}> 0.1428571
193 <{c-‐10},{d-‐12},{a-‐15},{a-‐16}> 0.1000000
194 <{d-‐12},{b-‐14},{a-‐15},{a-‐16}> 0.1000000
195 <{c-‐10},{d-‐11},{a-‐15},{a-‐16}> 0.1142857
196 <{d-‐11},{b-‐14},{a-‐15},{a-‐16}> 0.1285714
197 <{c-‐10},{b-‐14},{a-‐15},{a-‐16}> 0.1142857
198 <{a-‐14},{a-‐15}> 0.1285714
199 <{b-‐10},{a-‐15}> 0.1142857
200 <{b-‐12},{a-‐15}> 0.1142857
201 <{b-‐13},{a-‐15}> 0.1142857
202 <{b-‐14},{a-‐15}> 0.2000000
203 <{c-‐10},{a-‐15}> 0.1714286
204 <{c-‐13},{a-‐15}> 0.1428571
205 <{d-‐11},{a-‐15}> 0.2142857
206 <{d-‐12},{a-‐15}> 0.1714286
207 <{d-‐11},{d-‐12},{a-‐15}> 0.1571429
208 <{c-‐10},{d-‐12},{a-‐15}> 0.1142857
209 <{d-‐12},{b-‐14},{a-‐15}> 0.1000000
210 <{c-‐10},{d-‐11},{d-‐12},{a-‐15}> 0.1000000
42
211 <{c-‐10},{d-‐11},{a-‐15}> 0.1285714
212 <{d-‐11},{b-‐14},{a-‐15}> 0.1285714
213 <{c-‐10},{c-‐13},{a-‐15}> 0.1000000
214 <{c-‐10},{b-‐14},{a-‐15}> 0.1142857

Extraction des 191 règles d’associations

rule support confidence lift
5 <{d-‐12},{d-‐13}> => <{d-‐14}> 0.1428571 0.5263158 2.0467836
6 <{d-‐11},{d-‐13}> => <{d-‐14}> 0.1000000 0.4666667 1.8148148
7 <{c-‐10},{d-‐13}> => <{d-‐14}> 0.1285714 0.5000000 1.9444444
8 <{d-‐11},{d-‐12},{d-‐13}> => <{d-‐14}> 0.1000000 0.5000000 1.9444444
9 <{c-‐10},{d-‐12},{d-‐13}> => <{d-‐14}> 0.1285714 0.7500000 2.9166667
10 <{d-‐11},{d-‐12}> => <{d-‐14}> 0.1571429 0.4230769 1.6452991
11 <{c-‐10},{d-‐12}> => <{d-‐14}> 0.1428571 0.4761905 1.8518519
12 <{c-‐10},{d-‐11},{d-‐12}> => <{d-‐14}> 0.1000000 0.4375000 1.7013889
14 <{c-‐10}> => <{d-‐13}> 0.2571429 0.5454545 1.4685315
15 <{c-‐11}> => <{d-‐13}> 0.1428571 0.4545455 1.2237762
16 <{d-‐11}> => <{d-‐13}> 0.2142857 0.4545455 1.2237762
17 <{d-‐12}> => <{d-‐13}> 0.2714286 0.5000000 1.3461538
18 <{d-‐11},{d-‐12}> => <{d-‐13}> 0.2000000 0.5384615 1.4497041
19 <{c-‐10},{d-‐12}> => <{d-‐13}> 0.1714286 0.5714286 1.5384615
20 <{c-‐10},{d-‐11},{d-‐12}> => <{d-‐13}> 0.1285714 0.5625000 1.5144231
21 <{c-‐10},{d-‐11}> => <{d-‐13}> 0.1428571 0.5000000 1.3461538
22 <{c-‐10},{c-‐11}> => <{d-‐13}> 0.1142857 0.7272727 1.9580420
24 <{c-‐10}> => <{d-‐12}> 0.3000000 0.6363636 1.1722488
25 <{c-‐11}> => <{d-‐12}> 0.1428571 0.4545455 0.8373206
26 <{d-‐10}> => <{d-‐12}> 0.1000000 1.0000000 1.8421053
27 <{d-‐11}> => <{d-‐12}> 0.3714286 0.7878788 1.4513557
28 <{c-‐10},{d-‐11}> => <{d-‐12}> 0.2285714 0.8000000 1.4736842
30 <{c-‐10}> => <{d-‐11}> 0.2857143 0.6060606 1.2855831
35 <{d-‐14}> => <{c-‐15}> 0.1142857 0.4444444 2.2222222
36 <{d-‐12},{d-‐14}> => <{c-‐15}> 0.1000000 0.4666667 2.3333333
37 <{d-‐12},{d-‐13}> => <{c-‐15}> 0.1142857 0.4210526 2.1052632
38 <{c-‐10},{d-‐13}> => <{c-‐15}> 0.1142857 0.4444444 2.2222222
39 <{c-‐10},{d-‐12},{d-‐13}> => <{c-‐15}> 0.1000000 0.5833333 2.9166667
44 <{c-‐11}> => <{c-‐14}> 0.1285714 0.4090909 1.5071770
45 <{c-‐12}> => <{c-‐14}> 0.1142857 0.6666667 2.4561404
49 <{c-‐11},{d-‐13}> => <{c-‐14}> 0.1000000 0.7000000 2.5789474
43
50 <{b-‐10}> => <{c-‐13}> 0.1428571 0.4347826 1.3833992
59 <{b-‐10}> => <{b-‐15}> 0.1571429 0.4782609 1.2399356
61 <{c-‐11}> => <{b-‐15}> 0.1714286 0.5454545 1.4141414
62 <{c-‐12}> => <{b-‐15}> 0.1142857 0.6666667 1.7283951
63 <{c-‐13}> => <{b-‐15}> 0.1285714 0.4090909 1.0606061
64 <{c-‐14}> => <{b-‐15}> 0.1571429 0.5789474 1.5009747
67 <{d-‐13}> => <{b-‐15}> 0.1714286 0.4615385 1.1965812
68 <{d-‐14}> => <{b-‐15}> 0.1142857 0.4444444 1.1522634
69 <{d-‐12},{d-‐14}> => <{b-‐15}> 0.1000000 0.4666667 1.2098765
70 <{c-‐11},{d-‐13}> => <{b-‐15}> 0.1000000 0.7000000 1.8148148
71 <{c-‐10},{d-‐13}> => <{b-‐15}> 0.1142857 0.4444444 1.1522634
73 <{c-‐11},{c-‐14}> => <{b-‐15}> 0.1000000 0.7777778 2.0164609
74 <{b-‐13}> => <{b-‐14}> 0.1428571 0.6666667 2.1212121
83 <{a-‐13}> => <{a-‐16}> 0.1000000 1.0000000 1.1666667
84 <{a-‐14}> => <{a-‐16}> 0.1285714 0.8181818 0.9545455
85 <{a-‐15}> => <{a-‐16}> 0.3857143 0.9642857 1.1250000
86 <{b-‐10}> => <{a-‐16}> 0.2857143 0.8695652 1.0144928
87 <{b-‐11}> => <{a-‐16}> 0.1571429 1.0000000 1.1666667
88 <{b-‐12}> => <{a-‐16}> 0.1714286 0.8571429 1.0000000
89 <{b-‐13}> => <{a-‐16}> 0.2000000 0.9333333 1.0888889
90 <{b-‐14}> => <{a-‐16}> 0.3142857 1.0000000 1.1666667
91 <{b-‐15}> => <{a-‐16}> 0.3285714 0.8518519 0.9938272
92 <{c-‐10}> => <{a-‐16}> 0.3857143 0.8181818 0.9545455
93 <{c-‐11}> => <{a-‐16}> 0.2571429 0.8181818 0.9545455
94 <{c-‐12}> => <{a-‐16}> 0.1428571 0.8333333 0.9722222
95 <{c-‐13}> => <{a-‐16}> 0.2571429 0.8181818 0.9545455
96 <{c-‐14}> => <{a-‐16}> 0.2285714 0.8421053 0.9824561
97 <{c-‐15}> => <{a-‐16}> 0.1428571 0.7142857 0.8333333
98 <{d-‐10}> => <{a-‐16}> 0.1000000 1.0000000 1.1666667
99 <{d-‐11}> => <{a-‐16}> 0.3857143 0.8181818 0.9545455
100 <{d-‐12}> => <{a-‐16}> 0.4571429 0.8421053 0.9824561
101 <{d-‐13}> => <{a-‐16}> 0.3000000 0.8076923 0.9423077
102 <{d-‐14}> => <{a-‐16}> 0.1857143 0.7222222 0.8425926
103 <{d-‐13},{d-‐14}> => <{a-‐16}> 0.1142857 0.8000000 0.9333333
104 <{d-‐12},{d-‐14}> => <{a-‐16}> 0.1571429 0.7333333 0.8555556
105 <{d-‐11},{d-‐14}> => <{a-‐16}> 0.1285714 0.7500000 0.8750000
106 <{c-‐10},{d-‐14}> => <{a-‐16}> 0.1000000 0.7000000 0.8166667
107 <{d-‐12},{d-‐13},{d-‐14}> => <{a-‐16}> 0.1142857 0.8000000 0.9333333
108 <{c-‐10},{d-‐13},{d-‐14}> => <{a-‐16}> 0.1000000 0.7777778 0.9074074
109 <{c-‐10},{d-‐12},{d-‐13},{d-‐14}> => <{a-‐16}> 0.1000000 0.7777778 0.9074074
110 <{d-‐11},{d-‐12},{d-‐14}> => <{a-‐16}> 0.1142857 0.7272727 0.8484848
111 <{c-‐10},{d-‐12},{d-‐14}> => <{a-‐16}> 0.1000000 0.7000000 0.8166667
112 <{d-‐12},{d-‐13}> => <{a-‐16}> 0.2285714 0.8421053 0.9824561
44
113 <{d-‐11},{d-‐13}> => <{a-‐16}> 0.1714286 0.8000000 0.9333333
114 <{d-‐13},{c-‐14}> => <{a-‐16}> 0.1142857 0.8000000 0.9333333
115 <{c-‐11},{d-‐13}> => <{a-‐16}> 0.1142857 0.8000000 0.9333333
116 <{c-‐10},{d-‐13}> => <{a-‐16}> 0.2000000 0.7777778 0.9074074
117 <{d-‐13},{b-‐15}> => <{a-‐16}> 0.1428571 0.8333333 0.9722222
118 <{d-‐11},{d-‐12},{d-‐13}> => <{a-‐16}> 0.1714286 0.8571429 1.0000000
119 <{c-‐10},{d-‐12},{d-‐13}> => <{a-‐16}> 0.1428571 0.8333333 0.9722222
120 <{c-‐10},{d-‐11},{d-‐12},{d-‐13}> => <{a-‐16}> 0.1000000 0.7777778 0.9074074
121 <{c-‐10},{d-‐11},{d-‐13}> => <{a-‐16}> 0.1000000 0.7000000 0.8166667
122 <{c-‐10},{c-‐11},{d-‐13}> => <{a-‐16}> 0.1000000 0.8750000 1.0208333
123 <{d-‐11},{d-‐12}> => <{a-‐16}> 0.3142857 0.8461538 0.9871795
124 <{d-‐10},{d-‐12}> => <{a-‐16}> 0.1000000 1.0000000 1.1666667
125 <{d-‐12},{c-‐15}> => <{a-‐16}> 0.1142857 0.7272727 0.8484848
126 <{d-‐12},{c-‐13}> => <{a-‐16}> 0.1142857 0.7272727 0.8484848
127 <{c-‐11},{d-‐12}> => <{a-‐16}> 0.1142857 0.8000000 0.9333333
128 <{c-‐10},{d-‐12}> => <{a-‐16}> 0.2428571 0.8095238 0.9444444
129 <{d-‐12},{b-‐15}> => <{a-‐16}> 0.1857143 0.9285714 1.0833333
130 <{d-‐12},{b-‐14}> => <{a-‐16}> 0.1857143 1.0000000 1.1666667
131 <{d-‐12},{a-‐15}> => <{a-‐16}> 0.1571429 0.9166667 1.0694444
132 <{c-‐10},{d-‐11},{d-‐12}> => <{a-‐16}> 0.1714286 0.7500000 0.8750000
133 <{d-‐11},{c-‐13}> => <{a-‐16}> 0.1285714 0.7500000 0.8750000
134 <{c-‐10},{d-‐11}> => <{a-‐16}> 0.2142857 0.7500000 0.8750000
135 <{d-‐11},{b-‐15}> => <{a-‐16}> 0.1142857 0.8000000 0.9333333
136 <{d-‐11},{b-‐14}> => <{a-‐16}> 0.1571429 1.0000000 1.1666667
137 <{d-‐11},{a-‐15}> => <{a-‐16}> 0.2000000 0.9333333 1.0888889
138 <{c-‐10},{c-‐15}> => <{a-‐16}> 0.1000000 0.7777778 0.9074074
139 <{c-‐13},{c-‐14}> => <{a-‐16}> 0.1000000 0.8750000 1.0208333
140 <{c-‐12},{c-‐14}> => <{a-‐16}> 0.1000000 0.8750000 1.0208333
141 <{c-‐11},{c-‐14}> => <{a-‐16}> 0.1000000 0.7777778 0.9074074
142 <{c-‐10},{c-‐14}> => <{a-‐16}> 0.1000000 0.8750000 1.0208333
143 <{c-‐14},{b-‐15}> => <{a-‐16}> 0.1428571 0.9090909 1.0606061
144 <{c-‐10},{c-‐13}> => <{a-‐16}> 0.1142857 0.8000000 0.9333333
145 <{c-‐13},{b-‐15}> => <{a-‐16}> 0.1142857 0.8888889 1.0370370
146 <{b-‐10},{c-‐13}> => <{a-‐16}> 0.1142857 0.8000000 0.9333333
147 <{c-‐13},{a-‐15}> => <{a-‐16}> 0.1285714 0.9000000 1.0500000
148 <{c-‐10},{c-‐12}> => <{a-‐16}> 0.1000000 1.0000000 1.1666667
149 <{c-‐12},{b-‐15}> => <{a-‐16}> 0.1000000 0.8750000 1.0208333
150 <{c-‐10},{c-‐11}> => <{a-‐16}> 0.1428571 0.9090909 1.0606061
151 <{c-‐11},{b-‐15}> => <{a-‐16}> 0.1428571 0.8333333 0.9722222
152 <{b-‐10},{c-‐11}> => <{a-‐16}> 0.1000000 0.7777778 0.9074074
153 <{c-‐10},{b-‐15}> => <{a-‐16}> 0.1285714 0.7500000 0.8750000
154 <{c-‐10},{b-‐14}> => <{a-‐16}> 0.1571429 1.0000000 1.1666667
155 <{c-‐10},{a-‐15}> => <{a-‐16}> 0.1571429 0.9166667 1.0694444
45
156 <{b-‐10},{b-‐15}> => <{a-‐16}> 0.1428571 0.9090909 1.0606061
157 <{d-‐11},{d-‐12},{b-‐15}> => <{a-‐16}> 0.1000000 0.8750000 1.0208333
158 <{b-‐13},{b-‐14}> => <{a-‐16}> 0.1428571 1.0000000 1.1666667
159 <{b-‐14},{a-‐15}> => <{a-‐16}> 0.2000000 1.0000000 1.1666667
160 <{d-‐11},{d-‐12},{b-‐14}> => <{a-‐16}> 0.1142857 1.0000000 1.1666667
161 <{c-‐10},{d-‐12},{b-‐14}> => <{a-‐16}> 0.1000000 1.0000000 1.1666667
162 <{c-‐10},{d-‐11},{b-‐14}> => <{a-‐16}> 0.1000000 1.0000000 1.1666667
163 <{b-‐10},{b-‐13}> => <{a-‐16}> 0.1000000 0.8750000 1.0208333
164 <{b-‐13},{a-‐15}> => <{a-‐16}> 0.1142857 1.0000000 1.1666667
165 <{b-‐10},{b-‐12}> => <{a-‐16}> 0.1285714 1.0000000 1.1666667
166 <{b-‐12},{a-‐15}> => <{a-‐16}> 0.1142857 1.0000000 1.1666667
167 <{b-‐10},{a-‐15}> => <{a-‐16}> 0.1142857 1.0000000 1.1666667
168 <{a-‐14},{a-‐15}> => <{a-‐16}> 0.1142857 0.8888889 1.0370370
169 <{d-‐11},{d-‐12},{a-‐15}> => <{a-‐16}> 0.1428571 0.9090909 1.0606061
170 <{c-‐10},{d-‐12},{a-‐15}> => <{a-‐16}> 0.1000000 0.8750000 1.0208333
171 <{d-‐12},{b-‐14},{a-‐15}> => <{a-‐16}> 0.1000000 1.0000000 1.1666667
172 <{c-‐10},{d-‐11},{a-‐15}> => <{a-‐16}> 0.1142857 0.8888889 1.0370370
173 <{d-‐11},{b-‐14},{a-‐15}> => <{a-‐16}> 0.1285714 1.0000000 1.1666667
174 <{c-‐10},{b-‐14},{a-‐15}> => <{a-‐16}> 0.1142857 1.0000000 1.1666667
175 <{a-‐14}> => <{a-‐15}> 0.1285714 0.8181818 2.0454545
177 <{b-‐12}> => <{a-‐15}> 0.1142857 0.5714286 1.4285714
178 <{b-‐13}> => <{a-‐15}> 0.1142857 0.5333333 1.3333333
179 <{b-‐14}> => <{a-‐15}> 0.2000000 0.6363636 1.5909091
181 <{c-‐13}> => <{a-‐15}> 0.1428571 0.4545455 1.1363636
182 <{d-‐11}> => <{a-‐15}> 0.2142857 0.4545455 1.1363636
184 <{d-‐11},{d-‐12}> => <{a-‐15}> 0.1571429 0.4230769 1.0576923
186 <{d-‐12},{b-‐14}> => <{a-‐15}> 0.1000000 0.5384615 1.3461538
187 <{c-‐10},{d-‐11},{d-‐12}> => <{a-‐15}> 0.1000000 0.4375000 1.0937500
188 <{c-‐10},{d-‐11}> => <{a-‐15}> 0.1285714 0.4500000 1.1250000
189 <{d-‐11},{b-‐14}> => <{a-‐15}> 0.1285714 0.8181818 2.0454545
190 <{c-‐10},{c-‐13}> => <{a-‐15}> 0.1000000 0.7000000 1.7500000
191 <{c-‐10},{b-‐14}> => <{a-‐15}> 0.1142857 0.7272727 1.8181818

46

47

Ouali

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ouali

Transféré par

Droits d'auteur :

Formats disponibles

Data mining temporel et prédiction de PV

1.1. Contexte ................................................................................................................................................................ 5

1.2. Objectifs ................................................................................................................................................................ 6

1.3. Plan ....................................................................................................................................................................... 6

2.1. Historique ............................................................................................................................................................. 7

2.2. Le rayonnement solaire ........................................................................................................................................ 7

2.3. Principe de fonctionnement ................................................................................................................................. 8

3. Entreprise et Données disponibles .............................................................................................................................. 9

3.1. Entreprise Genergies ............................................................................................................................................. 9

3.2. Exemples de réalisations PV Genergies ................................................................................................................ 9

3.3. Le contexte énergétique guadeloupéen ............................................................................................................ 10

3.4. Installation PV ..................................................................................................................................................... 11

3.5. Caractéristiques des champs photovoltaïques à l'étude .................................................................................... 12

3.6. Smart Grids .................................................................................................................. Erreur ! Signet non défini.

3.7. Données disponibles ........................................................................................................................................... 13

4. Introduction Data mining ........................................................................................................................................... 14

4.1. Présentation du data mining .............................................................................................................................. 14

4.2. KDD (Knowledge Discovery in Data bases) ......................................................................................................... 15

4.4. Règles d’associations .......................................................................................................................................... 17

5.1. Vérification des données .................................................................................................................................... 24

5.2. Traitement des données : ................................................................................................................................... 25

5.2.1. La puissance DC : .......................................................................................................................................... 26

5.3 Résultats et Discussion ........................................................................................................................................ 29

5.3.1 Les Itemset Fréquents ................................................................................................................................... 29

5.3.2 Les règles d’associations ............................................................................................................................... 30

5.3.3 Interprétation des résultats : ........................................................................................................................ 31

6. Conclusion .................................................................................................................................................................. 35

Référence .......................................................................................................................................................................... 36

Annexes ............................................................................................................................................................................. 38

2.2. Le rayonnement solaire

2.3. Principe de fonctionnement

2.4. Smart Grids

3.1. Entreprise Genergies

Genergies, une filiale du Groupe Blandin, est fondée en

3.2. Exemples de réalisations PV Genergies

Figure 4, Réalisation PV de Genergies.

Figure 5, Réalisation PV de Genergies.

3.3. Le contexte énergétique guadeloupéen

3.5. Caractéristiques des champs photovoltaïques à l'étude

PUISSANCE DC Watt Courant continu

PUISSANCE AC Watt Courant alternatif

TENSION VDC (V) Volte Tension électrique

Type d’utilisation habitat Habitation

Surface 1027 m2 Surface de la toiture

Puissance Totale 32.4 kwc Puissance Totale de L’installation

Surface 1027 m2 Surface de la toiture

3.7. Données disponibles

4.1. Présentation du data mining

4.3. Les techniques et outils du data mining

Figure 13, Les étapes d’extraction de règles d’association.

𝐒𝐮𝐩𝐩 (𝐗 ∪ 𝐘)

-­‐ Indexation : trouver les séries temporelles les plus similaires.

Figure 14, Base de données exemple pour Spade.

4.4.5.3. Algorithme CSPADE

5.1. Vérification des données

0 10000 20000 30000

21-11-2013 24-11-2013 27-11-2013 30-11-2013 21

01-12-2013 05-12-2013 09-12-2013 13-12-2013 17-12-2013 21-12-2013 25-12-2013 29-12-2013

01-01-2014 05-01-2014 09-01-2014 13-01-2014 17-01-2014 21-01-2014 25-01-2014 29-01-2014

5.2. Traitement des données :

Figure 19, Extrait de la base de données.

Figure 22, Extrait de la base de données transformée.

Figure 23, Représentation horizontale de la base de données.

Figure 24, Représentation verticale de la base de données.

-‐ Indexation : trouver les séries temporelles les plus similaires.

<d-‐11, d-‐13> => < d-‐14 > 0,1 0,4666667 1,8148148