Data Mining Chaima

HI-TEK
Weather
prediction Réaliser par 4 ING B :
Data Mining Linda ISSAOUI ABDELAATI Wafa
Chaïma SALMI Wael KAABI
2019-2020
Introduction Générale
Nous sommes à une époque souvent appelée l'ère de l'information. À l'ère de l'information,
parce que nous pensons que l'information mène au pouvoir et au succès, et grâce à
technologies sophistiquées telles que les ordinateurs, les satellites, etc., nous avons collecté
d'énormes quantités d'informations.
Initialement, avec l'avènement des ordinateurs et des moyens pour le stockage numérique de
masse, nous avons commencé à collecter et à stocker toutes sortes de données, en la puissance
des ordinateurs pour aider à trier cet amalgame d'informations.
Malheureusement, ces collections massives de données stockées sur des structures disparates
sont devenues très rapidement accablant. Ce chaos initial a conduit à la création de bases de
données structurées et systèmes de gestion de bases de données (SGBD). Les systèmes de
gestion de base de données efficace sont été des atouts très importants pour la gestion d'un
grand corpus de données et surtoutpour une récupération efficace et efficiente d'informations
particulières à partir d'une grande collectionchaque fois que nécessaire.
La prolifération des systèmes de gestion de bases de données a égalementcontribué à la
récente collecte massive de toutes sortes d'informations.
Aujourd'hui, nous avons loinplus d'informations que nous ne pouvons en traiter : des
transactions commerciales et des données scientifiques auximages satellites, rapports texte et
renseignements militaires. La recherche d'informations n'est tout simplement pasplus assez
pour la prise de décision. Face à d’énormes collections de données, nous avonsmaintenant
créé de nouveaux besoins pour nous aider à faire de meilleurs choix de gestion. Ces besoins
sontrésumés automatique des données, extraction des informations stockées, etla découverte
de modèles dans les données brutes alors on parle ici de processus du Data Mining.
Chapitre 1 : Etude de cas
Introduction
Les prévisions météorologiques concernent principalement la prévision des conditions

météorologiques dans le futur. Prévisions météofournir des informations critiques sur
la météo future.
Il existe différentes approches disponibles dans les prévisions météorologiques,

desimple observation du ciel sur des modèles mathématiques informatisés très
complexes. La prévision des conditions météorologiques estindispensable pour
diverses applications.
Certains d'entre eux sont la surveillance du climat, la détection de la sécheresse, la

prévision des phénomènes météorologiques violents, etc. Dans l'arméeopérations, il
existe un record historique considérable de cas où les conditions météorologiques ont
modifié le cours des batailles.
La prévision précise des conditions météorologiques est une tâche difficile en raison
de la nature dynamique de l'atmosphère.
Pour ce la toute au long de ce chapitre nous allons préciser notre problématique et la
solution proposée ensuite nous allons indiquer nos outils utilisés.
Page 1
1. Problématique
Les prévisions météorologiques sont l'application de la science et de la technologie

pour prédire l'état de l'atmosphère pour un endroit donné.
Les anciennes méthodes de prévision météorologique reposaient généralement sur des

modèles d'événements observés, également appelés reconnaissance des modèles. Par
exemple, on pourrait observer que si le coucher de soleil était particulièrement rouge,
le lendemain apportait souvent du beau temps. Cependant, toutes ces prévisions ne
sont pas fiables.
Alors comment stocker, gérer et utiliser ces énormes données météorologiques,
découvrir et comprendre la loi et la connaissance des données, contribuer à la
prévision météorologique complète et efficace.
2. Solution proposée
Puisque les prévisions météorologiques ont été l'un des problèmes les plus difficiles
sur le plan scientifique et technologique dans le monde au cours du siècle dernier.
Donc au cours de ce mini projet, nous allons utiliser la technique d'exploration de
données pour prédire la météo qui sont la température, l'humidité, la date, la ville et
l’évènement.
Le système de prévisions météorologiques prend des paramètres tels que la
température, l'humidité, la date et prévoira la météo sur la base des enregistrements
précédents, donc cette prédiction s'avérera fiable.
3. Les outils
3.1 Orange
Orange est une boîte à outils open source de visualisation de données ,

d' apprentissage automatique et d' exploration de données . Il comporte une interface
de programmation visuelle pour l'analyse exploratoire des données et
la visualisation interactive des données .
Page 2
Il est livré avec une fonctionnalité intéressante qui simplifiera la lecture de vos
données qui nécessite une conversion d'Excel en fichiers séparés par des tabulations
ou séparés par des virgules.
1.1 Logo d’Orange
3.2 Excel
L’Excel est un logiciel tableur de la suite bureautique Microsoft Officedéveloppé

et distribué par l'éditeur Microsoft.
Il est un outil utilisé en Data Mining qui est utile pour l’organisation degros
volumes de données à explorer sous forme des tableaux croisés dynamiques, la
Présentation des données et l’utilisation des fonctions statistiques.
1.2 Logo D’Excel
3.3 Python
Python est un langage de script de haut niveau, structuré et open source. Il est
multi-usage.
Page 3
Il est un langage de programmation très puissant utilisé en Data Mining pour faire
de l’analyse statistique, la classification, le clustering et l’analyse prédictive.
1.3 Logo de Python
Conclusion
Nous concluons que l'utilisation de techniques d'exploration de données pour la

prévision météorologique donne de bons résultats et peut être considérée comme
une alternative aux approches métrologiques traditionnelles.
Pour cela nous allons préciser au cours des chapitres suivants les algorithmes que
nous allons utiliser pour prédire les phénomènes météorologiques et les techniques
comme les arbres de décision, le regroupement et la régression…
Chapitre 2 : Pré-traitement des données
Introduction
Le prétraitement des données est une technique d'exploration de données qui est
utilisée pour transformer les données brutes dans un format utile et efficace. Les
données réelles sont souvent incomplètes, incohérentes et / ou dépourvues de certains
comportements, et sont susceptibles de contenir de nombreuses erreurs. Le
prétraitement des données est une méthode éprouvée pour résoudre ces problèmes et
préparer les données brutes à un traitement ultérieur. Cette étape est importante qu'elle
Page 4
soit effectuée correctement afin de ne pas impacter négativement le produit final ou la
sortie des données.
1. Collecte des données
La collecte des données est la première étape du traitement des données. Il est
important que les sources de données disponibles soient fiables et correctement
structurées pour que les données importées (et utilisées par la suite sous forme
d'information ou de connaissance) soient de la meilleure qualité possible.
1.1 Source du dataset
La base de données qu’on va utiliser de format csv provient du site web :

https://vincentarelbundock.github.io/Rdatasets/datasets.html.
1.2 Description
Notre dataset représente les mesures des facteurs climatique enregistré dans
différentes villes, comme la température et l'humidité qui permet de prévoir la météo
dans ces villes, plus particulièrement ces informations aideront à prévoir si le temps
sera pluvieux ou juste brumeux.
2. Pré-traitement
Au cours de processus de traitement des données notre dataset passera par plusieurs
étapes, pour ce faire on va utiliser comme outil Orange qui est un logiciel
d'exploration de données développé par l'Université de Ljubljana. Il peut être utilisé
Page 5
pour développer et tester des modèles d'apprentissage automatique ainsi que pour
effectuer une analyse et une visualisation exploratoires des données.
2.1 Sélection des attributs
On a sélectionné les attributs sur lesquels on va travailler :
 Date : date de mesure

 City : villes ou on effectuera les mesures et sur lesquelles s’applique la
prévision météorologique qui sont Mumbai,Beijing,Chicago,Auckland,San
Diego
 High_temp : température maximale
 Low_temp : température minimale
 High_humidity : humidité maximale
 Low_humidity : humidité minimale
2.2 Nettoyage et complétion des données
2.2.1 Complétion
Les données du dataset qui sont manquante sont traités dans cette phase.
Figure 1 : Figure montre le workflow orange de l’étape complétion
Page 6
Figure 2: complétion des données
Figure 3: dataset après complétion

Figure 4: dataset avant complétion
2.2.2 Nettoyage
Les données du dataset qui sont bruité ou incohérente sont traité dans cette phase, dans
l’attribut EVENT il y a une les valeur OUI, NON et ‘NF’ ou bien NOT FOUND, pour
Page 7
les tuples possédant la valeur ‘NF’ dans l’attribut EVENT , en premier lieu on élimine
la valeur ‘NF’ en utilisant le widget Edit Domaine puis on affecte une nouvelle valeur
a l’attribut EVENT en utilisant le widget Préprocesseur .
2.2.3 Décomposition
On a décomposé nos attributs comme suit :
 Date est divisé en deux colonne (dates au cours de 2016, dates au cours de
2017)
 City est divisé en 5 colonnes (Mumbai, Beijing,Chicago,Auckland,SanDiego).
 Hight_temp : l’intervalle des valeurs de higt_temp [0, 102] divisé en deux
sous-intervalles, une colonne pour les valeurs qui varient entre [0 , 51 ] et la
deuxième colonnes pour les valeurs qui varient entre [52, 102].
 Low-temp : l’intervalle des valeurs de low_temp [0, 80] divisé en deux sous-
Figure 6: dataset avant nettoyage Figure 7: dataset après nettoyage
intervalles, unecolonne pour les valeurs qui varient entre [0 , 40 ] et la
deuxième colonnes pour les valeurs qui varient entre [41 , 80].
 Hight_humidity : l’intervalle des valeurs de hight_humidity [0, 100] divisé en
deux sous-intervalles, une colonne pour les valeurs qui varient entre [0, 50] et
la deuxième colonne pour les valeurs qui varient entre [51, 80].
 Low_humidity : l’intervalle des valeurs de low_humidity [0, 89] divisé en
deux sous-intervalles, une colonne pour les valeurs qui varient entre [0, 44] et
la deuxième colonne pour les valeurs qui varient entre [44, 89].
Page 8
 Events : également l’attribut évent est divisé en deux colonnes, la première
colonne EVENT et la deuxième NON_EVENT.
2.2.4 Binarisation
On a binarisé nos attributs afin de faciliter la prochaine étape. Dans chaque

tuple,
Si un attribut est présent on remplace sa valeur par 1 sinon par 0.
Page 9
Chapitre 3 :Fouille des item sets
intéressants et des règles d’association
Introduction
Ce chapitre considère deux motifs importants, celui des item sets et des règles
d'association. La section 3.1 débute par des descriptions de la technique et les item
sets. La section 3.2 aborde la tâche à réaliseret ensuite, dans la section 3.3 présente
l'algorithme APRIORI qui extrait les item sets fréquents.
Nous présenter comment on a utilisé et adapté cette technique afin d’atteindre
l’objectif de la tâche de fouille de données à réaliser et enfin interpréter les résultats
obtenus.
1. Description de la technique
La fouille de données est l’étape centrale du processus d’extraction de connaissance.

Elle consiste à découvrir de nouveaux modèles au sein de grandes quantités de
données.
C’est une méthode qui n’est pas purement prédictive ni purement descriptive. Apriori
est le premier algorithme qui résout le problème de la découverte des motifs fréquents.
Il procède en deux phases :
1. Recherche des motifs fréquents, ceux dont le support est supérieur ou égal au
support minimum. Minsupp est fixé par l’utilisateur lors du paramétrage de
l’algorithme.
2. Pour chaque item set fréquent X, on conserve les règles de type X Y, dont la
"Confiance" surpasse le seuil minconf. Apriori est un algorithme itératif de recherche
d’item sets fréquents par itération. Son idée générale est de générer, à chaque itération
k, un ensemble d’item sets potentiels. Un balayage est réalisé pour élaguer les item
sets non fréquents : Les k-item sets fréquents obtenus sont réutilisés lors de l’itération
Page 10
(k + 1).A chaque itération k, l’algorithme effectue un passage dans la base de
transactions pour calculer le support de chaque k-item set.
2. Tâ che à réaliser
Cette tâche consiste à savoir la variabilité des précipitations et des jours de pluie.
3. Implémentation
3.1 Choix de l’outil
Page 11
Chapitre :
introduction :
Tout au long de ce chapitre, on va utiliser la technique de l’arbre de classification qui est
une technique d'apprentissage supervisé . Dans un premier lieu on va ecpliciter cette
technique puis on va montrer comment on l’adapter afin de réaliser latâche de fouille de
données .
1.Description de la technique :
L'arbre de décision est utilisé pour construire des modèles de classification. Il est utilisé
pour créer des modèles de données qui prédiront les classes pour le processus
décisionnel. Les modèles sont construits à partir de la base d’apprentissage, en effet dans
la base d’apprentissage on trouve «les variable explicatives » ou prédicteurs et la
«variable cible» qui est la variable dont les valeurs doivent être modélisées et prédites par
d'autres les prédicteurs.
Un arbre de décision est une structure qui comprend un nœud racine, des branches et des
nœuds feuilles. Chaque nœud interne dénote un test sur un attribut, chaque branche
dénote le résultat d'un test et chaque nœud feuille détient une étiquette de classe. Le
nœud le plus haut de l'arborescence est le nœud racine.
Les algorithmes d'apprentissage basés sur des arbres sont considérés comme l'une des
méthodes d'apprentissage supervisé les meilleures et les plus utilisées.Pour notre projet
on a choisi de travailler ave l'algorithme d'arbre de décision, également appelé « CART»,
qui est utilisé pour les problèmes de classification et de régression et c'est un algorithme
d'apprentissage automatique supervisé.
L’algorithme CART explique comment les valeurs d'une variable de résultat peuvent être
prédites sur la base d'autres valeurs. Une sortie CART est un arbre de décision où chaque
fourchette est une division en une variable prédictive et chaque nœud final contient une
prédiction pour la variable de résultat.
2.Tâ che à réaliser :

L'objectif de cette étape et de tirer un modèle à partir de l'arbre de décision qui permet de prédire
l'événement, est-ce que à une date précise dans une ville spécifié il y aura de pluie ou non , cela en
Page 12
se basant sur certains prédicteur ou variables explicative qui sont la température , l'humidité
maximales et minimales , ... Ainsi notre arbre de décision va être composer d'une classe EVENT qui
prend deux valeurs oui s'il y aura de pluie et non s'il y aura pas, et 6 prédicteurs.
Page 13

Data Mining Chaima

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Data Mining Chaima

Transféré par

Droits d'auteur :

Formats disponibles

HI-TEK

Les prévisions météorologiques concernent principalement la prévision des conditions

Il existe différentes approches disponibles dans les prévisions météorologiques,

Certains d'entre eux sont la surveillance du climat, la détection de la sécheresse, la

Les prévisions météorologiques sont l'application de la science et de la technologie

Les anciennes méthodes de prévision météorologique reposaient généralement sur des

Orange est une boîte à outils open source de visualisation de données ,

1.1 Logo d’Orange

L’Excel est un logiciel tableur de la suite bureautique Microsoft Officedéveloppé

1.2 Logo D’Excel

1.3 Logo de Python

Nous concluons que l'utilisation de techniques d'exploration de données pour la

Chapitre 2 : Pré-traitement des données

1. Collecte des données

1.1 Source du dataset

La base de données qu’on va utiliser de format csv provient du site web :

2.1 Sélection des attributs

On a sélectionné les attributs sur lesquels on va travailler :

 Date : date de mesure

Figure 1 : Figure montre le workflow orange de l’étape complétion

Figure 3: dataset après complétion

On a décomposé nos attributs comme suit :

On a binarisé nos attributs afin de faciliter la prochaine étape. Dans chaque

Si un attribut est présent on remplace sa valeur par 1 sinon par 0.

La fouille de données est l’étape centrale du processus d’extraction de connaissance.

2.Tâ che à réaliser :

Vous aimerez peut-être aussi