Vous êtes sur la page 1sur 31

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université des Sciences et de la Technologie Houari Boumediene

Faculté Informatique

Master Systèmes Informatiques intelligents

Module : Data mining

RAPPORT DU Projet Data Mining


Partie 1

Réalisé par :

Zerouki Omar
Amraoui Mohamed

Année universitaire : 2023 / 2024


Table des matières

Introduction ………………………………………….……………………… 1
Contenu du projet …………………………………….…………………….. 2
Objectif du projet …………………………………………………………… 3
I. Analyse et prétraitement des données……………………………………. 6
I.1. Données statiques…………………………………………………. 6
I.1.1. Manipulation de dataset ……………………………………………. 6
I.1.1.1. Analyse des données……………………………………….. 6
I.1.1.2. Description Global de dataset et attributs……………….. 6
I.1.1.3. Analyse des caractéristiques des attributs du dataset ….. 7
I.1.2. Analyse des caractéristiques des attributs du dataset ……………. 8
I.1.2.1. Tendances Centrales : Calculs des Tendances Centrales .. 8
I.1.2.2. Tests des calculs des mesures de tendance centrale ………9
I.1.2.3. Boite à moustache…………………………………………. 11
I.1.2.4. Histogrammes …………………………………………….. 13
I.1.2.5. Diagramme de dispersion………………………………… 15
I.1.3. Prétraitement……………………………………………………… . 15
I.1.3.1. Remplacement des valeurs manquantes ………………… 15
I.1.3.2. Réduction horizontale et verticale ……………………….. 16
I.1.3.3. La normalisation ………………………………………… . 18
I.2. Données temporelles. …………………………………………….. 19
I.2.1. Prétraitement ……………………………………………………….. 19
I.2.1.1. informations globales sur le dataset avant prétraitement. 19
I.2.2. Visualisation ………………………………………………………… 20
I.2.2.1. La distribution du nombre total des cas confirmés et tests positifs par zones…………………………….. 20

I.2.2.2. Tests COVID-19, les tests positifs et le nombre de cas évolue au fil du temps pour chaque zone ……….. 21
I.2.2.3. Les cas covid positifs sont distribués par zone et par année………………………………………………. . 22

I.2.2.4. Le rapport entre la population et le nombre de tests effectués…………………………………………… . 23

I.2.2.5. Les 5 zones les plus fortement impactées par le coronavirus………………………………………………. 24

I.2.2.6. Le rapport entre les cas confirmés, les tests effectués et les tests ………………………………………….. 25

II. Extraction de motifs fréquents, règles d’associations et corrélations


II.1 Description de dataset ……………………………………………26
II.2 Discrétisation d’un attribut ……………...………………………26
II.3 Extraction des motifs fréquents …………………………………26
II.4 Discrétisation d’un attribut …………………………………26

Conclusion
Liste des figures

figure 1.1. description global de dataset


figure 1.2. description global d’attribut
figure 1.3. les mesures de tendance centrale
figure 1.4. Exemple de Boîte à moustache pour l’attribut ‘N’
figure 1.5. Exemple de Boîte à moustache pour l’attribut ‘Cu’
figure 1.6. L’ensemble des Boîte à moustaches du Dataset
figure 1.7. Exemple de Histogramme pour l’attribut ‘N’
figure 1.8. L’ensemble des Histogrammes du Dataset
figure 1.9. Les Diagrammes de dispersion du Dataset
figure 1.10. Exemple dataset avant le traitement des valeurs manquantes
figure 1.11. Exemple dataset après le traitement des valeurs manquantes
figure 1.12. Exemple dataset avant la normalisation
figure 1.13. Exemple dataset après la normalisation
figure 2.1. Les informations globales sur le dataset avant prétraitement
figure 2.2. Les informations globales sur le dataset après prétraitement
figure 2.3. Le Histogramme de cas confermé
figure 2.4. Le Histogramme de tests positifs
figure 2.5. Evolution des tests et cas pour la zone 94085
figure 2.6. Evolution des tests et cas pour la zone 94086
figure 2.7. Evolution des tests et cas pour la zone 94087
figure 2.8. Evolution des tests et cas pour la zone 95035
figure 2.9. Evolution des tests et cas pour la zone 95127
figure 2.10. Evolution des tests et cas pour la zone 95128
figure 2.11. Evolution des tests et cas pour la zone 95129
figure 2.12. Distribution des cas positifs par zones et par année
figure 2.13. Le rapport entre la population et le nombre de tests effuctués par zone
figure 2.14. Les top 5 des zones les plus fortement impactées par le coronavirus
figure 2.15. Le rapport les cas confirmés, test effectués et test positifs au fil du temps
par zone
Introduction:
Le Data Mining est un domaine multidisciplinaire qui vise à extraire des
informations pertinentes et inconnues à partir d'une grande quantité de données
brutes, en vue d'une utilisation pratique ou opérationnelle. Il permet d'identifier des
informations cachées, de mettre en évidence des associations et des tendances, et
de servir d'outil de prévision. Le champ d'application du Data Mining couvre le
chargement et le prétraitement des données, la classification, ainsi que la mise en
relation de différentes données, allant de la création à la mise en forme des résultats.

La qualité des résultats de la fouille dépend étroitement de la qualité des


données utilisées. Des données de mauvaise qualité conduisent inévitablement à
des résultats de Data Mining médiocres. Les données réelles sont souvent sujettes à
des doutes en raison de leur caractère incomplet, bruité, ou incohérent. Il est crucial
de retraiter ces données, et le prétraitement est souvent sous-estimé. Néanmoins,
négliger cette étape peut conduire inévitablement à l'échec du projet.

Le prétraitement des données implique le nettoyage, l'intégration, l'application


de transformations multiples et la réduction des données collectées à partir de
diverses sources. Avant d'entreprendre ces opérations, une étude approfondie de
l'ensemble des données est impérative pour les connaître et les comprendre. C'est là
que la phase exploratoire des données intervient.

L'analyse exploratoire des données révèle les relations systématiques entre


les attributs et permet de détecter les irrégularités telles que les valeurs manquantes
ou les bruits. À la fin de cette analyse, un ensemble de données cohérent, exempt de
bruit, et de qualité émerge, prêt à être utilisé pour tirer des conclusions pertinentes à
la fin de la fouille.

Dans cette première phase du projet, notre attention se concentre sur l'étude
exploratoire des données. Nous envisageons d'implémenter un système facilitant le
prétraitement d'un ensemble de données (Dataset).

Contenu du projet :
Les données provenant du monde réel sont souvent soumises au bruit, volumineuses
et issues de sources variées. C'est pourquoi la première étape du Data Mining se concentre
sur l'analyse, également appelée étude exploratoire, des données. Cette phase implique un
examen approfondi des attributs et des valeurs des données. Deux types de données sont
généralement distingués : les données statiques, qui restent constantes dans le temps, et les
données temporelles, qui évoluent avec le temps. Les données statiques sont fixes et
indépendantes de l'instant de leur observation, tandis que les données temporelles changent
au fil du temps.

Dans le cadre de cette première partie du projet, l'objectif est d'apprendre à analyser
et à nettoyer ces deux types de données. Nous avons choisi un ensemble de données
statiques, le dataset 1, qui regroupe des informations sur les propriétés du sol pour l'analyse
de la fertilité du sol. Nous avons également sélectionné un ensemble de données
temporelles, le dataset 2, qui représente l'évolution du nombre de cas de COVID-19 au fil du
temps par code postal.

La deuxième étape de cette première partie consiste à extraire les motifs fréquents et
les règles d'association d'un troisième dataset, le dataset 3. L'objectif est de récupérer les
relations existantes entre les attributs liés au climat, au sol, à la végétation et à l'utilisation
d'engrais.

Objectif du projet :
1. Analyse et prétraitement des données:
● partie 01:
1. Analyse des données:
● lecture de dataset et visualisation de son contenu
et sa description
● Analyse des caractéristiques des attributs du
dataset (mode, médiane, les quartiles …)
● Construction des boîtes à moustaches
● Construction des graphes de dispersion et les
histogrammes
2. Prétraitement de dataset :
● Traitements des valeurs aberrantes et manquantes
● réduction horizontale et verticale
● Normalisation des données
● partie 02 :
1. Prétraitement (comme en partie 01)
2. Visualisation des données

● Partie 03: Extraction de motifs fréquents, règles d’associations


Et corrélations
Partie 01 :
Analyse des données :
Dans cette partie nous avons un dataset nommé dataset 1, qui regroupe des
informations sur les propriétés du sol pour l'analyse de la fertilité. Ces données sont
statiques, Et durant cette partie nous vous fournirons une description global sur le
dataset et les attributs, nous manipulerons ces données afin de les comprendre et
détecter toute anomalie pouvant influencer leur intégration par la suite et les
prétraiter pour qu’elles soient prêtes pour apprentissage ou tout autre discipline de
IA.

Description Global de dataset et attributs:


Le Dataset contient 885 observations pour 14 attributs dont un de ces derniers
représente la fertilité de sol et les autres sont des composants physique et chimique
de sol comme le fer “Fe” ou bien le cuivre “Cu”.

La liste des attributs est la suivantes :['N', 'P', 'K', 'pH', 'EC', 'OC', 'S',
'Zn', 'Fe', 'Cu', 'Mn', 'B', 'OM','Fertility']

Nous avons 2 type d’attributs:


● Entier : L’attribut N et fertility est le seul
● Float : tous les autres attributs

Les treize premiers attributs sont numériques non catégoriques alors que Fertility est
un attribut numérique mais catégorique il contient que trois valeur 0,1,2.
Pour les valeurs manquantes nous avons enregistré quatres valeurs manquant deux
pour l’attribut ‘P’ les deux autres pour ‘Oc’ et ‘Cu’.

Pour mieux voir les choses voici cet affichage à l’aide de quelques lignes de
code en python.
Analyse des caractéristiques des attributs du dataset :
A ce niveau d'étude, nous allons essayer de comprendre un peu les
caractéristiques statistiques des données. Pour cela, nous allons commencer par les
tendances centrales des attributs puis essayer d’afficher la boîte à moustache et les
différents diagrammes de dispersion pour mieux visualiser les dépendances.

Tendances Centrales : Calculs des Tendances Centrales


1. Max et Min
- Max : La plus grande valeur qu'un attribut peut prendre.
- Min : La plus petite valeur qu'un attribut peut prendre.

2. Moyenne
- Cas de Valeurs Continues : La moyenne est calculée en divisant la
somme de toutes les valeurs d'un attribut par le nombre total de valeurs.

- Cas de données groupées : On calcule le MidRange de chaque intervalle


puis on divise la somme des MidRanges de tous les intervalles par le nombre
d'intervalles.

3. Médiane
- Cas de Variables Continues : La médiane partage un ensemble de
valeurs triées par ordre croissant en deux sous-ensembles de taille égale.

- Cas de données Groupées : Calculer la fréquence de chaque groupe,


puis calculer la médiane.

4. Quartiles (Q1 et Q3)


Les quartiles divisent un ensemble de valeurs en 4 sous-ensembles de
même taille. Les formules varient en fonction de la taille de l'ensemble des valeurs.
5. Mode
Le mode représente la valeur la plus fréquente, quel que soit le type de
cette valeur (numérique, nominale ou intervalle).

Ces calculs des tendances centrales fournissent des mesures clés pour
comprendre la distribution et la centralité des données. Les différentes méthodes
sont adaptées à des types spécifiques de données, offrant ainsi une vue complète de
la structure des données.

Tests des calculs des mesures de tendance centrale :

Pour ne pas alourdir la lecture, cette capture contient le résumé des cinq
nombres de tous les attribut sauf fertilité car ça ne sert absolument à rien de calculer
ces tendance vu que c’est un attribut catégorique.

figure 1.3. les mesures de tendance centrale


Analyse et conclusion (Asymétrie) :
Une distribution est dite symétrique si les valeurs observées se répartissent de façon
uniforme autour des trois valeurs centrales : la moyenne, le mode et la médiane. On
distingue trois types de distributions selon qu’elles sont asymétriques à gauche (positivly
skewed) , symétriques (Symetric), ou asymétriques à droite (negativly skewed).

Selon La figure précédente nous n’avons aucun attribut symétrique, car la moyenne,
le mode et la médiane sont tous les trois différents pour chaque attribut, sauf pour l’attribut
‘Ph’, ils sont différent mais très proches en acceptant un peu l’erreur nous pouvons
considérer la distribution symétrique.
Boite à moustache :
La boite à moustache est utile lorsqu’on veut visualiser les concepts tels que la
symétrie, la dispersion, les valeurs aberrantes.
Exemple : Boîte à moustache pour l’attribut ‘N’ et ‘Cu’

Là nous voyons que Cu a une seule valeur aberrante parmi les 885 valeurs
alors que N a plusieurs.
pour ne pas encombrer le documents voici les autres boite a moustach en
taille relativement petite
Le trait de chaque boîte représente la médiane. Les ronds rouges se trouvant hors la
boîte présentent des valeurs aberrantes.
Tous les attributs contiennent des valeurs aberrantes. Concernant la symétrie, on
remarque que le trait de médiane n’est jamais au milieu (le nombre de valeurs avant la
médiane est différent du nombre de valeurs après la médiane), ce qui confirme le résultat
trouvé précédemment : Les attributs sont asymétriques.
Sauf pour ‘Ph’ on peut dire que c’est symétrique.

Histogrammes :
Dans notre cas, nous avons pris le cas continu car toutes les variables sont continues
et non groupées.
Pour mieux visualiser et comparer entre les différents histogrammes j’ai divisé pour
tous les attribue en 10 bacs au lieu de calculer pour chaque attribut la différence entre le max
et le min et diviser selon une formule données car ça va nous donner des histogrammes
avec différentes dimensions ce qui complique la comparaison.
Exemple : Histogramme attribut N

figure 1.7. Exemple de Histogramme pour l’attribut ‘N’

Exemple : Figure englobante tout les attributs

figure 1.8. L’ensemble des Histogrammes du Dataset


Diagramme de dispersion :
Un diagramme de dispersion est un graphe qui représente la distribution de
deux variables dans un ensemble de données. Chaque point dans le diagramme de
dispersion correspond à une paire de valeurs pour deux variables différentes.
Le diagramme de dispersion est utilisé pour visualiser la relation entre deux
variables continues.En examinant la disposition des points, on peut déterminer s'il
existe une relation linéaire, non linéaire, positive, négative ou aucune entre les deux
variables.
Exemple
C’est ce qu’on a fait pour toutes les variables deux à deux, et selon les
résultats obtenu nous vous avons choisis 5 diagrammes, 2 lorsque c’est positivement
corréliés, 2 lorsque c’est négativement corrélés,1 lorsque aucune corrélation c'est à
dire deux variables sont indépendantes l’une de l’autre.

figure 1.9. Les Diagrammes de dispersion du Dataset


Analyse:
En voyant ces diagrammes là:
● Il est clair qu'aucune corrélation n’est entre Ec et N.
● OM et OC sont fortement corrélés, d’ailleur le coefficient de corrélation vaut 1.
● Fe et Zn le sont aussi même si ce n'est pas assez fort .
● Cu et N sont négativement corrélés selon la mesure de corrélation mais en
diagramme ce n’est pas assez clair car c’est faible.
● la même chose pour S et Fe (négativement corrélées mais faibles).
Conclusion : la seule corrélation qu’on peut considérer et qui affecte la suite de l’exploration
de ce dataset est celle de (OC,OM).

Prétraitement
Dans cette partie, il s’agit de normaliser les attributs numériques et remplacer les
valeurs manquantes et réduire la taille de dataset horizontalement et verticalement parlant.

Remplacement des valeurs manquantes :


Les valeurs manquantes dans les Datasets sont désignées par le symbole « ? » ou
bien nan. Il s’agit de remplacer chaque valeur par la moyenne de l’attribut des instances
appartenant à la même classe quand il s’agit d’un attribut

Réduction horizontale et verticale:


Cas vertical::
La réduction verticale de dataset pourrait faire référence à divers processus
visant à réduire la taille ou la complexité d'un ensemble de données le long de la
dimension verticale, c'est-à-dire le nombre d'observations ou de lignes.

Échantillonnage vertical : Il peut s'agir de la sélection d'un sous-ensemble


spécifique d'observations à partir de l'ensemble de données complet. Cela peut être
fait de manière aléatoire (échantillonnage aléatoire) ou en fonction de critères
spécifiques (échantillonnage stratifié).
Filtrage des Données : La réduction verticale peut également impliquer l'application
de filtres pour exclure certaines observations en fonction de critères prédéfinis. Par
exemple, ne conserver que les lignes répondant à certaines conditions.
Agrégation verticale : Il pourrait être question d'agrégation de données, où plusieurs
lignes sont combinées pour créer une nouvelle ligne agrégée, réduisant ainsi le
nombre total de lignes.
Élimination des doublons : Si l'ensemble de données contient des doublons, la
réduction verticale pourrait impliquer l'élimination de ces doublons, ne laissant qu'une
seule occurrence de chaque observation unique.
Cas horizontale:
La réduction horizontale sert essentiellement à réduire le nombre d’attributs
de dataset lorsqu' on voit que y a de redondance au niveau d’informations. Pour le
processus, on essaye de détecter des redondances en calculant la corrélation en deux
attributs ou bien essayer d’extraire une relation bien précise en deux distributions… .
Pour notre étude, pour la réduction verticale, on se base sur le calcule de la
corrélation entre les variables.
Pour la réduction horizontale, on se base sur l'élimination des doublons.

La normalisation :
Permet d’ajuster une série de valeurs suivant une fonction de transformation pour les
rendre comparables. On choisit de diviser les valeurs des instances de chaque attribut par la
plus grande valeur de ce dernier. Les valeurs obtenues sont comprises entre 0 et 1. Ce
traitement est appliqué aux attributs numériques.

Exemple :dataset avant et après traitement des valeurs manquantes

Exemple :dataset avant et après normalisation


Partie 02 :
Au niveau de cette partie nous apprenons à analyser, nettoyer et visualiser des
données temporelles. En utilisant le dataset 2, on désire extraire des conclusions sur la
propagation du covid 19 de 2019 à 2023 aux états unis. La dataset 2 offre une vue
d'ensemble complète des cas, des tests et des taux de positivité par code postal (ZIPCODE)
au fil du temps.

Prétraitement :
Avant de commencer toute manipulation d’un dataset, un prétraitement est
nécessaire. Dans notre cas, en suivant exactement le travail précédemment fait sur le
premier dataset, nous avons traité les valeurs aberrantes et supprimé toute ligne les
contenant et aussi les valeurs manquantes nous avons mis des zéro.
voici ces trois figures qui représentent toutes les informations sur le dataset avant et après
prétraitement.
informations globales sur le dataset avant prétraitement:

figure 2.1. Les informations globales sur le dataset avant prétraitement

informations globales sur le dataset après prétraitement:

figure 2.2. Les informations globales sur le dataset après prétraitement


Visualisation:
Après que nos données sont prétraitées, il est temps de visualiser ces
derniers et en extraire des connaissances.
I)La distribution du nombre total des cas confirmés et tests positifs
par zones:
Ici, nous avons essayé de voir la distribution des cas confirmés et tests
positifs de covid par zones.
histogramme de cas confirmés:

histogramme de tests positifs:


Analyse et discussion:
● En voyant au premiers coup les deux graphs, nous remarquons que y a plus
de tests jugés positifs que de cas confirmés.
● La zone 95127 a plus de cas que toute autre région, en deuxième place vient
la zone 95035 et la zone 95128.
Conclusion:
● Les tests peuvent ne pas être fiables à 100% mais la confiance est assez
acceptable.
● Des mesures strictes doivent être prise et impérativement respectées sur la
zone 95127,94087,95035,95128

II)Evolution des tests et cas au fil de temps:


Nous avons représenté l'évolution au fil de temps avec des line chart. chaque
zone est représentés à part

1. Zone 94085:

figure 2.5. Evolution des tests et cas pour la zone 94085


2. Zone 94086:

3. Zone 94087:

figure 2.7. Evolution des tests et cas pour la zone 94087


4. Zone 95035:

figure 2.8. Evolution des tests et cas pour la zone 95035


5. Zone 95127:

figure 2.9. Evolution des tests et cas pour la zone 95127


6. Zone 95128:
7. Zone 95129:

figure 2.11. Evolution des tests et cas pour la zone 95129

Analyses et discussion:
● Nous voyons bien que les trois premiers n’ont pas d’années et il est affiché
1900. Ce vient de dataset qui manque des informations
● Nous remarquons ici aussi que des cas positifs et des cas confirmés
dépendent des tests et qu’ils doivent être en relation la plupart de temps. Plus
nous faisons des tests, plus nous détectons des cas.
● La plupart du temps (à 98%) les cas positifs sont presque égaux au cas
confirmés.
conclusion:
une forte relation entre les cas confirmés et tests positifs, et les deux en
relation avec les tests.
Il faut faire beaucoup de tests pour détecter les contaminés vu la relation
linéaire positive forte.
III)Distributions annuelle des cas confirmés par zone:
l'analyse de la distribution par zone et par années vise à fournir des insights
sur la variation spatiale et temporelle d'une variable spécifique. Cela est
particulièrement utile pour la compréhension des dynamiques géographiques et
temporelles dans divers contextes surtout pour le contexte de la pandémie.
Pour vous aider à mieux voir cette distribution, nous vous proposons ce Bar
chart.
figure 2.12. Distribution des cas positifs par zones et par année

Analyse et discussion:
● Nous voyons bien que y a seulement quatre zones représentées, ceci est dû
au fait que le dataset ne contient pas d’années pour les autres zones.
● Mettre des années aléatoire ne sert absolument à rien et ne donne
absolument aucune information exploitable par la suite.
● En 2019, aucune contamination n’a eu lieu.
● La zone 95127 figure toujours sur les trois ans -2020,2021,2022 dans le top
des zones les plus touchées.
● En deuxième place, la zone 95035 pour 2020,2021. qui arrive à atteindre la
place la plus touchée en 2022.
● sur les trois ans où il y a eu des contaminations, la pandémie ne cesse pas de
se propager plus fort.
Conclusion:
La pandémie sur les trois ans a pris une propagation croissante sur toutes les
zones enregistrés.
IV)Le rapport entre la population et le nombre de tests effectués:

Représenter le rapport entre la population et le nombre de tests effectués est


très efficace pour pouvoir comprendre l’impact de virus sur les êtres humains par
exemple à quel point sont touchés et ont peur de la pandémie, voir la disponibilité
des tests… .
Afin de visualiser le rapport, nous avons utilisé des bar chart ou chaque bar
reflète une zone, sa taille représente le pourcentage des gens qui ont fait des tests
parmi le reste.

figure 2.13. Le rapport entre la population et le nombre de tests effuctués par zone

Analyses et discussion:

● Nous voyons bien que les quatre zone 94085,94086,94087,95127 y a environ


9% qui ont fait des tests parmi les autres.
● Le taux s'élève un peu à 12% sur les autres zones.
conclusion:
En moyenne 10 parmi 100 font des tests, et en comparant les zones, nous
remarquons que les zones où nous avons moins de cas nous avons plus de
tests ce qui reflète le respect stricte de mesures d'hygiène de ses populations.
V)Top 5 des zones les plus fortement impactées par le coronavirus:
Pour ce graphique, nous avons représenté pour chaque zone le total des cas
confirmé sur les trois ans.

figure 2.14. Les top 5 des zones les plus fortement impactées par le coronavirus

Analyses et discussion:
● Nous voyons bien que le nombre a augmenté dans les 5 zones.
● Nous remarquons que la zone 95127 la plus forte augmentation, avec
une augmentation de plus de 20000 cas

conclusion:
En conclusion, Le nombre de cas de COVID-19 a augmenté dans toutes les
zones, la zone 95127 la plus forte augmentation, avec une augmentation de plus de
20000 cas.
VI)Le rapport entre les cas confirmés, les tests effectués et les tests:
Représenter le rapport entre les cas confirmés, tests effectués et tests positifs
au fil du temps par zone.

figure 2.15. Le rapport les cas confirmés, test effectués et test positifs au fil du temps par zone
Analyses et discussion:
● Nous voyons bien que les deux premiers n’ont pas d’années et il est
affiché 0. Ce vient de dataset qui manque des informations
● Le nombre de cas confirmés dans la zone 94200 a été le plus élevé de
toutes les zones.
● Le nombre de tests effectués dans la zone 94600 a été le plus élevé de
toutes les zones.
● Le taux de positivité a été le plus élevé dans la zone 94085 en 2020,
mais il a ensuite diminué dans toutes les zones.
conclusion:
En conclusion, le graphique montre que la pandémie de COVID-19 a un
augmentation plus forte sur ces années. Le nombre de cas confirmés a augmenté de
manière constante au cours des premières années de la pandémie, mais le nombre
de tests effectués a également augmenté, ce qui a conduit à une baisse du taux de
positivité.
Partie 02 :
Après avoir réalisé la partie 01, il est temps de profiter de travail fait pour
extraire des motifs fréquents, règles d'association et règles de corrélation de d'autre
dataset.
Dans le cadre de ce projet, un dataset a été proposé dans le but de mettre en
lumière les relations existantes entre les différents attributs de climat.
Cette étude nous permettra de dégager des informations essentielles pour
prendre des décisions éclairées dans le contexte de la gestion des ressources
environnementales et agricoles.
Feuille de Route :
Description de dataSet :......................................................................24
Discrétisation :.....................................................................................25
Extraction des motifs fréquents :.......................................................03
Extraction de fortes règles d'association :........................................04

Description de dataSet:
Pour cette partie, le dataset utilisé contient des attribut en relation avec le
climat. Avant de commencer son exploration, nous avons fait un prétraitement
comme il a déjà été fait en première partie.
Après que notre dataset est prétraité, voici une liste d'information globale le
concernant.
Description d'attributs :
Pour ne pas encombrer le rapport, nous avons ajouté une figure bien
claire pour énumérer tous les attributs.
Description dataset :
Le dataset est de taille (295x6), voici une entête:

Discrétisation:
Comme il est mentionné en haut, nous avons trois attributs de type numérique
continue, et trois d'autres de type discret et catégorique.
Pour pouvoir appliquer l'algorithme apriori sur des données, faut qu'elles
soient discréditées.
Pour cela nous avons pris un attribut continu et le discrédité pour pouvoir
l'inclure par la suite.
Nous avons choisi un attribut à discrétiser, et le choix est tombé sur la
température.
Discrétisation par méthode en classes d’effectifs égaux:
Après avoir discrédité, voici un aperçu sur la donnée.

Discrétisation par méthode en classes d’amplitudes égales:


Après avoir discrédité, voici un aperçu sur les données.
Extraction des motifs fréquents:
Les motifs fréquents, dans le contexte de l'informatique et de l'analyse de
données, font référence à des schémas récurrents, des associations ou des
séquences qui se produisent régulièrement dans un ensemble de données.
L'identification de motifs fréquents est une tâche fondamentale dans le domaine de
l'apprentissage automatique et de l'extraction de connaissances à partir de données.
L'analyse de motifs fréquents permet de découvrir des relations intéressantes
entre les variables d'un ensemble de données. Cela peut être utilisé pour extraire
des informations utiles à partir de grandes quantités de données. Les algorithmes
d'extraction de motifs fréquents, tels que l'algorithme Apriori, sont couramment
utilisés dans le processus d'exploration de données.
Dans cette étude, l'algorithme utilisé est Apriori.
Durant l'étude nous avons implémenté une fonction de génération d'items, d'items
candidats, d'items validés, un programme pour apriori.
Tests:
Nous avons divisé les tests en 2 parties. La première partie c'est des tests pour juste
voir les résultats des programmes écrits( un appel), où nous avons fixé le support
minimum à 30%.

Partie 01:
Etape 01: Extraction d'items d'une longueure 1
Nous avons retrouvé 23 items de longueur 1 au total. dont 3 vérifié le support
de 30% et qui sont :
{('rice',): 143, ('MOP',): 75, ('Urea',): 101, ('Coconut',): 152, ('DAP',): 86}
Etape 02: Extraction d'items d'une longueure 2
Nous avons retrouvé 4 qui verifié le support de 20% et aucun ne verifie le
support de 30%.
{('silty clay', 'rice'): 65, ('Coconut', 'Urea'): 53, ('Clayey', 'rice'): 54, ('coastal', 'Coconut'):
50}
Etape 03 : Application d'algorithme apriori
En appliquant l'algorithme, nous récupérons les items fréquents et leurs
supports avec les règles d'associations.
Nous l'avons appliqué avec un support minimum de 20, et nous avons
récupéré les conclusions suivantes.

● il existe 23 items au total, qui sont ()


● tous les items existent plus de 20 fois
● l’item le moins fréquents apparaît 24 fois et c’est clay loam
● l’item le plus fréquent apparaît 152 fois et c’est Coconut
Voici le tableau des items à longueur 1:
Ici nous vous décrivons la distribution des items par fréquence:

Passons maintenant aux items de longueur 2 avec le même support toujours:


● il existe 20 ensemble au total
● tous les items existent plus de 20 fois
● l’ensemble d’item le moins fréquents apparaît 24 fois et c’est [clay loam, rice]
● l’ensemble d’item le plus fréquent apparaît 65 fois et c’est [silty clay,rice]
Voici le tableau des items à longueur 2:
Ici nous vous décrivons la distribution des ensemble d’ items a longueur 2 par fréquence:

Passons maintenant aux items de longueur 3 avec le même support toujours:


Pour l’ensemble de 3 items, un seul ensemble a été retrouvé avec le support 20 et
c’est bien
['silty clay', 'rice', 'DAP'] qui apparaît 20 fois
Pour afficher plus d’items nous avons baisser le support à 15, juste pour visualisation
et voici les items :
Ici nous vous décrivons la distribution des ensemble d’ items à longueur 2 par fréquence:
Extraction des règles d’association:
Nous avons fait un test avec confiance de 0.5 et support de 20 et nous avons
pu retrouver 21 regles sachant qu' avec une confiance de 0 c’est 58 regle.
Voici ce tableau regroupe tous les règles d’association avec les paramètre
Partie 02:
Faire des tests avec extraction des règles d’associations pour plusieurs
paramètres et nous avons dessiné des graphes.

A ce stade nous avons testé l’algorithme apriori avec différentes valeurs pour
la confiance et le support pour voir les changements qui peuvent être.
nous avons fait varier le support minimum entre [10,15,20,25], et la confiance entre
[0.5,0.7]
et voici le résumé des résultats:

Analyse:
● Nous voyons que lorsque le support vaut 10 et la confiance est à 0.5, tous les
items candidats sont pris.et 61 combinaison possible est candidates validé
pour les ensemble à 2 items.
● plus le support minimum augmente, plus nous avons moins d’items pour les
trois longueurs, mais la baisse de nombre d’ensemble d’items candidats
validé est plus forte plus la longueur est grande.
● nombre de règle aussi est impacté, mais il est impacté plus de confiance, on
voit bien pour le même support, une différence énorme selon la confiance.
Conclusion:
La confiance impacte plus sur les règles d’associations, alors que le support
minimum touche au nombre d’items sélectionnés validé en plus.

Vous aimerez peut-être aussi