Académique Documents
Professionnel Documents
Culture Documents
Faculté Informatique
Réalisé par :
Zerouki Omar
Amraoui Mohamed
Introduction ………………………………………….……………………… 1
Contenu du projet …………………………………….…………………….. 2
Objectif du projet …………………………………………………………… 3
I. Analyse et prétraitement des données……………………………………. 6
I.1. Données statiques…………………………………………………. 6
I.1.1. Manipulation de dataset ……………………………………………. 6
I.1.1.1. Analyse des données……………………………………….. 6
I.1.1.2. Description Global de dataset et attributs……………….. 6
I.1.1.3. Analyse des caractéristiques des attributs du dataset ….. 7
I.1.2. Analyse des caractéristiques des attributs du dataset ……………. 8
I.1.2.1. Tendances Centrales : Calculs des Tendances Centrales .. 8
I.1.2.2. Tests des calculs des mesures de tendance centrale ………9
I.1.2.3. Boite à moustache…………………………………………. 11
I.1.2.4. Histogrammes …………………………………………….. 13
I.1.2.5. Diagramme de dispersion………………………………… 15
I.1.3. Prétraitement……………………………………………………… . 15
I.1.3.1. Remplacement des valeurs manquantes ………………… 15
I.1.3.2. Réduction horizontale et verticale ……………………….. 16
I.1.3.3. La normalisation ………………………………………… . 18
I.2. Données temporelles. …………………………………………….. 19
I.2.1. Prétraitement ……………………………………………………….. 19
I.2.1.1. informations globales sur le dataset avant prétraitement. 19
I.2.2. Visualisation ………………………………………………………… 20
I.2.2.1. La distribution du nombre total des cas confirmés et tests positifs par zones…………………………….. 20
I.2.2.2. Tests COVID-19, les tests positifs et le nombre de cas évolue au fil du temps pour chaque zone ……….. 21
I.2.2.3. Les cas covid positifs sont distribués par zone et par année………………………………………………. . 22
I.2.2.6. Le rapport entre les cas confirmés, les tests effectués et les tests ………………………………………….. 25
Conclusion
Liste des figures
Dans cette première phase du projet, notre attention se concentre sur l'étude
exploratoire des données. Nous envisageons d'implémenter un système facilitant le
prétraitement d'un ensemble de données (Dataset).
Contenu du projet :
Les données provenant du monde réel sont souvent soumises au bruit, volumineuses
et issues de sources variées. C'est pourquoi la première étape du Data Mining se concentre
sur l'analyse, également appelée étude exploratoire, des données. Cette phase implique un
examen approfondi des attributs et des valeurs des données. Deux types de données sont
généralement distingués : les données statiques, qui restent constantes dans le temps, et les
données temporelles, qui évoluent avec le temps. Les données statiques sont fixes et
indépendantes de l'instant de leur observation, tandis que les données temporelles changent
au fil du temps.
Dans le cadre de cette première partie du projet, l'objectif est d'apprendre à analyser
et à nettoyer ces deux types de données. Nous avons choisi un ensemble de données
statiques, le dataset 1, qui regroupe des informations sur les propriétés du sol pour l'analyse
de la fertilité du sol. Nous avons également sélectionné un ensemble de données
temporelles, le dataset 2, qui représente l'évolution du nombre de cas de COVID-19 au fil du
temps par code postal.
La deuxième étape de cette première partie consiste à extraire les motifs fréquents et
les règles d'association d'un troisième dataset, le dataset 3. L'objectif est de récupérer les
relations existantes entre les attributs liés au climat, au sol, à la végétation et à l'utilisation
d'engrais.
Objectif du projet :
1. Analyse et prétraitement des données:
● partie 01:
1. Analyse des données:
● lecture de dataset et visualisation de son contenu
et sa description
● Analyse des caractéristiques des attributs du
dataset (mode, médiane, les quartiles …)
● Construction des boîtes à moustaches
● Construction des graphes de dispersion et les
histogrammes
2. Prétraitement de dataset :
● Traitements des valeurs aberrantes et manquantes
● réduction horizontale et verticale
● Normalisation des données
● partie 02 :
1. Prétraitement (comme en partie 01)
2. Visualisation des données
La liste des attributs est la suivantes :['N', 'P', 'K', 'pH', 'EC', 'OC', 'S',
'Zn', 'Fe', 'Cu', 'Mn', 'B', 'OM','Fertility']
Les treize premiers attributs sont numériques non catégoriques alors que Fertility est
un attribut numérique mais catégorique il contient que trois valeur 0,1,2.
Pour les valeurs manquantes nous avons enregistré quatres valeurs manquant deux
pour l’attribut ‘P’ les deux autres pour ‘Oc’ et ‘Cu’.
Pour mieux voir les choses voici cet affichage à l’aide de quelques lignes de
code en python.
Analyse des caractéristiques des attributs du dataset :
A ce niveau d'étude, nous allons essayer de comprendre un peu les
caractéristiques statistiques des données. Pour cela, nous allons commencer par les
tendances centrales des attributs puis essayer d’afficher la boîte à moustache et les
différents diagrammes de dispersion pour mieux visualiser les dépendances.
2. Moyenne
- Cas de Valeurs Continues : La moyenne est calculée en divisant la
somme de toutes les valeurs d'un attribut par le nombre total de valeurs.
3. Médiane
- Cas de Variables Continues : La médiane partage un ensemble de
valeurs triées par ordre croissant en deux sous-ensembles de taille égale.
Ces calculs des tendances centrales fournissent des mesures clés pour
comprendre la distribution et la centralité des données. Les différentes méthodes
sont adaptées à des types spécifiques de données, offrant ainsi une vue complète de
la structure des données.
Pour ne pas alourdir la lecture, cette capture contient le résumé des cinq
nombres de tous les attribut sauf fertilité car ça ne sert absolument à rien de calculer
ces tendance vu que c’est un attribut catégorique.
Selon La figure précédente nous n’avons aucun attribut symétrique, car la moyenne,
le mode et la médiane sont tous les trois différents pour chaque attribut, sauf pour l’attribut
‘Ph’, ils sont différent mais très proches en acceptant un peu l’erreur nous pouvons
considérer la distribution symétrique.
Boite à moustache :
La boite à moustache est utile lorsqu’on veut visualiser les concepts tels que la
symétrie, la dispersion, les valeurs aberrantes.
Exemple : Boîte à moustache pour l’attribut ‘N’ et ‘Cu’
Là nous voyons que Cu a une seule valeur aberrante parmi les 885 valeurs
alors que N a plusieurs.
pour ne pas encombrer le documents voici les autres boite a moustach en
taille relativement petite
Le trait de chaque boîte représente la médiane. Les ronds rouges se trouvant hors la
boîte présentent des valeurs aberrantes.
Tous les attributs contiennent des valeurs aberrantes. Concernant la symétrie, on
remarque que le trait de médiane n’est jamais au milieu (le nombre de valeurs avant la
médiane est différent du nombre de valeurs après la médiane), ce qui confirme le résultat
trouvé précédemment : Les attributs sont asymétriques.
Sauf pour ‘Ph’ on peut dire que c’est symétrique.
Histogrammes :
Dans notre cas, nous avons pris le cas continu car toutes les variables sont continues
et non groupées.
Pour mieux visualiser et comparer entre les différents histogrammes j’ai divisé pour
tous les attribue en 10 bacs au lieu de calculer pour chaque attribut la différence entre le max
et le min et diviser selon une formule données car ça va nous donner des histogrammes
avec différentes dimensions ce qui complique la comparaison.
Exemple : Histogramme attribut N
Prétraitement
Dans cette partie, il s’agit de normaliser les attributs numériques et remplacer les
valeurs manquantes et réduire la taille de dataset horizontalement et verticalement parlant.
La normalisation :
Permet d’ajuster une série de valeurs suivant une fonction de transformation pour les
rendre comparables. On choisit de diviser les valeurs des instances de chaque attribut par la
plus grande valeur de ce dernier. Les valeurs obtenues sont comprises entre 0 et 1. Ce
traitement est appliqué aux attributs numériques.
Prétraitement :
Avant de commencer toute manipulation d’un dataset, un prétraitement est
nécessaire. Dans notre cas, en suivant exactement le travail précédemment fait sur le
premier dataset, nous avons traité les valeurs aberrantes et supprimé toute ligne les
contenant et aussi les valeurs manquantes nous avons mis des zéro.
voici ces trois figures qui représentent toutes les informations sur le dataset avant et après
prétraitement.
informations globales sur le dataset avant prétraitement:
1. Zone 94085:
3. Zone 94087:
Analyses et discussion:
● Nous voyons bien que les trois premiers n’ont pas d’années et il est affiché
1900. Ce vient de dataset qui manque des informations
● Nous remarquons ici aussi que des cas positifs et des cas confirmés
dépendent des tests et qu’ils doivent être en relation la plupart de temps. Plus
nous faisons des tests, plus nous détectons des cas.
● La plupart du temps (à 98%) les cas positifs sont presque égaux au cas
confirmés.
conclusion:
une forte relation entre les cas confirmés et tests positifs, et les deux en
relation avec les tests.
Il faut faire beaucoup de tests pour détecter les contaminés vu la relation
linéaire positive forte.
III)Distributions annuelle des cas confirmés par zone:
l'analyse de la distribution par zone et par années vise à fournir des insights
sur la variation spatiale et temporelle d'une variable spécifique. Cela est
particulièrement utile pour la compréhension des dynamiques géographiques et
temporelles dans divers contextes surtout pour le contexte de la pandémie.
Pour vous aider à mieux voir cette distribution, nous vous proposons ce Bar
chart.
figure 2.12. Distribution des cas positifs par zones et par année
Analyse et discussion:
● Nous voyons bien que y a seulement quatre zones représentées, ceci est dû
au fait que le dataset ne contient pas d’années pour les autres zones.
● Mettre des années aléatoire ne sert absolument à rien et ne donne
absolument aucune information exploitable par la suite.
● En 2019, aucune contamination n’a eu lieu.
● La zone 95127 figure toujours sur les trois ans -2020,2021,2022 dans le top
des zones les plus touchées.
● En deuxième place, la zone 95035 pour 2020,2021. qui arrive à atteindre la
place la plus touchée en 2022.
● sur les trois ans où il y a eu des contaminations, la pandémie ne cesse pas de
se propager plus fort.
Conclusion:
La pandémie sur les trois ans a pris une propagation croissante sur toutes les
zones enregistrés.
IV)Le rapport entre la population et le nombre de tests effectués:
figure 2.13. Le rapport entre la population et le nombre de tests effuctués par zone
Analyses et discussion:
figure 2.14. Les top 5 des zones les plus fortement impactées par le coronavirus
Analyses et discussion:
● Nous voyons bien que le nombre a augmenté dans les 5 zones.
● Nous remarquons que la zone 95127 la plus forte augmentation, avec
une augmentation de plus de 20000 cas
conclusion:
En conclusion, Le nombre de cas de COVID-19 a augmenté dans toutes les
zones, la zone 95127 la plus forte augmentation, avec une augmentation de plus de
20000 cas.
VI)Le rapport entre les cas confirmés, les tests effectués et les tests:
Représenter le rapport entre les cas confirmés, tests effectués et tests positifs
au fil du temps par zone.
figure 2.15. Le rapport les cas confirmés, test effectués et test positifs au fil du temps par zone
Analyses et discussion:
● Nous voyons bien que les deux premiers n’ont pas d’années et il est
affiché 0. Ce vient de dataset qui manque des informations
● Le nombre de cas confirmés dans la zone 94200 a été le plus élevé de
toutes les zones.
● Le nombre de tests effectués dans la zone 94600 a été le plus élevé de
toutes les zones.
● Le taux de positivité a été le plus élevé dans la zone 94085 en 2020,
mais il a ensuite diminué dans toutes les zones.
conclusion:
En conclusion, le graphique montre que la pandémie de COVID-19 a un
augmentation plus forte sur ces années. Le nombre de cas confirmés a augmenté de
manière constante au cours des premières années de la pandémie, mais le nombre
de tests effectués a également augmenté, ce qui a conduit à une baisse du taux de
positivité.
Partie 02 :
Après avoir réalisé la partie 01, il est temps de profiter de travail fait pour
extraire des motifs fréquents, règles d'association et règles de corrélation de d'autre
dataset.
Dans le cadre de ce projet, un dataset a été proposé dans le but de mettre en
lumière les relations existantes entre les différents attributs de climat.
Cette étude nous permettra de dégager des informations essentielles pour
prendre des décisions éclairées dans le contexte de la gestion des ressources
environnementales et agricoles.
Feuille de Route :
Description de dataSet :......................................................................24
Discrétisation :.....................................................................................25
Extraction des motifs fréquents :.......................................................03
Extraction de fortes règles d'association :........................................04
Description de dataSet:
Pour cette partie, le dataset utilisé contient des attribut en relation avec le
climat. Avant de commencer son exploration, nous avons fait un prétraitement
comme il a déjà été fait en première partie.
Après que notre dataset est prétraité, voici une liste d'information globale le
concernant.
Description d'attributs :
Pour ne pas encombrer le rapport, nous avons ajouté une figure bien
claire pour énumérer tous les attributs.
Description dataset :
Le dataset est de taille (295x6), voici une entête:
Discrétisation:
Comme il est mentionné en haut, nous avons trois attributs de type numérique
continue, et trois d'autres de type discret et catégorique.
Pour pouvoir appliquer l'algorithme apriori sur des données, faut qu'elles
soient discréditées.
Pour cela nous avons pris un attribut continu et le discrédité pour pouvoir
l'inclure par la suite.
Nous avons choisi un attribut à discrétiser, et le choix est tombé sur la
température.
Discrétisation par méthode en classes d’effectifs égaux:
Après avoir discrédité, voici un aperçu sur la donnée.
Partie 01:
Etape 01: Extraction d'items d'une longueure 1
Nous avons retrouvé 23 items de longueur 1 au total. dont 3 vérifié le support
de 30% et qui sont :
{('rice',): 143, ('MOP',): 75, ('Urea',): 101, ('Coconut',): 152, ('DAP',): 86}
Etape 02: Extraction d'items d'une longueure 2
Nous avons retrouvé 4 qui verifié le support de 20% et aucun ne verifie le
support de 30%.
{('silty clay', 'rice'): 65, ('Coconut', 'Urea'): 53, ('Clayey', 'rice'): 54, ('coastal', 'Coconut'):
50}
Etape 03 : Application d'algorithme apriori
En appliquant l'algorithme, nous récupérons les items fréquents et leurs
supports avec les règles d'associations.
Nous l'avons appliqué avec un support minimum de 20, et nous avons
récupéré les conclusions suivantes.
A ce stade nous avons testé l’algorithme apriori avec différentes valeurs pour
la confiance et le support pour voir les changements qui peuvent être.
nous avons fait varier le support minimum entre [10,15,20,25], et la confiance entre
[0.5,0.7]
et voici le résumé des résultats:
Analyse:
● Nous voyons que lorsque le support vaut 10 et la confiance est à 0.5, tous les
items candidats sont pris.et 61 combinaison possible est candidates validé
pour les ensemble à 2 items.
● plus le support minimum augmente, plus nous avons moins d’items pour les
trois longueurs, mais la baisse de nombre d’ensemble d’items candidats
validé est plus forte plus la longueur est grande.
● nombre de règle aussi est impacté, mais il est impacté plus de confiance, on
voit bien pour le même support, une différence énorme selon la confiance.
Conclusion:
La confiance impacte plus sur les règles d’associations, alors que le support
minimum touche au nombre d’items sélectionnés validé en plus.