Vous êtes sur la page 1sur 7

Résumé :

Cet article se concentre sur l'analyse comparative de la performance de prédiction de la qualité de l'eau
de surface en utilisant différents modèles d'apprentissage automatique basés sur de grandes quantités
de données (big data), ainsi que sur l'identification des paramètres clés de l'eau qui influencent cette
qualité. Les auteurs ont utilisé diverses techniques d'apprentissage automatique pour prédire la qualité
de l'eau de surface en se basant sur de grandes quantités de données recueillies à partir de différentes
sources. Les performances de différents modèles d'apprentissage automatique ont été comparées pour
évaluer leur efficacité dans la prédiction de la qualité de l'eau.

Principaux points abordés dans l'article :

Analyse comparative : L'article évalue la performance de différents modèles d'apprentissage


automatique dans la prédiction de la qualité de l'eau de surface. Les auteurs comparent les résultats
obtenus à partir de différents modèles pour évaluer leur précision, leur robustesse et leur adaptabilité
dans la prédiction de la qualité de l'eau.

Utilisation de big data : Les auteurs se basent sur de grandes quantités de données (big data) pour
former et évaluer les modèles d'apprentissage automatique. Cela implique l'utilisation de données
provenant de multiples sources, telles que des données de surveillance de la qualité de l'eau, des
données météorologiques, des données géospatiales, etc., pour améliorer la prédiction de la qualité de
l'eau de surface.

Identification des paramètres clés : L'article cherche à identifier les paramètres clés de l'eau qui ont le
plus grand impact sur la qualité de l'eau de surface. Les auteurs utilisent des techniques d'analyse de
sensibilité pour déterminer quels paramètres ont une influence significative sur la qualité de l'eau, ce qui
peut aider à mieux comprendre les processus impliqués dans la dégradation ou l'amélioration de la
qualité de l'eau.

Implications pratiques : Les résultats de cette étude peuvent avoir des implications pratiques
importantes pour la gestion de la qualité de l'eau de surface. En identifiant les paramètres clés de l'eau
et en utilisant des modèles d'apprentissage automatique basés sur de grandes quantités de données, il
est possible de développer des outils de prédiction plus précis pour évaluer la qualité de l'eau, ce qui
peut faciliter la prise de décisions éclairées en matière de gestion des ressources hydriques et de
protection de l'environnement.

En somme, cet article se concentre sur la comparaison de la performance de différents modèles


d'apprentissage automatique basés sur de grandes quantités de données pour la prédiction de la qualité
de l'eau de surface, ainsi que sur l'identification des paramètres clés de l'eau qui influencent cette
qualité. Les résultats de cette étude peuvent avoir des implications importantes pour la gestion de la
qualité de l'eau et la prise de décisions éclairées en matière de protection de l'environnement.
2. Materials and methods
2.1. Study area and water quality data

Quatre paramètres de qualité de l'eau sélectionnés, notamment la demande chimique en oxygène


(DCOMn), l'oxygène dissous (DO), l'ammoniac-nitrogène (NH3-N) et la concentration en ions hydrogène
(pH), la qualité de l'eau était classée en cinq niveaux (I, II, III, IV et V). De plus, la qualité de l'eau
considérée comme étant plus mauvaise que le niveau V a également été prise en compte dans cette
étude. Par conséquent, dans cette étude, la qualité de l'eau a été classée et prédite en utilisant six
niveaux, du bon au mauvais : I, II, III, IV, V et pire que V (WV), respectivement.

2.3. Three ensemble learning models


les sept modèles d'apprentissage automatique traditionnels (DT, NB, LR, LDA, CRT, KNN et SVM) les plus
fréquemment utilisés dans les études précédentes (Tableau S1)

les modèles RF (forêt aléatoire), CRF (forêt de régression classifiée) et DCF (forêt de décision classifiée)
ont été sélectionnés dans cette étude en tant que représentants des modèles d'apprentissage en
ensemble (Fig. 1)."

Ensemble learning models

Les modèles d'apprentissage en ensemble, également connus sous le nom d'ensemble learning models,
sont des techniques d'apprentissage automatique qui combinent les prédictions de plusieurs modèles
individuels pour améliorer les performances de prédiction. Au lieu d'utiliser un seul modèle pour faire
des prédictions, les modèles d'apprentissage en ensemble utilisent un groupe de modèles, souvent de
types différents, pour travailler ensemble et générer des prédictions plus précises et robustes.

Model evaluation
Resultat

Après avoir passé en revue toutes les données propres (33 612 observations), les niveaux I, I, II, III, IV, V
et WV représentaient respectivement 7,25 % (2 438 observations), 39,49 % (13 272 observations), 26,17
% (8 797 observations), 16,28 % (5 472 observations), 4,42 % (1 487 observations) et 6,38 % (2 146
observations) (Fig. 2A). Il est à noter que la qualité de l'eau, y compris les niveaux IV, V et WV,
représentait 33,47 % (9 105 observations), ce qui signifie que la prédiction de la qualité de l'eau pour les
grands fleuves chinois était nécessaire. Pour les quatre paramètres fondamentaux de l'eau, le pH (7,68 ±
0,54), l'OD (8,10 ± 2,60 mg/L), le CODMn (4,26 ± 3,35 mg/L) et le NH3eN (0,56 ± 1,42 mg/L) variaient
respectivement de 5,79 à 10,19, de 0,02 à 123, de 0 à 110,80 et de 0 à 30,1 (Fig. 2B). Chaque paramètre
de l'eau a été standardisé en utilisant leur score Z respectif avant d'être entré dans les modèles
d'entraînement afin de permettre à tous les 4 paramètres de posséder le même degré d'influence sur la
prédiction finale de la qualité de l'eau (Fig. 2C)."

3.2. Performances de prédiction de la qualité de l'eau après augmentation des données d'entraînement

Afin d'évaluer si de meilleures performances de prédiction de la qualité de l'eau pour chaque modèle
d'apprentissage pourraient être observées après l'augmentation des données d'entraînement, les
ensembles de données ont d'abord été divisés en deux parties, comprenant les ensembles
d'entraînement (80%, 26890 observations) et de validation (20%, 6722 observations) (Fig. 1). L'ensemble
d'entraînement a ensuite été divisé en sous-ensembles de proportions différentes [(1%, 269
observations), (10%, 2689 observations), (50%, 13455 observations) et (100%, 26890 observations)] pour
entraîner ces 10 modèles successivement (Fig. 3A), tandis que l'ensemble de données de validation est
resté le même. Les principales fonctions et hyperparamètres de ces 10 modèles ont été présentés dans
le Tableau 1. Au cours du processus d'entraînement, les modèles d'apprentissage traditionnels, y compris
KNN et SVM, ont présenté de meilleures performances après l'augmentation des données
d'entraînement, tandis que les performances de prédiction de la qualité de l'eau des 3 modèles
d'apprentissage ensembliste n'ont montré aucune amélioration avec l'augmentation des données
d'entraînement dans le processus d'entraînement, en se basant sur la précision, le rappel et le score F1
(Fig. S4 et Tableau S2). Importamment, tous les modèles d'apprentissage, à l'exception de LDA, ont
montré une amélioration des performances de prédiction dans le processus de validation après l'ajout
de plus de données d'entraînement (Fig. S5 et Tableau S3). Notamment, l'amélioration la plus
importante des performances de prédiction des 9 modèles a été obtenue en ajoutant 10% des données
d'entraînement par rapport aux performances de ces 9 modèles entraînés avec 1% des données
d'entraînement, en se basant sur le score F1 pondéré (Fig. 3B), et l'amélioration des performances de
prédiction de ces 9 modèles variait de 1,87% (LR) à 22,76% (KNN). De manière intéressante,
l'amélioration moyenne la plus élevée de la prédiction de la qualité de l'eau a été identifiée dans les 6
modèles traditionnels (11,62%) par rapport à celle des 3 modèles ensemblistes (7,30%) (Fig. 3B). Bien
que les performances de prédiction de ces 9 modèles augmentaient toujours, il y avait une amélioration
limitée de ces 9 modèles après l'ajout ultérieur de données d'entraînement de 10% à 100% (Fig. 3B).
3.3. Les modèles d'apprentissage en ensemble ont présenté de meilleures performances de prédiction
de la qualité de l'eau par rapport aux modèles d'apprentissage traditionnels

Afin d'identifier les modèles potentiellement appropriés pour la surveillance future de la qualité de l'eau,
nous avons comparé les performances de 7 modèles d'apprentissage traditionnels avec 3 modèles
d'apprentissage en ensemble (Fig. 1). Nous avons utilisé quatre paramètres fondamentaux de l'eau basés
sur les données d'entraînement maximales (80%, 26890 observations), car la plupart des modèles
d'apprentissage avaient de meilleures performances après l'augmentation des données d'entraînement.
Les principales fonctions et hyper-paramètres de ces 10 modèles ont été conservés identiques aux
expériences précédentes (Tableau 1). Les performances de ces 10 modèles d'apprentissage pour les 6
niveaux de qualité de l'eau, tant dans les processus d'entraînement que de validation, ont été évaluées
par la précision, le rappel, le score F1 et le score F1 pondéré (Fig. 1). De plus, une validation croisée
stratifiée à 5 plis a également été utilisée pour estimer la stabilité des performances de prédiction des
modèles (Figs. 1 et 4A).

3.3.1. Le processus d'entraînement

Dans le processus d'entraînement, parmi les 7 modèles d'apprentissage traditionnels, les modèles DT et
CRT ont présenté la plus haute précision (1,00 ± 0,00 pour DT, 1,00 ± 0,00 pour CRT, Fig. 4B et Tableau
S4), le rappel (1,00 ± 0,00 pour DT, 1,00 ± 0,00 pour CRT, Fig. 4B et Tableau S4) et le score F1 (1,00 ± 0,00
pour DT, 1,00 ± 0,00 pour CRT, Fig. 4B et Tableau S4) dans la prédiction de la qualité de l'eau pour les 6
niveaux. Cependant, les modèles LR, LDA, SVM, NB et KNN ont présenté des capacités déséquilibrées
pour prédire les 6 niveaux de qualité de l'eau (Fig. 4B et Tableau S4). En particulier, les modèles LR et LDA
n'ont pas réussi à prédire le niveau V et Niveau I d'eau, respectivement. Le SVM a montré des
performances nettement moins bonnes pour prédire le Niveau I d'eau que pour les autres 5 niveaux
d'eau (P < 0,001), tandis que le NB a montré des performances nettement moins bonnes pour prédire le
Niveau V d'eau que pour les autres 5 niveaux d'eau (P < 0,001). Fait intéressant, le KNN a également
montré une réduction significative des performances pour prédire le Niveau I et le Niveau V d'eau par
rapport aux autres 3 niveaux d'eau (P < 0,001).

Ensuite, les 3 modèles d'apprentissage par ensemble, y compris RF, CRF et DCF, ont également été
entraînés sur les mêmes ensembles de données. Dans l'ensemble, les 3 modèles d'apprentissage par
ensemble de cette étude ont montré des performances satisfaisantes pour prédire les 6 niveaux de
qualité de l'eau lors des processus d'entraînement (Fig. 4B et Tableau S4). Tout comme DT et CRT, CRF a
montré de meilleures performances que RF et DCF lors des processus d'entraînement, avec la plus haute
précision (1,00 ± 0,00), rappel (1,00 ± 0,00) et score F1 (1,00 ± 0,00) pour prédire les 6 niveaux de qualité
de l'eau. Notamment, les 3 modèles d'apprentissage par ensemble ont montré des capacités équilibrées
et complètes pour prédire les 6 niveaux de qualité de l'eau (Fig. 4B et Tableau S4), ce qui était meilleur
que LR, LDA, SVM, NB et KNN mentionnés ci-dessus. Importamment, RF, CRTF et DCF ont montré des
performances significativement meilleures pour prédire le Niveau I et le Niveau V d'eau que LR, LDA,
SVM, NB et KNN (P > 0,001). De plus, aucune différence significative supplémentaire n'a été observée
entre RF et DCF pour prédire les 6 niveaux de qualité de l'eau au cours du processus d'entraînement
3.3.2. Le processus de validation

Après l'entraînement, 20% de données supplémentaires ont été sélectionnées pour la validation des 10
modèles d'apprentissage (Figs. 1 et 4A). Comparés à 6 autres modèles d'apprentissage traditionnels, le
DT a montré des performances remarquablement meilleures pour prédire les 6 niveaux de qualité de
l'eau dans le processus de validation (P < 0,001, Fig. 4C et Tableau S5). La régression logistique (LR) et
l'analyse discriminante linéaire (LDA) ont montré des performances inacceptables pour prédire les
niveaux I et V de l'eau dans le processus de validation (Fig. 4C et Tableau S5). Remarquablement, les
performances du CRT ont présenté une tendance différente entre les processus de validation et
d'entraînement. Bien qu'il ait eu les meilleures performances pendant le processus d'entraînement, le
CRT a montré des performances significativement moins bonnes pour prédire les 6 niveaux de qualité de
l'eau dans le processus de validation (P < 0,001, Fig. 4C et Tableau S5). De plus, les performances des 3
autres modèles d'apprentissage, y compris le SVM, le NB et le KNN, dans le processus de validation
étaient similaires à celles observées dans le processus d'entraînement, montrant également des
performances significativement moins bonnes pour prédire les niveaux I et V de l'eau par rapport aux 3
autres niveaux d'eau (P < 0,01, Fig. 4C et Tableau S5).

Comparés à ces 7 modèles d'apprentissage traditionnels, les 3 modèles d'apprentissage ensembliste de


notre étude ont montré d'excellentes performances pour prédire les 6 niveaux de qualité de l'eau dans
les processus de validation (Fig. 4C et Tableau S5). Parmi les 3 modèles d'apprentissage ensembliste, RF
et DCF ont montré de meilleures performances que CRF pour prédire les 6 niveaux de qualité de l'eau,
notamment pour prédire les niveaux V et WV de l'eau (P < 0,001). Notamment, RF, CRF et DCF ont
montré des performances de prédiction significativement meilleures pour les 6 niveaux de qualité de
l'eau par rapport aux 7 modèles d'apprentissage traditionnels, à l'exception du DT sélectionné dans cette
étude. Plus important encore, RF et DCF ont montré des performances satisfaisantes pour prédire les
niveaux V et WV de l'eau, avec une précision maximale [0,98 ± 0,01 (niveau V), 0,99 ± 0,00 (niveau WV)
pour RF ; 0,99 ± 0,01 (niveau V), 0,99 ± 0,01 (niveau WV) pour DCF], un rappel [0,99 ± 0,01 (niveau V),
0,99 ± 0,01 (niveau WV) pour RF ; 0,99 ± 0,01 (niveau V), 0,99 ± 0,01 (Niveau V), 0,99 ± 0,01 (Niveau WV)
pour RF ; 0,99 ± 0,01 (Niveau V), 0,99 ± 0,01 (Niveau WV) pour DCF]. Finalement, basé sur le score F1
pondéré, le DCF et le CRF ont montré une performance significativement meilleure dans la prédiction de
la qualité de l'eau par rapport à ces 7 modèles d'apprentissage traditionnels, à l'exception de DT (Fig. 5)

3.4. Performance de prédiction de la qualité de l'eau de DT, RF et DCF

basée sur différents ensembles de paramètres de qualité de l'eau pour identifier les paramètres clés de
l'eau, ici DT, RF et DCF seront sélectionnés à nouveau pour l'entraînement et la validation de la
prédiction de ces qualités d'eau basées sur 3 et 2 des 4 paramètres de qualité de l'eau (Fig. 1), car DT, RF
et DCF ont montré les meilleures performances pour prédire les 6 niveaux de qualité de l'eau basés sur
les 4 paramètres de qualité de l'eau.

3.4.1. Trois des quatre paramètres de qualité de l'eau

En général, les performances de DT, RF et DCF pour prédire les 6 niveaux de qualité de l'eau dans les
processus d'entraînement (Fig. S6 et Tableau S6) et de validation (Fig. 6 et Tableau S7) basées sur 3
paramètres de l'eau étaient moins bonnes que celles de DCF entraîné par les 4 paramètres de qualité de
l'eau. Néanmoins, les modèles DT, RF et DCF entraînés par DO, CODMn et NH3eN présentaient encore
des performances acceptables pour prédire les qualités de l'eau, avec les meilleures précision, rappel et
score F1 pour prédire les qualités de l'eau du niveau I au V dans les processus de validation (Fig. 6 et
Tableau S7). Bien que les performances de prédiction de l'eau de niveau WV de ces 3 modèles entraînés
par DO, CODMn et NH3eN n'étaient pas significativement meilleures que celles des 3 modèles entraînés
par les autres ensembles de paramètres (pH, CODMn, NH3eN ; pH, DO, NH3eN ; pH, DO, CODMn), les
plus faibles précision, rappel et score F1 de DT étaient de 0,83 ± 0,02, 0,85 ± 0,07, 0,84 ± 0,03 (Fig. 6D et
Tableau S7), respectivement, ce qui était également acceptable dans la prédiction de la qualité de l'eau.
De plus, le score F1 pondéré de DT, RF et DCF entraînés par DO, CODMn et NH3eN était de 0,97 ± 0,00,
0,98 ± 0,01, 0,98 ± 0,01 et significativement plus élevé (P < 0,001) que celui de ces 3 modèles entraînés
par les autres ensembles de paramètres de l'eau (Fig. 7).

3.4.2. Deux paramètres de qualité d'eau parmi les 4 possibles

DT, RF et DCF ont ensuite été sélectionnés pour l'entraînement (Fig. S7 et Tableau S8) et la validation de
la prédiction de ces qualités d'eau en utilisant n'importe quels 2 des 4 paramètres de qualité d'eau. De
manière similaire, les performances de DT, RF et DCF basées sur n'importe quels 2 paramètres de qualité
d'eau dans le processus de validation étaient moins bonnes que celles de ces 3 modèles entraînés avec 3
ou 4 paramètres de qualité d'eau (Fig. 8 et Tableau S9). Les performances de DT, RF et DCF entraînés
avec CODMn et NH3eN étaient significativement meilleures que celles de ces 3 modèles entraînés avec
les autres 5 ensembles d'entraînement (pH, DO ; pH, CODMn ; pH, NH3eN ; DO, CODMn ; et DO,
NH3eN), avec un score F1 pondéré de 0,86 ± 0,01, 0,86 ± 0,01, 0,88 ± 0,01 respectivement (Fig. 9).

Conclusion
Les objectifs principaux de cette étude étaient d'évaluer si les données massives disponibles pouvaient
améliorer les performances des modèles d'apprentissage automatique dans la prédiction de la qualité de
l'eau de surface, et d'identifier les meilleurs modèles et les paramètres clés de l'eau pour une
surveillance précise et opportune de la qualité de l'eau. Dans cette étude, les performances de
prédiction de la qualité de l'eau de surface de 7 modèles d'apprentissage traditionnels et de 3 modèles
d'apprentissage en ensemble utilisant les données massives ont été comparées de manière exhaustive,
et les paramètres clés potentiels de l'eau ont également été identifiés et validés. Les principales
conclusions de cette étude sont les suivantes :

Les données massives disponibles peuvent améliorer les performances à la fois des modèles
d'apprentissage traditionnels et des modèles d'apprentissage en ensemble dans la prédiction de la
qualité de l'eau de surface.

Comparés aux 7 autres modèles d'apprentissage, les modèles DT, RF et DCF ont présenté des
performances de prédiction nettement meilleures pour les six niveaux de qualité de l'eau définis par le
gouvernement chinois.

Deux ensembles de paramètres clés de l'eau (DO, CODMn et NH3eN ; CODMn et NH3eN) ont été
identifiés et validés par les modèles d'apprentissage.
En résumé, les trois modèles d'apprentissage avec les deux ensembles de paramètres clés de l'eau
identifiés et validés par les données massives dans cette étude devraient être recommandés pour la
surveillance future de la qualité de l'eau de surface, car ils pourraient non seulement fournir des
avertissements environnementaux opportuns et précis, mais pourraient également augmenter
l'efficacité de la prédiction et diminuer les coûts de prédiction dans la surveillance future de la qualité de
l'eau de surface.

Vous aimerez peut-être aussi