Académique Documents
Professionnel Documents
Culture Documents
Détection automatisée des fissures dans les ponts en béton basée sur
le traitement d’images par les réseaux de neurones convolutifs
Hajar Zoubir1*, Mustapha Rguig1, Mohamed El Aroussi1, Rachid Saadane1
1Centre des Etudes Doctorales de l’Ecole Hassania des Travaux Publics, Casablanca
*zoubirhajar@gmail.com
Résumé : L'utilisation des drones (UAVs) pour l'automatisation de l'inspection visuelle des
ponts nécessite l’emploi des techniques de vision par ordinateur pour traiter efficacement la
grande quantité d’images collectées par les capteurs des UAVs. Les réseaux de neurones
convolutifs profonds (DCNNs) ont été particulièrement investigués par les chercheurs pour la
détection automatique des dégradations dans les surfaces du béton. Cependant, ces réseaux
nécessitent des bases de données massives pour l’entrainement et le test. Dans ce contexte,
cet article propose une méthode de détection des fissures dans les ponts en béton, basée sur
la fusion de trois bases de données accessibles au public, un réseau de neurone convolutif
profond de l’état de l’art et les techniques de Transfert d’apprentissage. L’approche proposée
a atteint une précision de 91.70% et la visualisation des résultats du test démontre les grandes
capacités d’apprentissage des DCNNs et ainsi le potentiel qu’ils offrent pour l’automatisation
de l’identification des fissures dans les ponts en béton.
Abstract: The use of Unmanned Aerial Vehicles (UAVs) to automate bridge visual inspection
requires the employment of computer vision-based techniques to efficiently process the large
amount of image data collected by the UAVs’ sensors. Particularly, Deep Convolutional Neural
Networks (DCNNs) have been investigated by researchers to automatically detect defects in
concrete surfaces. However, these networks necessitate massive datasets for training and
testing. In this regard, this paper proposes a method for crack detection in concrete bridges
based on the fusion of three publicly available datasets, a state-of-the-art Deep Convolutional
Neural Network, and Transfer Learning techniques. The proposed approach achieved an
accuracy of 91.70% and the visualization of the test results demonstrates the high learning
1
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
capabilities of DCNNs and the potential they offer to automate the identification of concrete
bridge cracks.
2
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
1. Introduction
Les fissures dans les ponts en béton sont induites par plusieurs mécanismes de dégradation
liés à des facteurs mécaniques (e.g., les conditions de charge), physiques (e.g., le retrait),
chimiques (e.g., les réactions alcali-agrégats) et thermiques (e.g., les gradients de
température). Leur présence met en péril la durabilité du pont [1] et pourrait être un signe d'une
insuffisance structurelle.
L'identification, la localisation et la quantification de ce type de désordre sont primordiales pour
évaluer l'état des éléments structurels (e.g., poutres et piles) et appréhender l’impact éventuel
des fissures sur la fiabilité structurelle du pont. À cette fin, les ouvrages sont régulièrement
examinés par des inspecteurs qualifiés qui documentent l'étendue et la gravité des
dégradations affectant les ponts en se basant sur des instructions et guides établis par les
gestionnaires [2].
L’approche conventionnelle d’inspection, nécessitant l’intervention d’un personnel sur site
avec des moyens d’accès particuliers, est laborieuse, coûteuse, demande du temps et
présente des risques liés à la sécurité des inspecteurs. Ainsi, on a de plus en plus recours
actuellement aux technologies d’acquisition des données permettant une inspection digitale et
rapprochée des ouvrages. En effet, la photogrammétrie par drones représente une variante
rentable, efficace et offrant un grand potentiel pour l’automatisation des inspections in situ [3]-
[4].
Cependant, et tenant compte de la quantité considérable des données photogrammétriques
collectées par les capteurs des drones, il est nécessaire d’automatiser le traitement des
images recueillies pour assurer une détection rapide et efficace des désordres affectant le
pont inspecté. A cette fin, les techniques basées sur la vision par ordinateur ont été largement
examinées par les chercheurs pour l’automatisation de l’identification des désordres.
Dans le contexte particulier des fissures, deux grandes familles de méthodes sont rapportées
dans la littérature. Il s’agit des méthodes basées sur les techniques traditionnelles de
traitement d’image (IPTs) (e.g., détecteurs de contour [5], seuillage [6], Analyse en
Composantes Principales [7]) et les méthodes basées sur les modèles d’apprentissage
automatique. Koch et al [8] ont fourni une synthèse de plusieurs études liées à la détection
des fissures dans les ponts en béton armé en utilisant des méthodes de vision par ordinateur.
Vu la complexité de la texture du béton et les représentations variées de sa surface dans le
monde réel des inspections, les IPTs présentent des limites d’extraction des caractéristiques
à partir des images pour la description des fissures [1],[9]. Ainsi, les modèles d’apprentissage
automatique et particulièrement les réseaux de neurones convolutifs profonds (DCNNs) sont
de plus en plus utilisés en raison de leurs capacités d’apprendre automatiquement les
caractéristiques à partir des images d’entrainement. Dans ce sens, Dorafshan et al.[10] ont
présenté une comparaison entre les DCNNs et les détecteurs de contours pour la détection
de fissures dans les images du béton. Leur étude a montré que la performance du réseau
AlexNet [11] est supérieure à celle des détecteurs de contour traditionnels. Cependant, les
DCNNs nécessitent des bases de données massives pour leur entrainement et test.
Dans ce contexte, on se propose dans cet article de présenter une application de
l’automatisation de la classification des images des fissures des ponts en béton en utilisant un
réseau de neurones convolutifs profonds de l’état de l’art appelé VGG16 [12], trois bases de
3
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
2.1 Généralités
Les réseaux de neurones convolutifs profonds (i.e., DCNNs) représentent une sous-catégorie
des réseaux de neurones artificiels dont le fonctionnement et l’architecture sont inspirés du
cortex visuel des vertébrés. Ils sont formés par une succession de couches de neurones
artificiels (représentés par des poids et biais) qui traitent et extraient les caractéristiques (i.e.,
features) à partir d’un jeu d’images (i.e., base de données d’entrainement) et les classent selon
leurs classes d’appartenance.
Les features désignent des zones intéressantes de l’image. Ces zones peuvent correspondre
à des contours, des coins ou des régions d’intérêt. Un DCNN applique en général trois types
d’opérations à une image pour en extraire les features. Il s’agit de la convolution, le pooling et
la correction via une fonction d’activation.
La convolution est une opération de filtrage appliquée à l’image pour rechercher des
caractéristiques particulières (e.g., coins et bords). Des cartes de caractéristiques (feature
maps) sont obtenues à la sortie d’une couche de convolution (i.e., empilement de plusieurs
convolutions) qui constituent une représentation abstraite de l’image. Les noyaux des filtres
représentent les poids des couches de convolution et sont initialisés et mis jour lors de
l’entrainement du modèle.
Le pooling (e.g. max-pooling ou average-pooling) est une opération de sous-échantillonnage
généralement appliquée après une couche de convolution. Les couches de pooling permettent
de réduire le nombre de paramètres ainsi que les calculs dans un réseau.
La fonction d’activation (e.g., ReLU, Tanh, et Sigmoid) sert à transformer de manière non-
linéaire les données et permet ainsi au réseau d’apprendre des taches plus complexes.
Après avoir appliqué les opérations de convolution et de pooling à une image d’entrée, le
vecteur résultant est transmis aux couches placées en fin du réseau qui sont entièrement
connectées à tous les neurones de sortie. Ces couches appliquent une combinaison linéaire
et une fonction d’activation pour classifier l’image. Elles renvoient finalement un vecteur dont
les composantes représentent les probabilités d’appartenance de l’image à une des classes
définies. Les poids de ces couches sont aussi initialisés et appris lors de la phase
d’entrainement du modèle. La figure 1 présente l’exemple de l’architecture d’un réseau de
neurones à convolution.
4
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
Dans un problème d’apprentissage supervisé (i.e., cas d’une base de données préalablement
annotées et étiquetées) et pour entrainer un DCNN, il est nécessaire de définir une fonction
qui va quantifier l’erreur du modèle (i.e., écart entre les prédictions du modèle et la sortie
attendue). Le problème d’optimisation consiste à trouver les poids et biais des différentes
couches qui minimiseront la fonction d’erreur. Les méthodes d’optimisation sont généralement
basées sur la rétropagation du gradient de l’erreur pour ajuster les paramètres du modèle (i.e.,
poids et biais).
L’entrainement des DCNNs nécessite une quantité énorme des données qui ne sont pas
toujours disponibles. Ainsi, les techniques de Transfert d’Apprentissage, basées sur la
capacité d’utiliser des connaissances existantes pour résoudre des problématiques données,
ont été largement examinées par les chercheurs. Il s’agit en général d’ajuster des modèles
pré-entrainés sur des bases de données de grande taille (e.g., ImageNet [13]) en gelant
certaines couches pendant l’entrainement (e.g., garder les poids de ImageNet) et en
réentraînant et affinant le reste pour répondre au problème de classification donné.
VGG16 [12] a été introduit par le « Visual Geometry Group » en 2014 et a remporté la première
place en localisation d'objets et la deuxième place en classification d'images dans la
compétition « ImageNet Large Scale Visual Recognition Challenge ».
Le réseau contient 13 couches de convolution avec des filtres 3x3 (i.e., noyaux de
convolution), 5 couches de max-pooling, 3 couches entièrement connectées et une couche
Softmax. La fonction d'activation Rectified Linear Unit (ReLU) est utilisée pour préserver
uniquement les valeurs positives d'une image filtrée. Le modèle prend 224 x 224 images RVB
comme entrées et possède plus de 138 millions de paramètres. La figure 2 présente
l'architecture du modèle VGG16.
5
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
La base de données CSSC [9] contient des images d'écaillage et de fissures du béton. Elle a
été constituée à partir d'une recherche sur Internet et d'une collecte de données réelles. Plus
de 1200 images ont été étiquetées manuellement, tournées et échantillonnées de manière
aléatoire, ce qui a permis d'obtenir 15 950 sous-images d'écaillage du béton et 31 180 sous-
images de fissures de différentes tailles.
SDNET2018 [16] contient des images annotées de tabliers de pont, de murs et de chaussées
en béton fissurés et non fissurés. Pour construire SDNET2018, 230 images (54 tabliers de
pont, 72 murs, 104 chaussées) ont été subdivisées en plus de 56 000 sous-images de 256 x
256 px.
Xu et al. [17] ont partagé une base de données composée de 6069 images de béton fissuré
et non fissuré de 224 x 224 px. Ces images ont été construites à partir d’une augmentation
artificielle de 2068 images de ponts d’une résolution de 1024 x 1024 px collectées par un drone
[18].
La figure 3 illustre des échantillons d’images des trois bases de données présentées.
6
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
Figure 3 : échantillons d’images des bases de données utilisées (rangée 1 : CSSC ; rangée 2 :
SDNET et rangée 3 : Xu et al.[17])
4.1 Méthodologie
7
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
Le modèle VGG16 a été entrainé en mode Transfert d’apprentissage. Les poids de ImageNet
des couches de convolution ont été conservés et seules les couches du classifieur ont été
réentraînées (i.e., les couches entièrement connectées). La figure 5 illustre la méthode
d’entraînement proposée.
L'entraînement a été effectué pour 20 itérations en optimisant la fonction d'entropie croisée
binaire à l'aide de la descente de gradient stochastique (SGD), un taux d'apprentissage de
0,001, un momentum de 0.9 pour accélérer la convergence de l'entraînement et une taille de
mini-batch de 32. Toutes les expérimentations ont été réalisées en utilisant Pytorch dans
Google Colaboratory (Colab) avec la GPU NVIDIA Tesla K80 de 12 Go fournie par la
plateforme.
8
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
5. Résultats et Discussions
Cette section présente et discute les résultats de l’entrainement et le test du modèle étudié en
utilisant la base de données constituée.
Le modèle a atteint une précision de 91.70% dans la classification des images de l'ensemble
de données de test. Les résultats expérimentaux montrent ainsi que le modèle entraîné en
mode Transfert d’Apprentissage (avec toutes les couches de convolution gelées) a atteint des
précisions élevées en entrainement, validation et test.
9
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
Cela signifie que les deux classes définies sont séparables et reconnaissables par le modèle
proposé dans cet article. Il convient de noter que ces résultats peuvent être améliorés en
appliquant certaines techniques de prétraitement pour la réduction du bruit dans les images
induit par les conditions d’acquisition sur site (e.g., lumière, mouvement de caméra…).
La figure 7 présente les résultats de test du modèle sur 6 images de fissures avec des
représentations variées. On peut constater que la probabilité de classification de fissures varie
selon leurs représentations dans l’image et leurs caractéristiques (e.g., orientation et
ouverture). Les fissures fines sont difficiles à identifier, notamment dans des images bruitées.
Pour contourner cette limitation, il convient d’augmenter le nombre d’exemples représentant
des fissures fines au niveau de la base de données d’entrainement, utiliser des techniques de
réduction de bruit et entrainer éventuellement des modèles plus adaptés au problème de
détection de fissures, qui sont capables de capturer des features plus robustes pour la
caractérisation de ce type de désordre dans les images.
Pour la localisation des fissures dans les images, des techniques d’interprétation et
d’explication des DCNNs peuvent être utilisées. Ces techniques permettent de générer des
cartes thermiques pour la visualisation des régions de l’image ayant contribué au résultat de
classification. La figure 8 montre des exemples de localisation des fissures en exploitant les
cartes thermiques produites par la technique d’interprétation GradCAM [19].
10
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
6. Conclusions
L'article propose une méthodologie pour automatiser l’identification des fissures dans des
images des ponts en béton en utilisant les réseaux de neurones à convolution et trois bases
de données publiques et les techniques de Transfert d’Apprentissage. Les résultats
expérimentaux ont montré que le modèle profond entrainé est capable de détecter les fissures
dans les surfaces en béton avec une précision qui s’élève à 91.70%.
L'exploitation des bases de données disponibles permet d'obtenir une représentation plus
complète des fissures rencontrées dans les ponts dégradés, et ainsi améliorer la robustesse
des algorithmes entrainés pour la détection des fissures.
11
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
L’implémentation de ces modèles dans les UAVs offre un grand potentiel pour automatiser le
processus d'inspection des ponts et constituerait un outil puissant pour une évaluation plus
efficace et moins subjective de l'état des ouvrages.
Bibliographie
[1] W. R. L. da Silva and D. S. de Lucena, “Concrete Cracks Detection Based on Deep
Learning Image Classification,” Proceedings, vol. 2, no. 8, Art. no. 8, 2018, doi:
10.3390/ICEM18-05387.
[2] R. S. Adhikari, O. Moselhi, and A. Bagchi, “Image-based retrieval of concrete crack
properties for bridge inspection,” Automation in Construction, vol. 39, pp. 180–194, Apr.
2014, doi: 10.1016/j.autcon.2013.06.011.
[3] S. Dorafshan and M. Maguire, “Bridge inspection: human performance, unmanned aerial
systems and automation,” J Civil Struct Health Monit, vol. 8, no. 3, pp. 443–476, Jul.
2018, doi: 10.1007/s13349-018-0285-4.
[4] J. Seo, “Drone-enabled bridge inspection methodology and application,” Automation in
Construction, p. 15, 2018.
[5] I. Abdel-Qader, O. Abudayyeh, and M. E. Kelly, “Analysis of Edge-Detection Techniques
for Crack Identification in Bridges,” J. Comput. Civ. Eng., vol. 17, no. 4, pp. 255–263,
Oct. 2003, doi: 10.1061/(ASCE)0887-3801(2003)17:4(255).
[6] A. M. A. Talab, Z. Huang, F. Xi, and L. HaiMing, “Detection crack in image using Otsu
method and multiple filtering in image processing techniques,” Optik, vol. 127, no. 3, pp.
1030–1033, février 2016, doi: 10.1016/j.ijleo.2015.09.147.
[7] I. Abdel-Qader, S. Pashaie-Rad, O. Abudayyeh, and S. Yehia, “PCA-Based algorithm for
unsupervised bridge crack detection,” Advances in Engineering Software, vol. 37, no. 12,
pp. 771–778, Dec. 2006, doi: 10.1016/j.advengsoft.2006.06.002.
[8] C. Koch, K. Georgieva, V. Kasireddy, B. Akinci, and P. Fieguth, “A review on computer
vision based defect detection and condition assessment of concrete and asphalt civil
infrastructure,” Advanced Engineering Informatics, vol. 29, no. 2, pp. 196–210, Apr.
2015, doi: 10.1016/j.aei.2015.01.008.
[9] L. Yang, B. Li, W. Li, Z. Liu, G. Yang, and J. Xiao, “Deep Concrete Inspection Using
Unmanned Aerial Vehicle Towards CSSC Database,” p. 9.
[10] S. Dorafshan, R. J. Thomas, and M. Maguire, “Comparison of deep convolutional neural
networks and edge detectors for image-based crack detection in concrete,” Construction
and Building Materials, vol. 186, pp. 1031–1045, Oct. 2018, doi:
10.1016/j.conbuildmat.2018.08.011.
[11] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet Classification with Deep
Convolutional Neural Networks,” p. 9.
[12] K. Simonyan and A. Zisserman, “Very Deep Convolutional Networks for Large-Scale
Image Recognition,” arXiv:1409.1556 [cs], Apr. 2015, Accessed: Apr. 16, 2021. [Online].
Available: http://arxiv.org/abs/1409.1556
[13] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “ImageNet: A large-scale
hierarchical image database,” in 2009 IEEE Conference on Computer Vision and Pattern
Recognition, Jun. 2009, pp. 248–255. doi: 10.1109/CVPR.2009.5206848.
[14] S. Balaji, “Binary Image classifier CNN using TensorFlow,” Techiepedia, Aug. 29, 2020.
https://medium.com/techiepedia/binary-image-classifier-cnn-using-tensorflow-
a3f5d6746697 (accessed Aug. 14, 2022).
[15] “Comment former les CNN sur ImageNet,” Support IVY : Encyclopédie #1 et site
d’informations, Conseils, Tutorials, Guides et plus, May 24, 2020.
https://supportivy.com/comment-former-les-cnn-sur-imagenet/ (accessed Aug. 14, 2022).
[16] S. Dorafshan, R. J. Thomas, and M. Maguire, “SDNET2018: An annotated image dataset
for non-contact concrete crack detection using deep convolutional neural networks,” Data
in Brief, vol. 21, pp. 1664–1668, Dec. 2018, doi: 10.1016/j.dib.2018.11.015.
12
ASSOCIATION MAROCAINE PERMANENTE الـجـمـعـيـة الـمغـربـيـة الـدائـمـة
DES CONGRES DE LA ROUTE لـمـؤتمـرات الـطـرق
11ème Congrès National de la Route à Dakhla المؤتمر الوطني الحادي عشر للطرق بالداخلة
[17] H. Xu, X. Su, Y. Wang, H. Cai, K. Cui, and X. Chen, “Automatic Bridge Crack Detection
Using a Convolutional Neural Network,” p. 14, 2019.
[18] L.-F. Li, W.-F. Ma, L. Li, and C. Lu, “Research on detection algorithm for bridge cracks
based on deep learning,” Acta Automatica Sinica, 2019.
[19] S.-J. Kim, J.-K. Lee, N.-J. Kwak, S.-P. Ryu, and J.-H. Ahn, “Grad-CAM based deep
learning network for location detection of the main object,” Journal of the Korea Institute
of Information and Communication Engineering, vol. 24, no. 2, pp. 204–211, 2020, doi:
10.6109/jkiice.2020.24.2.204.
13