Vous êtes sur la page 1sur 67

Utilisation des réseaux de

neurones artificiels pour


l’analyse des données
Pr ABDALLAOUI Abdelaziz
Equipe de Recherche Chimie
Analytique et Environnement
Université Moulay Ismail
Faculté des Sciences
Meknès
a.abdallaoui@gmail.com

Journées de Formation TAPC - juin 2011


1
 Un neurone, ou cellule nerveuse :
 cellule excitable constituant l'unité fonctionnelle de base du
système nerveux.
 cellule constituée d'un corps cellulaire (« unité » principale) :

 de dendrites (« organes » d'entrée).


 d'un axone (« organe » de sortie)

Journées de Formation TAPC - juin 2011


2
 Les neurones assurent la transmission d'un signal bioélectrique
appelé influx nerveux.
 Son mode de communication principal est la décharge électrique
(i.e. le potentiel d'action) qui se propage de l'axone jusqu'aux
dendrites du neurone de destination..

Journées de Formation TAPC - juin 2011


3
 Modèle de calcul dont la conception est très
schématiquement inspirée du fonctionnement des
neurones biologiques.

 Les réseaux de neurones sont généralement


optimisés par des méthodes d’apprentissage de
type probabiliste.
Journées de Formation TAPC - juin 2011
4
 Ils sont placés dans deux familles :
• des applications statistiques, qu’ils enrichissent avec
un ensemble de paradigmes permettant de générer des
classifications rapides (réseaux de Kohonen en
particulier),
• des méthodes de l’intelligence artificielle auxquelles
ils fournissent un mécanisme perceptif indépendant
des idées propres de l'implémenteur, et fournissant des
informations d'entrée au raisonnement logique formel.

Journées de Formation TAPC - juin 2011


5
Réception d’une information
Fonctionnement biologique (signal)
Activation + traitement (simple) par
 Fonctionnement du cerveau un neurone
 Transmission de Transmission aux autres neurones
l’information et apprentissage (si seuil franchi)
A longue; renforcement de certains
liens : APPRENTISSAGE
Journées de Formation TAPC - juin 2011
6
A l’aide d’outils et d’algorithmes très puissants,
les RNA sont notamment appliqués pour
résoudre des problèmes de :
 prédiction,
 classification,
 catégorisation,
 optimisation,
 reconnaissance des formes
...

Journées de Formation TAPC - juin 2011 7


 Dans le cadre du traitement des données, les RNA
constituent une méthode d’approximation de
systèmes complexes, particulièrement utile lorsque
ces systèmes sont difficiles à modéliser à l’aide
des méthodes statistiques classiques.
 Les RNA sont également applicables dans toutes
les situations où il existe une relation non linéaire
entre une variable prédictive et une variable
prédite.
Journées de Formation TAPC - juin 2011
8
Par leur nature et leur fonctionnement, les RNA peuvent
détecter les interactions multiples non linéaires parmi une
série de variables d’entrée, ils peuvent donc gérer des
relations complexes entre les variables indépendantes et
les variables dépendantes.

Discriminations linéaire (A), non linéaire (B) et non continue (C).


Journées de Formation TAPC - juin 2011
9
 Depuis une dizaine d’années, l’utilisation des RNA s’est
développée dans de nombreuses disciplines :
• Prévision des séries temporelles dans les finances.
• Prédiction des paramètres physico-chimiques des milieux
aquatiques,
• Prévision climatique,
• L’amélioration de la production industrielle,
• Diagnostic médical
• Identification de segments de clients potentiels
• Détection de fraude,
• La sécurité,
• Etc.

Journées de Formation TAPC - juin 2011


10
Rien que dans le domaine de la médecine, Les
RNA sont utilisés :
 pour la prévision des infarctus,
 pour le diagnostic des pathologies pulmonaires,
 du diabète ,
 des cancers,
 de la maladie d’Alzheimer,
 des lésions crâniennes post-traumatiques,
 etc.
Journées de Formation TAPC - juin 2011
11
 Le diagnostic clinique et la prévision des
maladies se font à partir de l’analyse de
symptômes et de facteurs de risque.

 Or,l’interaction entre ces éléments est souvent


complexe. Un mauvais diagnostic peut conduire
au décès de l’individu. Il est donc nécessaire de
pouvoir évaluer le risque avec le plus de
précision possible.
Journées de Formation TAPC - juin 2011
12
Applications industrielles des
réseaux neuronaux
Aujourd’hui, on retrouve les réseaux de neurones
solidement implantés dans diverses industries :
Milieux financiers : prédiction des fluctuations
de marché ;
Pharmaceutique : analyser le « QSAR »
(quantitative structure-activity relationship) de
diverses molécules organiques;
Domaine bancaire : détection de fraudes sur les
cartes de crédit et le calcul de cotes de crédit.
Journées de Formation TAPC - juin 2011
13
Applications industrielles des
réseaux neuronaux
Aujourd’hui, on retrouve les réseaux de neurones
solidement implantés dans diverses industries :
Départements de marketing de compagnies
de diverses industries : prévoir le
comportement des consommateurs ;
Aéronautique : programmation de pilotes
automatiques ;

Journées de Formation TAPC - juin 2011


14
Applications industrielles des
réseaux neuronaux
Aujourd’hui, on retrouve les réseaux de neurones
solidement implantés dans diverses industries :
Domaine pétrolier : Estimation du débit
individuel des phases (eau, huile, gaz) en sortie
des puits de pétrole de production polyphasique,
Domaine militaire : Identification acoustique
d'engins militaires (char, jeeps,...)
etc.
Journées de Formation TAPC - juin 2011
15
Applications des RNA pour la
reconnaissance des formes
Reconnaissance en temps réel de visages dans une image quelconque

Journées de Formation TAPC - juin 2011


16
Un modèle de réseau de neurones calcule la valeur estimée
(la sortie) à partir des entrées.
Le calcul est un processus complexe qui produit les
valeurs estimées sans que l’on doive comprendre son
fonctionnement. Journées de Formation TAPC - juin 2011
17
Un réseau de neurones prend en entrée des données
spécifiques et les convertit en une sortie spécifique.

Journées de Formation TAPC - juin 2011


18
Les réseaux de neurones sont bons pour la
prédiction et l’estimation seulement quand :
• Les entrées sont bien comprises
• La sortie est bien comprise
• L’expérience est disponible pour un grand
nombre d’exemples à utiliser pour entraîner le
réseau.

Journées de Formation TAPC - juin 2011


19
Les réseaux de neurones sont seulement
aussi bons que l’ensemble d’apprentissage
utilisé. Le modèle construit est statique et
doit être continuellement mis à jour avec
des exemples plus récents.

Journées de Formation TAPC - juin 2011


20
RN très simple : 4 entrées et 1 sortie.
Le résultat de l’apprentissage de ce réseau est
exactement équivalent à la technique statistique
appelée régression logistique.
Journées de Formation TAPC - juin 2011
21
Ce réseau a une couche cachée.
La couche cachée renforce la puissance du réseau en lui
permettant de reconnaître plus de formes.
Journées de Formation TAPC - juin 2011
22
L’augmentation de la taille de la couche cachée rend plus
puissant le réseau mais introduit le risque d’un
apprentissage servile.
On n’a besoin d’habitude que d’une couche cachée.
Journées de Formation TAPC - juin 2011
23
Un réseau de neurones peut produire en sortie
des valeurs multiples.

Journées de Formation TAPC - juin 2011


24
x
e
Sigmoïde ou logistique : f ( x) 
1 ex
x
2e
Tangente hyperbolique : f ( x)  1  e x  1

Linéaire : f ( x)  x

Journées de Formation TAPC - juin 2011


25
 Quand la fonction d’activation est linéaire, le réseau de
neurones n’est autre qu’une régression linéaire multiple
avec comme entrées les variables indépendantes xi et
comme sortie la variable dépendante y.
 Les poids wi ne sont autres que les coefficients βi du
modèle de régression.
Journées de Formation TAPC - juin 2011
26
 Lorsque la fonction d’activation est logistique, le
réseau de neurones s’assimile à un modèle de
régression logistique. La différence avec le modèle
de régression linéaire est que la variable dépendante
y est binaire (valeurs : 0 ou 1).
Journées de Formation TAPC - juin 2011
27
Quand la fonction d’activation est la tangente hyperbolique,
le réseau de neurones est un perceptron multi-couches
(MLP), variante la plus fréquemment utilisée. On note ici
que le modèle se complique avec la présence d’une couche
cachée.
Journées de Formation TAPC - juin 2011
28
 Lepouvoir de prédiction augmente avec le nombre de
neurones des couches cachées
• Le nb de couches cachées est généralement de 1 ou 2
• Lorsque ce nb = 0, le réseau effectue une régression
(linéaire ou logistique)
 Cenb doit être limité pour que le réseau ne se contente
pas de mémoriser l’ensemble d’apprentissage.
 Lefait que toutes les valeurs soient comprises entre 0 et
1 permet de prendre en entrée d’un neurone la sortie
d’un neurone précédent.
Journées de Formation TAPC - juin 2011
29
 L’entraînement est le processus de choisir les poids
optimaux sur les arêtes reliant les unités du réseau entre
elles.
 L’objectif est d’utiliser l’ensemble d’apprentissage afin
de calculer les poids dont la sortie équivalente du réseau
sera aussi proche que possible de la sortie désirée pour
autant d’exemples de l’ensemble d’apprentissage que
possible.

Journées de Formation TAPC - juin 2011


30
 L’apprentissage consiste à descendre le réseau de façon
itérative en ajustant les poids à chaque passage selon le
calcul d’erreur jusqu’à ce qu’il n’y ait plus
d’amélioration. Pour cela, un algorithme de rétro
propagation de l’erreur est mis en œuvre.

Journées de Formation TAPC - juin 2011


31
 Principe de l’algorithme de rétro propagation de l’erreur
 Initialiser la matrice des poids au hasard

 Choisir un exemple en entrée

 Propager le calcul de cette entrée à travers le réseau

 Calculer la sortie de cette entrée

 Mesurer l’erreur de prédiction par différence entre sortie réelle et


sortie prévue Calculer la contribution d’un neurone à l’erreur à
partir de la sortie
 Déterminer le signe de modification du poids

 Corriger les poids des neurones pour diminuer l’erreur

Le processus recommence ainsi, à partir du choix de l’exemple en entrée,


jusqu’à ce qu’un taux d’erreur minimal soit atteint.
Journées de Formation TAPC - juin 2011
32
 Laconstruction de modèles pour la classification et la
prédiction est l’utilisation la plus courante des RN.
 Les étapes de cette procédure sont :
 1. Identification des caractéristiques d’entrées et
sorties
 2. Normalisation des valeurs dans l’intervalle [0,1]

 3. Constitution d’un réseau

 4. Apprentissage du réseau

 5. Test du réseau sur un ensemble d’évaluation

 6. Application du modèle

Journées de Formation TAPC - juin 2011


33
Qnet 2000 Trial
 Programme de modélisation,
facile à installer sous Windows
XP.
 Il suit un apprentissage
supervisé et utilise une règle
d’apprentissage de rétro-
propagation,
 Il est animé par des fonctions
d’activation non linéaires.
Journées de Formation TAPC - juin 2011
34
Pythia
 S'utilise beaucoup pour une simulation de la
règle d'apprentissage par rétro-propagation.
 Les poids des réseaux sont initialisés par des
valeurs au hasard.
 Il permet d'importer les données de différents
formats (MS Excel).
 Les réseaux et les données obtenus peuvent être
facilement enregistrés dans fichier à part.
 Une caractéristique spécifique de Pythia est
l'optimisation évolutionnaire qui
automatiquement génère les réseaux appropriés
pour les ensembles des données
d'apprentissage.
35
FENNIX
Fast EXperimentation
Neural Network graphical
Interface : développé par
Héctor-Fabio
SATIZABAL.
Entraînement des RN feed-
forward à l'aide de rétro-
propagation.

http://reds.heig-vd.ch/share/cours/SBI/Labo/labo3-voices/Fennix/index.html
Journées de Formation TAPC - juin 2011
36
MATLAB ®
Langage de haut niveau et un
environnement interactif qui
vous permet d'effectuer des
tâches de calcul intensif plus
rapidement qu'avec d’autres
langages.

37
MATLAB ®
IL offre un certain nombre de
fonctionnalités pour la
documentation et le partage
de votre travail.
Vous pouvez intégrer votre
code MATLAB avec d'autres
langages et applications, et
distribuer vos algorithmes et
applications MATLAB..
38
 Aptitude
à modéliser des structures complexes et
des données irrégulières
• Prise en compte des relations non linéaires
(interactions) entre les variables.
 Assez bonne robustesse aux données bruitées
 Aptitude à modéliser des problèmes très variés.

Journées de Formation TAPC - juin 2011


39
 Résultats totalement non explicites
 Sensibilité aux individus hors normes

 Sensibilité à un trop grand nombre de variables non


discriminantes (contrairement aux arbres de décision)
 Convergence vers la meilleure solution globale pas toujours
assurée
 Paramètres nombreux et délicats à régler (nb et taille des
couches cachées, taux d’apprentissage, etc.)
 Ne s’appliquent naturellement qu’aux variables continues
dans l’intervalle (0,1) – Nécessité de normaliser les données.
Journées de Formation TAPC - juin 2011
40
Prédiction des teneurs en métaux
lourds toxiques des sédiments de
l’oued Beht à partir des
paramètres physico-chimiques

Journées de Formation TAPC - juin 2011


41
Journées de Formation TAPC - juin 2011
42
Echant. % en % en % < 40 pH CaCO M.E.S Cu Pb Cr Cd
C % P µg/g
N° M.O. eau µm séd. 3 % mg/l µg/g µg/g µg/g µg/g

1 2,40 15,41 9,02 7,95 4,15 562 12,23 44,0 346,9 146,0 33,5 0,8

2 2,15 19,28 9,08 8,18 2,00 456 9,82 82,0 62,8 32,5 30,0 2,8

3 1,08 22,01 3,02 8,19 2,57 740 42,50 192,0 23,1 14,8 40,3 1,6

4 2,23 15,41 7,89 8,14 1,72 633 21,65 48,0 34,5 21,3 47,5 3,4

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

101 3,60 28,31 11,34 8,75 0,57 507 4,41 10,0 80,0 61,3 40,5 1,0

102 2,79 25,25 12,68 8,98 0,86 444 10,82 16,0 53,0 37,0 37,5 1,7

103 1,35 23,95 5,65 8,97 1,00 846 26,95 144,5 7,5 14,2 43,0 1,3

104 3,74 45,53 22,71 8,48 1,72 864 19,44 96,5 20,0 30,2 44,5 1,8
Journées de Formation TAPC - juin 2011
43
Mise en forme des données
Les valeurs X(i) de chaque variable indépendante (i) ont
été standardisées par rapport à sa moyenne et son écart-
type suivant la relation :
X (i)  X m (i)
X s (i) 
avec,
 X (i)
Xs(i) : Valeurs standardisées relatives à la variable i;
X(i) : Valeurs brutes relatives à la variable i;
Xm(i) : Valeurs moyenne ;
σX(i) : écart-type relatives à la variable i ;

Journées de Formation TAPC - juin 2011


44
Techniques de modélisation
1. l’application a été réalisée sur l’ensemble des données
relatives aux 104 échantillons.
2. Dans une deuxième étape, pour justifier la qualité prédictive
des modèles, les mêmes techniques ont été appliquées sur un
jeu de données relatives à 80 échantillons tirés d’une manière
aléatoire, parmi les 104 échantillons de départ.
3. La validité et la performance de la prédiction de ces modèles
ont été testées sur un jeu de données composé des 24
échantillons restants, qui n’ont pas participé à l’apprentissage
des modèles
Journées de Formation TAPC - juin 2011
45
Pour chercher la prédiction avec la méthode basée sur le principe des
réseaux de neurones artificiels, nous avons utilisé l’algorithme de rétro-
propagation du gradient de l’erreur, avec trois couches :

Journées de Formation TAPC - juin 2011


46
RNA

RLM
RNA

Journées de Formation TAPC - juin 2011


47
RNA

RLM

Journées de Formation TAPC - juin 2011


48
Journées de Formation TAPC - juin 2011
49
Cd Cr Cu Pb
Métho
de Apprenti
Test
Apprenti
Test
Apprenti
Test
Apprenti
Test
ssage ssage ssage ssage

RLM 0,26 0,15 0,82 0,14 0,53 0,58 0,60 0,29

RNA 0,88 0,81 0,933 0,86 0,96 0,97 0,80 0,85

Journées de Formation TAPC - juin 2011


50
Les modèles prédictifs établis par la méthode
récente, qui est basée sur le principe des RNA, sont
plus performants comparativement à ceux établis
par la méthode basée sur la RLM.

Cette performance semble due au fait que les conc.


des métaux lourds dans les sédiments sont liés aux
caractéristiques physico-chimiques par des
relations non linéaires. Ce qui est couramment
trouvé dans l’environnement aquatique.
Journées de Formation TAPC - juin 2011
51
Tableau de données : Base de données assez importantes

Traitements statistiques classiques :


ACP, AFC, RLM, …

Journées de Formation TAPC - juin 2011


52
Tableau de données : Base de données importantes

Traitements statistiques classiques :


ACP, AFC, RLM, …

Traitements par les Réseaux de


Neurones Artificiels : Prédiction,
Classification, …
Journées de Formation TAPC - juin 2011
53
Avantages des traitements des données

 Extraire des informations pertinentes d'une liste de


nombres difficile à interpréter par une simple lecture.
 Interprétation des données,
 Détermination des corrélations entre les variables,
 Déterminations des liens (relations) possibles entre
les variables,
 Classification des individus et ou des variables,
 Bonne présentation des résultats,
 Valoriser les résultats de votre recherche,
...
54
Journées de Formation TAPC - juin 2011
55
Journées de Formation TAPC - juin 2011
56
Journées de Formation TAPC - juin 2011
57
Journées de Formation TAPC - juin 2011
58
Journées de Formation TAPC - juin 2011
59
Journées de Formation TAPC - juin 2011
60
Journées de Formation TAPC - juin 2011
61
Journées de Formation TAPC - juin 2011
62
Journées de Formation TAPC - juin 2011
63
Journées de Formation TAPC - juin 2011
64
Journées de Formation TAPC - juin 2011
65
Journées de Formation TAPC - juin 2011
66
Journées de Formation TAPC - juin 2011

Pr ABDALLAOUI Abdelaziz

67

Vous aimerez peut-être aussi