Vous êtes sur la page 1sur 30

U T I L I S AT I O N D E L A T H ÉO R I E D E

DEMPSTER-SHAFER
I. INTRODUCTION

II. CONCEPTS CLES ET MATHÉMATIQUES

III. ETUDE DE CAS

 MODÉLISATION ET CONCEPTION

 IMPLÉMENTATION ET SIMULATION EN

PYTHON

IV. CONCLUSION
I. INTRODUCTION
La théorie de Dempster-Shafer est une théorie mathématique basée sur la notion
de preuves utilisant les fonctions de croyance et le raisonnement plausible. Le but de
cette théorie est de permettre de combiner des preuves pour calculer la probabilité d'un
évènement. Développée par Arthur P. Dempster et Glenn Shafer, elle est aujourd'hui
utilisée pour modéliser l'incertitude épistémique (subjective) comme alternative à
l'approche probabiliste traditionnelle. Étant donné que la théorie bayésienne a
principalement besoin de mesures précises à partir d'expériences, cette exigence a
restreint son application aux problèmes ayant des informations faibles et éparses et a
incité à poursuivre les recherches pour explorer de nouvelles techniques. Entre-temps,
le concept de probabilité imprécise est apparu et s'en est suivi un formalisme différent,
parmi lesquels la théorie de Dempster-Shafer est un cadre de travail important. Dans le
cadre de ce projet nous explorerons les concepts derrière cette théorie et son
importance dans la mise sur pied d’algorithmes intelligents performants dans le concept
de l’apprentissage automatique.
II. CONCEPTS CLES ET MATHÉMATIQUES
 CADRE DE DISCERNEMENT(FRAME OF DISCERNMENT)
Soit X={Xi…Xn} un univers, c’est-à-dire un ensemble contenant tous les
éléments auxquels on s’intéresse. Dans la théorie des probabilités
conventionnelle, l'incertitude sur X est représentée en attribuant des
valeurs de probabilité pi aux éléments Xi, i…n, qui satisfont =1. La
représentation des incertitudes dans la théorie D-S est similaire à celle de
la théorie des probabilités conventionnelle et implique d'affecter des
probabilités à l'espace X. Cependant, la théorie D-S a une nouvelle
caractéristique importante : elle permet d'affecter la probabilité à des
sous-ensembles de X ainsi qu'à l'élément individuel Xi.
 ENSEMBLE DE PUISSANCE (POWER SET)

L'ensemble de puissance P(X)=2𝑋 ,est l’ensemble de tous les sous-


ensembles de X , y compris l’ensemble vide . Par exemple, si:
X={a,b}
alors
P(X)={∅,{a},{b},{X}}

Les éléments de l’ensemble des parties de X peuvent être interprétés


comme des propositions, un élément représentant les états qu’il contient.
Par exemple, on peut interpréter l’élément {a} comme « la
proposition a est vérifiée » ou « on est dans l’état a », ou encore comme
« on est soit dans l’état a, soit dans l’état b ».
 NOTION DE MASSE
Un élément de preuve qui influence notre croyance concernant la vraie
valeur d'une proposition « A » peut être représenté par une affectation
de probabilité de base m().
On définit la masse de la manière suivante:

𝑋
m: 2 → [0,1]
m(ϕ) = 0
σ m (A) = 1 , m (A) ≥ 0, ∀ A ∈ 2 𝑋
 CROYANCE
La fonction de croyance peut être élaborée en prenant la somme de
toutes les affectations de probabilité de base des sous-ensembles
appropriés (B) de l'ensemble d'intérêt (A). La fonction de croyance
mesure dans quelle mesure les informations fournies par une source de
données soutiennent la croyance en un élément spécifié en tant que
bonne réponse, ainsi:
𝑋
Bel: 2 → [0,1]
Bel(A)=σB⊆A m(B) , ∀ A⊆ X
 PLAUSIBILITÉ
La plausibilité, la limite supérieure de l'intervalle, est calculée en prenant
la somme de toutes les affectations de probabilité de base des ensembles
(B) qui coupent l'ensemble d'intérêt (A)(B∩A≠Ø )

𝑋
Pl: 2 → [0,1]
Pl(A)=σB∩A≠Ø m(B)
 INTERVALLE D’INCERTITUDE
La théorie de la preuve D-S fournit une généralisation de la théorie des
probabilités où notre connaissance des probabilités d'événements ne
sont pas connues avec précision mais connues dans des intervalles. Selon
cette interprétation, la mesure Pl(A) est la probabilité supérieure du
sous-ensemble A et la mesure Bel(A) est la probabilité inférieure du
sous-ensemble A. Ainsi, la probabilité du sous-ensemble A, Prob(A), est
borné comme suit :
Bel (A) ≤ Prob (A)≤ Pl (A)
La plausibilité et la croyance sont liées :
Pl (A) = 1−Bel(A)
 COMBINAISON DE PREUVES ET DE MASSES
Le problème qui se pose maintenant est de savoir comment combiner
deux ensembles indépendants et leurs masses. La règle de combinaison
originale, connue en tant que règle de combinaison de Dempster, est
une généralisation du théorème de Bayes.
Ce théorème met clairement en valeur l’accord entre des sources multiples
et ignore les conflits grâce à un facteur de normalisation. L’utilisation de
ce théorème pose ainsi problème lorsque des conflits significatifs ont lieu
entre différentes sources d’information.
Ici, la combinaison ou masse jointe est calculée à partir des deux
masses m1, m2 de la manière suivante :
DÉFINITION DES CONCEPTS MATHÉMATIQUES ET ALGORITHMIQUES

𝑚1−2 (∅)=0
1
𝑚1−2 (A)= σB∩C=A≠Ø 𝑚1 (B) 𝑚2 (C)
1−𝐾

K=σB∩C=Ø 𝑚1 (B) 𝑚2 (C)

k est une mesure du niveau de conflit entre les deux masses. Le facteur de
normalisation k-1 permet d’ignorer ces conflits et d’attribuer toute masse
impliquée dans le conflit à l’ensemble nul.
EXEMPLE ILLUSTRATIF
Lors de l'évaluation des notes de la classe de 100 élèves, deux des enseignants de la classe
ont répondu le résultat global comme suit. Le premier enseignant a estimé que 40
étudiants obtiendraient un A et que 20 étudiants obtiendraient une note B parmi les 60
étudiants qu'il avait interrogés. Alors que le deuxième enseignant a déclaré que 30
étudiants obtiendraient une note A et que 30 étudiants obtiendraient un A ou un B
parmi les 60 étudiants qu'il a passés à l'entretien. En combinant les deux preuves pour
trouver la preuve résultante, nous ferons les calculs suivants. Ici cadre de discernement
θ= {A, B} et ensemble de puissance 2θ = {∅, A, B, A, B },
Preuve (1) =Ev1 Preuve (2) =Ev2
m1(A) = 0,4 m2(A) = 0,3
m1(B) = 0,2 m2 A,B = 0,3
m1(θ) = 0,4 m2(θ) = 0,4
CROYANCE
Bel1 A = m1 A = 0.4 Bel2 A = m2 A = 0.3

Bel1 B = m1 B = 0.2 Bel2 A,B = m2 A +m2 B +m2 A,B


= 0.3+0+0.3 = 0.6

Bel1 θ = m1 A +m1 B +m1 ⊝ = Bel2 θ = m2 A +m2 B +m2 A,B


0.4+0.2+0.4 = 1.0 +m2 ⊝ = 0.3+0+0.3+0.4 = 1.0
PLAUSIBILITÉ
A∩A = A ≠ ∅ hence m1 A = 0.4 A∩A = A ≠ ∅ hence m2 A = 0.3
A∩B = ∅ A∩B = ∅
A∩θ = A ≠ ∅ hence m1 θ = 0.4 A∩θ = A ≠ ∅ hence m2 θ = 0.4
Pl1 A = m1 A +m1 θ = 0.4+0.4 = 0.8 Pl2 A = m2 A +m2 θ = 0.3+0.4 = 0.7

B∩A = ∅ A,B ∩A = A ≠ ∅ m2 A = 0.3


B∩B = B ≠ ∅ hence m1 B = 0.2 A,B ∩B = B ≠ ∅ ,m2 B = 0
B∩θ = B ≠ ∅ hence m1 θ = 0.4 A,B ∩ A,B = A,B ≠ ∅ m2 A,B = 0.3
Pl1 B = m1 B +m1 θ = 0.2+0.4 = 0.6 A,B ∩θ = (A,B) ≠ ∅ hence m2 θ = 0.4
Pl1 A,B = m2 A +m2 A,B +m2 θ
= 0.3+0.3++0.4 = 1.0

θ∩A = A ≠ ∅ hence m1 A = 0.4 θ∩A = A ≠ ∅ hence m2 A = 0.3


θ∩B = B ≠ ∅ hence m1 B = 0.2 θ∩ A,B = (A,B) ≠ ∅,m2 A,B = 0.3
θ∩θ = θ ≠ ∅ hence m1 θ = 0.4 θ∩θ = θ ≠ ∅ hence m2 θ = 0.4
Pl1 θ = m1 A +m1 B +m1 θ Pl2 θ = m2 A +m2 A,B +m2 θ
= 0.4+0.2+0.4 = 1.0 = 0.3+0.3+0.4 = 1.0
COMBINAISON DE PREUVES ET DE MASSES
Evidences
m2(A)=0.3
m1(A)=0.4
m1-2 (A) =0.12
m1(B)=0.2
m1-2 (∅) = 0.06
m1(θ)=0.4
m1-2 (A) = 0.12 k = 0.06
m2(A,B)=0.3 m1-2 (A) =0.12 m1-2 (B) = 0.06 m1-2 (A,B)= 0.12
m2(θ)=0.4 m1-2 (A) = 0.16 m1-2 (B) = 0.08 m1-2 (θ) = 0.16 1−k = 0.94
m1−2 (A) Bel1-2(A) = m1-2(A) = Pl1−2 (A) = m1−2 (A) +m1−2 (A,B) +m1−2 (θ) =
𝟎.𝟏𝟐+𝟎.𝟏𝟐+𝟎.𝟏𝟐+𝟎.𝟏𝟔 0.553 (55 élèves) 0.553+0.128+0.170 = 0.851, (85 élèves)
= = 0.553
𝟎.𝟗𝟒
Bel1-2(B) = m1-2(B) = Pl1−2 (B) = m1−2 (B) +m1−2 (A,B) +m1−2 (θ) =
𝟎.𝟎𝟔+𝟎.𝟎𝟖 0.149 (15 élèves) 0.149+0.128+0.170 = 0.447, (45 élèves)
m1−2 (B)= = 𝟎. 𝟏𝟒𝟗 Bel1−2 (A,B) = m1−2 (A) Pl1−2 (A,B) = m1−2 (A) +m1−2 (B) +m1−2 (AB) +m1−2
𝟎.𝟗𝟒
+m1−2 (B) +m1−2 (A,B) = (θ) = 0.553+0.149+0.128+ 0.170 = 1.0
𝟎.𝟏𝟐
m1−2 (A,B)= 𝟎.𝟗𝟒 = 𝟎. 𝟏𝟐𝟖 0.553+0.149+0.128 = 0.83 Pl1−2 (θ) = m1−2 (A) +m1−2 (B) +m1−2( A,B) +m1−2
Bel1−2 (θ) = m1−2 (A) (θ)= 0.553+0.149+0.128+0.170 = 1.0. 100 élèves
𝟎.𝟏𝟔 +m1−2 (B) +m1−2 (A,B)
m1−2 (θ)= = 𝟎. 𝟏𝟕𝟎
𝟎.𝟗𝟒 +m1−2 (θ) =
0.553+0.149+0.128+ 0.170 =
1
III. ETUDE DE CAS: CLASSIFICATION
SUR LE « IRIS PLANT DATASET »
Équipé de la connaissance de la théorie DS et de l'utilisation de pyds
MassFunction, les sections suivantes décrivent la classification sur le
« Iris Plant Dataset » [IPD] en utilisant la théorie Dempster-Shafer.
MODÉLISATION ET CONCEPTION
Nous essaierons d'utiliser la largeur des pétales, la hauteur des pétales, la largeur
des sépales et les mesures de la hauteur des sépales pour effectuer la
classification des classes d'iris setosa, d'iris versicolor ou d'iris virginica.
1) Définir le cadre de discernement : C'est l'ensemble de toutes les hypothèses
possibles liées à l'ensemble de données donné et identifie les classes auxquelles les
données doivent être affectées.

2)Déterminer l'appartenance à une classe : déterminez les attributs de données qui


sont importants pour établir l'appartenance à une classe et supprimez les autres. En
général, le cadre de discernement et les attributs sélectionnés (leur nombre et leurs types
de données) fourniront des directives générales pour la conception des fonctions de
masse et la structure des combinaisons DRC.

3)Attribuer une fonction de masse : examinez les attributs sélectionnés et leurs


valeurs de données dans un sous-ensemble de données afin de concevoir des fonctions
de masse pour chaque attribut. Ces fonctions seront utilisées pour attribuer des valeurs
de masse aux hypothèses correspondantes sur la base des valeurs d'attribut des données
de test.
4)Concevoir une stratégie DRC : Concevoir une stratégie de combinaison DRC basée
sur la structure des données. Une seule application de DRC combine les valeurs de
masse de chaque attribut pour chaque élément de données, mais de nombreuses
applications peuvent être utilisées, et DRC peut également être utilisé pour combiner
les résultats d'applications précédentes.

5)Classifier les données : Suite à la combinaison, sélectionnez une règle qui


convertit le résultat en décision. Plusieurs peuvent être utilisés sur différentes étapes,
mais la dernière classe finalement les données.
IMPLÉMENTATION ET SIMULATION EN PYTHON
1. Définir le cadre de discernement
2. Déterminer l'appartenance à une classe
3. Attribuer une fonction de masse
4. Concevoir une stratégie DRC
5. Classifier les données
Visualisation et application
DOMAINES D’APPLICATION

 Diagnostic

 Aide a la decision

 perceptron multi capteur

 Traitement d’images
IV. CONCLUSION
Parvenu au terme de notre travail , il en ressort que la theorie D-S permet de
mettre en place des algorithmes intelligents en ce sens qu’il permet d’integrer
les cas d’incertitudes s’adaptant ainsi a toutes situation réelles dans le
concept de l’apprentissage automatique.
FIN.

MERCI POUR VOTRE ATTENTION

Vous aimerez peut-être aussi