Embeddings Bêta Pour Le Raisonnement Logique Multi-Sauts: Hyren@cs - Stanford.edu Jure@cs - Stanford.edu

Traduit de Anglais vers Français - www.onlinedoctranslator.
com
Embeddings bêta pour le raisonnement logique multi-sauts

dans les graphiques de connaissances
Hongyu Ren Jure Leskovec

Université de Stanford Université de Stanford
hyren@cs.stanford.edu jure@cs.stanford.edu
arXiv:2010.11465v1 [cs.AI] 22 octobre 2020
Résumé
L'un des problèmes fondamentaux de l'intelligence artificielle est d'effectuer un raisonnement

logique complexe à plusieurs sauts sur les faits capturés par un graphe de connaissances (KG). Ce
problème est difficile, car les KG peuvent être massifs et incomplets. Des approches récentes
intègrent des entités KG dans un espace de faible dimension, puis utilisent ces intégrations pour
trouver les entités de réponse. Cependant, la gestion des requêtes arbitraires de logique de
premier ordre (FOL) a été un défi exceptionnel, car les méthodes actuelles sont limitées à un sous-
ensemble d'opérateurs FOL. En particulier, l'opérateur de négation n'est pas pris en charge. Une
limitation supplémentaire des méthodes actuelles est également qu'elles ne peuvent pas
naturellement modéliser l'incertitude. Ici, nous présentons BETAE, un cadre d'intégration
probabiliste pour répondre à des requêtes FOL arbitraires sur des KG. BETAE est la première
méthode qui peut gérer un ensemble complet d'opérations logiques du premier ordre : conjonction
(??), disjonction (??), et la négation (??). Un aperçu clé de BETAE consiste à utiliser des distributions
probabilistes à support borné, en particulier la distribution bêta, et à intégrer des requêtes/entités
en tant que distributions, ce qui nous permet par conséquent de modéliser fidèlement l'incertitude.
Les opérations logiques sont effectuées dans l'espace de plongement par des opérateurs
neuronaux sur les plongements probabilistes. Nous démontrons la performance de BETAE sur la
réponse à des requêtes FOL arbitraires sur trois KG volumineux et incomplets. Tout en étant plus
général, BETAE augmente également les performances relatives jusqu'à 25,4% par rapport aux
méthodes de raisonnement KG de pointe actuelles qui ne peuvent traiter que des requêtes
conjonctives sans négation.
1. Introduction
Le raisonnement est un processus consistant à tirer des conclusions logiques ou à faire des prédictions à partir des connaissances/
faits disponibles. Les connaissances peuvent être encodées dans un graphe de connaissances (KG), où les entités sont exprimées
sous forme de nœuds et les relations sous forme d'arêtes. Les KG du monde réel, tels que Freebase [1], Yago [2], NELL [3], sont à
grande échelle, bruyants et incomplets. Le raisonnement en KGs est un problème fondamental en Intelligence Artificielle.
Essentiellement, il s'agit de répondre à des requêtes de logique du premier ordre (FOL) sur des KG à l'aide d'opérateurs de
quantification existentielle (??), conjonction (??), disjonction (??), et la négation (??).
Pour trouver des réponses, une requête FOL donnée peut être considérée comme un graphique de calcul qui spécifie les
étapes nécessaires. Un exemple concret du graphe de calcul pour la requête «Liste des présidents des pays européens
qui n'ont jamais organisé la Coupe du monde» est illustré à la figure 1. La requête peut être représentée comme une
conjonction de trois termes : «Situé (Europe, V)», qui retrouve tous les pays européens ; "??Tenue (Coupe du monde, V)»,
qui retrouve tous les pays qui n'ont jamais organisé la Coupe du monde ; et "Président(V,V?)», qui trouve des présidents
de pays donnés. Afin de répondre à cette requête, on localise d'abord l'entité "L'Europe » puis parcourt le KG par la
relation «Situé» pour identifier un ensemble de pays européens. Des opérations similaires sont nécessaires pour l'entité "
Coupe du monde» pour obtenir les pays qui ont accueilli la Coupe du monde. Il faut ensuite compléter le deuxième
ensemble pour identifier les pays n'ayant jamais organisé la Coupe du monde et croiser le complément avec l'ensemble
des pays européens. La dernière étape consiste à appliquer la relation
34e conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2020), Vancouver, Canada.
= ? . ∶?? , ∧ ¬ ?? , ∧ ?? , ? Rebelo de Sousa (PT)✓
L'Europe
Situé Intersection Intr.
Situé
Mettre en doute
Président Prés.
Tenu Négation Tenu Nég.
Intersection Intr.
Coupe du monde
(A) Graphique de calcul (B) BETAE Approche Macron (FR)-
Figure 1 : BETAE répond aux requêtes logiques du premier ordre qui incluent ??, ??, ?? et ?? Opérateurs logiques.
(A) : une requête donnée "Lister les présidents des pays européens qui n'ont jamais organisé la Coupe du monde"peut
être représenté par son graphe de calcul où chaque nœud représente un ensemble d'entités et chaque arête représente
une opération logique. (B): BETAE modélise chaque nœud du graphe de calcul comme une distribution bêta sur l'espace
d'incorporation d'entités et chaque bord du graphe de calcul transforme la distribution via une opération de projection,
de négation ou d'intersection. BETAE applique une série d'opérateurs logiques qui transforment et façonnent chacun la
distribution bêta. La réponse à la requête sont alors des entités qui sont probabiliste proches du plongement de la
requête (par exemple, l'encastrement de « Macron » est plus proche de l'encastrement de la requête et de l'encastrement
de « Rebelo de Sousa »).
"Président” à l'intersection résultante définie pour trouver la liste des présidents de pays, ce qui donne la réponse à la
requête.
Le raisonnement KG présente un certain nombre de défis. Un défi est l'échelle des kilogrammes. Bien que les
requêtes puissent en principe être répondues en traversant directement le KG, cela est problématique en
pratique car le raisonnement multi-sauts implique une croissance exponentielle du temps/espace de calcul. Un
autre défi est l'incomplétude, où certains bords entre les entités sont manquants. La plupart des KG du monde
réel sont incomplets et même un seul bord manquant peut rendre la requête sans réponse.
Les méthodes précédentes [4, 5, 6, 7, 8] visent à relever les défis ci-dessus en utilisant des plongements et de cette façon imputer
implicitement les arêtes manquantes. Les méthodes intègrent également des requêtes logiques dans diverses formes
géométriques dans l'espace vectoriel [9, 10, 11, 12]. L'idée ici est de concevoir des opérateurs logiques neuronaux et d'intégrer des
requêtes de manière itérative en exécutant des opérations logiques selon le graphe de calcul de la requête (Fig. 1). Un avantage de
ces approches est qu'elles n'ont pas besoin de suivre toutes les entités intermédiaires, et qu'elles peuvent utiliser la recherche du
voisin le plus proche [13] dans l'espace d'inclusion pour découvrir rapidement des réponses. Cependant, ces méthodes ne
prennent en charge que les requêtes existentielles positives de premier ordre (EPFO), un sous-ensemble de requêtes FOL avec
quantification existentielle (??), conjonction (??) et la disjonction (??), mais pas la négation (??). La négation, cependant, est une
opération fondamentale et requise pour l'ensemble complet des opérateurs FOL. La modélisation de la négation a été jusqu'à
présent un défi majeur. La raison en est que ces méthodes intègrent des requêtes en tant que régions fermées,par exemple, un
point [9, 11, 12] ou une case [10] dans l'espace euclidien, mais le complément (négation) d'une région fermée n'aboutit pas à une
région fermée. De plus, les méthodes actuelles intègrent les requêtes sous forme de formes géométriques statiques et sont donc
incapables de modéliser fidèlement l'incertitude.
Ici, nous proposons Intégration bêta (BETAE), une méthode de raisonnement multi-sauts sur des KG utilisant une logique
du premier ordre (FOL) complète. Nous modélisons à la fois les entités et les requêtes par des distributions probabilistes
à support borné. Plus précisément, nous intégrons des entités et des requêtes sous forme de distributions bêta définies
sur le[0, 1] intervalle. Notre approche présente les avantages importants suivants : (1) La modélisation probabiliste peut
capturer efficacement l'incertitude des requêtes. BETAE apprend de manière adaptative les paramètres des distributions
de sorte que l'incertitude d'une requête donnée soit bien corrélée avec l'entropie différentielle du plongement
probabiliste. (2) Nous concevons des opérateurs logiques neuronaux qui fonctionnent sur ces distributions bêta et
prennent en charge la logique complète du premier ordre :??, ??, ?? et, surtout ??. L'intuition derrière la négation est que
nous pouvons transformer les paramètres de la distribution bêta de sorte que les régions de forte densité de probabilité
deviennent des régions de faible densité de probabilité et vice versa. (3) Notre modélisation neuronale de?? et ??
correspond naturellement aux opérations réelles et capture plusieurs propriétés de la logique du premier ordre. Par
exemple, appliquer l'opérateur de négation deux fois renverra la même entrée. (4) En utilisant les lois de De Morgan, la
disjonction?? peut être approximé par ?? et ??, permettant à BETAE pour gérer un ensemble complet d'opérateurs FOL et
ainsi prendre en charge des requêtes FOL arbitraires.
Notre modèle est capable de gérer des requêtes logiques de premier ordre arbitraires de manière efficace et évolutive. Nous
effectuons des expériences sur des ensembles de données KG standard et comparons BETAE aux approches antérieures [9, 10] qui
ne peuvent traiter que les requêtes EPFO. Les expériences montrent que notre modèle BETAE est capable d'atteindre des
performances de pointe dans le traitement des requêtes conjonctives arbitraires (y compris ??, ??) avec un proche
2
augmentation de la précision jusqu'à 25,4 %. De plus, nous démontrons également que BETAE est plus général et est
capable de répondre avec précision à toute requête FOL qui inclut la négation ??. Le site Web du projet avec les données
et le code peut être trouvé à l'adressehttp://snap.stanford.edu/betae.
2 Travaux connexes
Incertitude dans les plongements KG. Des travaux antérieurs sur les plongements KG attribuent un
vecteur apprenable pour chaque entité et relation avec diverses intuitions géométriques [4, 5, 6, 7,
8] et architectures neuronales [14, 15, 16]. Outre les plongements vectoriels, KG2E [17] et TransG
[18] modélisent tous deux les incertitudes des entités et des relations sur les KG en utilisant les
distributions gaussiennes et les modèles de mélange. Cependant, leur objectif est la prédiction de
lien et il n'est pas clair comment généraliser ces approches au raisonnement multi-sauts avec des
opérateurs logiques. En revanche, notre modèle vise un raisonnement multi-sauts et apprend ainsi
des plongements probabilistes pour des requêtes complexes et conçoit également un ensemble
d'opérateurs logiques neuronaux sur les plongements probabilistes. Une autre ligne de travail
modélise l'incertitude en utilisant des plongements d'ordre [19, 20, 21, 22, 23], des distributions [17,
24, 25] et la logique quantique [26].
Raisonnement multi-sauts sur les KG. Une autre ligne de travail connexe est le raisonnement multi-sauts sur les KG. Cela
comprend (1) la réponse aux requêtes logiques multi-sauts sur les KG, ce qui est le plus pertinent pour notre article, et (2)
l'utilisation de règles ou de chemins multi-sauts pour améliorer les performances de la prédiction de lien. Les méthodes
précédentes qui répondent aux requêtes [9, 10, 11, 12] ne peuvent modéliser qu'un sous-ensemble de requêtes FOL, tandis que
notre méthode peut gérer des requêtes FOL arbitraires avec des plongements probabilistes. Les méthodes basées sur les règles
et les chemins [27, 28, 29, 30, 31, 32] prédéfinissent ou réalisent ces règles multi-sauts de manière en ligne qui nécessitent une
modélisation de toutes les entités intermédiaires sur le chemin, tandis que notre objectif principal est d'intégrer directement et de
répondre à une requête FOL complexe sans avoir besoin de modéliser les entités intermédiaires, ce qui conduit à des algorithmes
plus évolutifs.
3 préliminaires
Graphique des connaissances (KG) g est une structure de graphe hétérogène qui se compose d'un ensemble
d'entités V et un ensemble de types de relations R, g = (V, R). Chaque type de relationr R est une fonction binaire
r : V × V → {Vrai, Faux} qui indique les arêtes (orientées) de type relation r entre paires d'entités.
Nous sommes intéressés à répondre aux requêtes de logique du premier ordre (FOL) avec des opérations logiques, y
compris la conjonction (??), disjonction (??), quantification existentielle (??) et la négation (??) 1. Nous définissons des
requêtes FOL valides sous sa forme normale disjonctive (DNF),c'est à dire, disjonction de conjonctions.
Définition 1 (requêtes logiques du premier ordre). Une requête logique du premier ordre q se compose d'un ensemble
d'entités d'ancrage non variable Vune V, variables liées quantifiées existentiellement V1, . . . , Vk et une seule variable cible
V?, qui fournit la réponse à la requête. La forme normale disjonctive d'une requête logiqueq est une disjonction d'une ou
plusieurs conjonctions.
q[V?] = V? . ??V1, . . . , Vk : c1 ?? c2 ... ∨ cm
1 chacun c représente une requête conjonctive avec un ou plusieurs littéraux e. cje = eje1 ??eje2 ···∧eje suis.
2. Chaque littéral e représente une formule atomique ou sa négation. eje = r(vune, V ) ou ??

r(vune, V )ou r(V ??, V ) ou ?? r(V ??, V ), où vune Vune, V {V?, V1, . . . , Vk}, V ?? {V1, . . . , Vk},V 6=
V ??, r R.
Graphique de calcul : Comme le montre la figure 1, nous pouvons dériver, pour une requête donnée, son graphe de
calcul correspondant en représentant chaque formule atomique avec une projection de relation, en fusionnant par
intersection et en transformant la négation par complément. Ce graphe orienté montre le processus de calcul pour
répondre à la requête. Chaque nœud du graphe de calcul représente une distribution sur un ensemble d'entités dans le
KG et chaque arête représente une transformation logique de cette distribution. Les graphes de calcul des requêtes FOL
peuvent être considérés comme hétérogènesdes arbres, où chaque nœud feuille correspond à un ensemble de
cardinalité 1 qui contient une seule entité d'ancrage vune Vune (notez qu'une entité d'ancrage peut
1Notez que nous ne considérons pas les requêtes FOL avec quantification universelle (??) Dans cet article. Les requêtes avec
quantification universelle ne s'appliquent pas aux KG du monde réel, car aucune entité ne se connecte à toutes les autres entités.
3
Figure 2 : Illustration de notre opérateur d'intersection probabiliste je (à gauche) et opérateur de négation
probabiliste N (droit). je transforme la distribution d'entrée en prenant le produit pondéré des PDF ;N
transforme la distribution d'entrée en prenant l'inverse de ses paramètres.
apparaissent dans plusieurs nœuds feuilles) et le nœud racine représente la variable cible unique, qui est l'ensemble des
entités de réponse. Le mappage le long de chaque arête applique un certain opérateur logique :
1. Projection de la relation : Étant donné un ensemble d'entités S V et type de relation r R, calcule les
entités adjacentes ??v??SUNEr(v) relatif à S passant par r: UNEr(v) {v?? V : r(v, v??) = Vrai}.
2. Intersection: Ensembles d'entités donnés {S1, S2, . . . , Sm}, calculer leur intersection ??m je=1Sje.
3. Complément/Négation : Étant donné un ensemble d'entités S V, calculer son complément S V\S.
Nous ne définissons pas d'opérateur d'union pour le graphe de calcul, ce qui correspond à la disjonction. Cependant, cet
opérateur n'est pas nécessaire, car selon les lois de De Morgan, étant donné des ensembles d'entités
{S1, . . . , Sm}, ??m je=1Sje est équivalent à ??mje=1S.
Afin de répondre à une requête FOL donnée, nous pouvons suivre le graphe de calcul et exécuter des opérateurs
logiques. Nous pouvons obtenir les réponses en regardant les entités dans le nœud racine. On note l'ensemble de
réponses commeJqK, qui représente l'ensemble des entités sur g qui satisfont q, c'est à dire, v ?? JqK ?? q[v] = Vrai.Notez
que cette traversée symbolique du graphe de calcul équivaut à parcourir le KG, cependant, elle ne peut pas gérer les
bords bruyants ou manquants dans le KG.
4 plongements probabilistes pour le raisonnement logique
Pour répondre aux requêtes dans un KG volumineux et incomplet, nous introduisons d'abord notre modèle BETAE, qui intègre à la fois les
entités et les requêtes en tant que distributions bêta. Ensuite, nous définissons des opérateurs logiques probabilistes pour la projection,
l'intersection et la négation des relations. Ceux-ci fonctionnent sur les intégrations bêta qui nous permettent de prendre en charge des
requêtes FOL arbitraires. Enfin, nous décrivons notre objectif de formation.
4.1 Embeddings bêta pour les entités et les requêtes
Afin de modéliser n'importe quelle requête FOL, les propriétés souhaitables de l'intégration comprennent : (1) l'intégration peut
naturellement modéliser l'incertitude ; (2) on peut concevoir des opérateurs logiques/ensembles (conjonction/intersection et
surtout négation/complément) qui sont fermés. La propriété de fermeture est importante pour deux raisons : (i) les opérateurs
peuvent être combinés de manière arbitraire ; (ii) la représentation reste à une complexité spatio-temporelle fixe et ne croît pas de
façon exponentielle lorsque des opérateurs supplémentaires sont appliqués.
Nous proposons d'intégrer à la fois les entités et les requêtes dans le même espace en utilisant des plongements
probabilistes à support borné. Avec un support borné, la négation/complément peut être défini en conséquence,
où nous suivons l'intuition pour passer des régions de haute densité à basse densité et vice versa (Fig. 2). Plus
précisément, nous examinons le [0, 1] intervalle et adopter la distribution bêta. Une distribution bêtaBêta(, β) a
deux paramètres de forme, et notre méthode repose sur sa fonction de densité de probabilité
(PDF) : p(X) = X−1(1-xB()−,β
1
)
, où X ?? [0, 1] et B(·) désigne la fonction bêta. L'incertitude
d'une distribution bêta peut être mesurée par son entropie différentielle : H = dans B(, β)−(−1)[??(??)
−??(?? + ??)] − (- 1)[??(??) −ψ(?? + ??)], où ??(·) représente la fonction digamma.
Pour chaque entité v V, qui peut être considéré comme un ensemble avec un seul élément, nous attribuons une
intégration bêta initiale avec des paramètres pouvant être appris. Nous intégrons également chaque requêteq avec un
plongement bêta, qui est calculé par un ensemble d'opérateurs logiques probabilistes (présentés dans la section
suivante) suivant le graphe de calcul. Notez que BETAE apprend les plongements de grande dimension où chaque
plongement se compose de plusieurs distributions bêta indépendantes, capturant un aspect différent d'une entité
donnée ou d'une requête : S = [(??1,1), . . . ,(??m,m)], où m est un hyperparamètre. On note le PDF duje-ème distribution
bêta dans S comme pS,je. Sans perte de généralité et pour faciliter l'explication, nous supposerons que chaque
plongement ne contient qu'une seule distribution Beta :S = [(, β)], et nous désignons son PDF par pS.
4
4.2 Opérateurs logiques probabilistes
Afin de répondre à une requête en utilisant le graphe de calcul, nous avons besoin d'opérateurs logiques probabilistes
pour le plongement bêta. Ensuite, nous décrivons la conception de ces opérateurs logiques utilisés dans les graphes de
calcul, qui incluent la projection de relationsP, carrefour je et la négation N. Comme discuté précédemment, l'union peut
être implémentée en utilisant l'intersection et le complément. Chaque opérateur prend un ou plusieurs intégrations bêta
en entrée, puis les transforme en une nouvelle intégration bêta.
Opérateur de projection probabiliste P: Afin de modéliser la relation de projection d'une distribution à une autre, nous
concevons un opérateur de projection probabiliste P qui mappe à partir d'une intégration bêta S vers une autre
intégration bêta S?? étant donné le type de relation r. Nous apprenons ensuite un réseau de neurones de transformation
pour chaque type de relationr, que nous implémentons en tant que perceptron multicouche (MLP) :
S?? = MLPr(S) (1)

Le but ici est que pour toutes les entités S couvert par la distribution d'entrée, nous pouvons réaliser la
distribution d'intégration qui couvre les entités S?? = ??v??SUNEr(v), où UNEr(v) {v?? V : r(v, v??) = Vrai}. Il est important
de noter que l'opération de projection représente une traversée de relation d'un ensemble (floue) d'entités à un
autre ensemble (floue) et peut donner un grand nombre de résultats, mais ici nous la représentons avec une
seule intégration Beta de taille fixe, faisant de BETAE évolutif.
Opérateur d'intersection probabiliste je: Étant donné m incorporations d'entrée {S1, . . . ,Sm}, le but de l'opérateur
d'intersection probabiliste je est de calculer l'intégration bêta SInter qui représente l'intersection des distributions
(c'est à dire, l'intersection des distributions définissant des ensembles d'entités d'entrée flous). Nous modélisons
je en prenant le produit pondéré des PDF des intégrations bêta d'entrée :
1 ??
pSInter = pw1 . . . pwm, (2)
S1 Sm
Z
où Z est une constante de normalisation et w1, . . . ,wm sont les poids dont la somme est égale à 1.
Pour rendre le modèle plus expressif, nous utilisons le mécanisme d'attention et apprenons w1, . . . ,wm à travers
unMLPAtt qui prend en entrée les paramètres de Sje et génère un seul scalaire d'attention :
exp(MLPAtt(Sje))
wje = ?? (3)
j exp(MLPAtt(Sj))
Depuis Sje est une distribution bêta [(??je,je)], le produit pondéré pSInter?? r interpolation
est une ligne?? de la
paramètres des entrées. On dérive les paramètres deSInter être [( wje??je, wje??je)] :
?? ??
wje(??je−1) wje(??je−1)
pSInter (X) ?? X (1 − X)
?? ??
=X wje??je−1(1 − X) wje??je−1
(4)
Notre approche présente trois avantages importants (Fig. 2) : (1) Prendre un produit pondéré des PDF démontre
un comportement de forçage nul [33] où le support effectif de l'intégration bêta résultanteSInter se rapproche de
l'intersection du support effectif des plongements d'entrée (support effectif signifiant la zone avec une densité de
probabilité suffisamment grande [33]). Ceci suit l'intuition que les régions de haute densité danspSInter devrait
avoir une densité élevée dans le PDF de tous les incorporations d'entrée{pS1, . . . , pSm}. (2) Comme indiqué dans
l'éq. 4, l'opérateur d'intersection probabilisteje est fermé, puisque le produit pondéré des PDF des distributions
bêta est proportionnel à une distribution bêta. (3) L'opérateur d'intersection probabilisteje est commutative par
rapport aux plongements bêta d'entrée suivant l'équation. 2.
Opérateur de négation probabiliste N: Nous avons besoin d'un opérateur de négation probabiliste N qui
nécessite l'intégration bêta S en entrée et produit un plongement du complément N(S) par conséquent. Une
propriété souhaitée deN est que la fonction de densité devrait s'inverser dans le sens où les régions de haute
densité dans pS devrait avoir une faible densité de probabilité dans pN(S) et vice versa (Fig. 2). Pour les
plongements bêta, cette propriété peut être obtenue en prenant l'inverse des paramètres de forme?? et
??: N([(, β)]) = [( 1 ??, 1?? )]. Comme le montre la figure 2, les encastrements passent de l'unimodal en forme de cloche
fonction de densité avec 1 < , β à la fonction de densité bimodale avec 0 < α, β < 1.
Proposition 1. En définissant les opérateurs logiques probabilistes je et N, BETAE possède les propriétés
suivantes (avec preuve à l'annexe A) :
1. Étant donné l'intégration bêta S, S est un point fixe de N N : N(N(S)) = S.
5
2. Compte tenu de l'intégration bêta S, on a je({S, S, . . . ,S}) = S.
La proposition 1 montre que notre conception de l'opérateur d'intersection probabiliste et de l'opérateur de négation
probabiliste atteint deux propriétés importantes qui obéissent aux règles des opérations logiques réelles.
4.3 Apprentissage des intégrations bêta
Distance: Supposons que nous utilisons un m-incorporation bêta dimensionnelle pour les entités et les requêtes, ce qui signifie
que chaque incorporation se compose de m distributions bêta indépendantes avec 2m nombre de paramètres.
Étant donné une entité imbriquée v avec des paramètres [(??v 1,v 1 ), . . . ,(??vm,v m)], et une requête intégrant q
avec des paramètres [(??q 1,q 1), . . . ,(??qm,q m)], on définit la distance entre cette entité v et la requête
q comme la somme de la divergence KL entre les deux plongements bêta le long de chaque dimension :
??m
Dist(v; q) = KL(pv,je; pq,je), (5)
je=1
où pv,je (pq,je) représente le je-ème distribution bêta avec paramètres ??v je et ??vje (??qje et ??qje ). Noter
que nous utilisons KL(pv,je; pq,je) plutôt que KL(pq,je; pv,je) de sorte que les plongements de requête « couvriront » les modes de tous
les plongements d'entités de réponse [34].
Objectif de la formation : Notre objectif est de minimiser la distance entre le plongement Beta d'une requête et
ses réponses tout en maximisant la distance entre le plongement Beta de la requête et d'autres entités
aléatoires via un échantillonnage négatif [6, 10], que nous définissons comme suit :
??k 1 ( )
L = −Journal ?? (- Dist(v; q)) − Journal ?? Dist(v?? j; q) − ?? , (6)
j=1
k
où v ?? JqK appartient à l'ensemble de réponses de q, v?? j ??

/ JqK représente un échantillon négatif aléatoire, et ??
désigne la marge. Dans la fonction de perte, on utilisek échantillons négatifs aléatoires et optimiser la moyenne.
Discussion sur l'Union de modélisation : Avec les lois de De Morgan (en abrégé DM), on peut naturellement
opération syndicale modèle S1 ?? S2 avec S1 ?? S2, que nous pouvons dériver en tant qu'intégration bêta.
Cependant, selon le théorème 1 dans [10], afin de modéliser toute requête avec l'opération d'union, nous devons
avoir une dimensionnalité de paramètre de Θ(M), où M est du même ordre que le nombre d'entités [10]. La
raison en est que nous devons modéliser dans l'espace d'insertion n'importe quel sous-ensemble des entités.
Q2B [10] surmonte cette limitation en transformant les requêtes en une forme normale disjonctive (DNF) et ne traite de
l'union qu'à la dernière étape. Notre modélisation DM de l'union est également limitée à cet égard puisque l'intégration
bêta peut être au plus bimodale et, par conséquent, il existe des requêtes basées sur l'union qui BETAE ne peut pas
modéliser en théorie. Cependant, en pratique, les requêtes basées sur les unions sont contraintes et nous n'avons pas
besoin de modéliser tous les sous-ensembles d'entités théoriquement possibles. Par exemple, une requête "Liste l'union
des pays européens et des fruits tropicaux." n'a pas de sens; et nous apprenons en outre des inclusions bêta de haute
dimension pour atténuer le problème. De plus, notre modélisation DM est toujours linéaire par rapport au nombre
d'opérations d'union, tandis que la modélisation DNF est exponentielle dans le pire des cas (avec une discussion détaillée
dans l'annexe B). Last but not least, BETAE peut incorporer en toute sécurité à la fois la modélisation DNF et la
modélisation DM, et nous montrons dans les expériences que les deux approches fonctionnent aussi bien pour répondre
aux requêtes du monde réel.
Inférence: Étant donné une requête q, BETAE l'intègre directement comme q en suivant le graphe de calcul sans avoir
besoin de modéliser des entités intermédiaires. Pour obtenir les entités de réponse finales, nous classons toutes les
entités en fonction de la distance définie dans l'équation. 5 en temps constant en utilisant Locality Sensitive Hashing [13].
5 expériences
Dans cette section, nous évaluons BETAE sur le raisonnement à sauts multiples sur des ensembles de données de
référence KG standard. Nos expériences démontrent que : (1) BETAE répond efficacement aux requêtes FOL arbitraires. (2)
BETAE surpasse les méthodes moins générales [9, 10] sur les requêtes EPFO (contenant seulement ??, ?? et ??) que ces
méthodes peuvent gérer. (3) Le plongement probabiliste d'une requête correspond bien à son incertitude.
6
Formation + Requêtes d'évaluation Autres requêtes d'évaluation
vous vous
1p 2p 3p 2i 3i vous vous
m
ip pi 2u en haut
m m m m
2 pouces 3 pouces entrée pni épingler
m m m m
2i 2 pouces 3i 3 pouces ip entrée pi pni pi épingler
Figure 3 : En haut : Requêtes d'apprentissage et d'évaluation représentées avec leurs structures graphiques,
abréviation du graphe de calcul. Convention de nommage :p projection, je intersection, m négation,vous
syndicat. En bas : structures de requête avec négation utilisées dans nos expériences.
2u
1p 2p 3p 2i 3i pi ip moy
en haut
Modèle
DNF DM DNF DM
Base de données
BETAE 65,1 25.7 24,7 55,8 66,5

25,0 25.2 25,4 43,9 28.1 40.1 41,6
FB15k Q2B 68,0 21,0 14.2 55,1
- 66,5
16,7 - 39,4 26,1 35,1 38,0
GQE 54,6 15.3 10.8 39,7
- 51,4
11.6 - 27,6 19.1 22.1 28,0
BETAE 39,0 10.9 10,0 28,8
11.1 9.7 42,5 9,922,4 12.6 12.4 20.9
FB15k-237 Q2B 40.6 9.4 6.8 29,5
- 42,3
7.6 - 21.2 12.6 11.3 20.1
GQE 35,0 7.2 5.3 23.3
- 34,6
5.7 - 16,5 10.7 8.2 16.3
BETAE 53,0 13.0 11.4 37,6
11,0 8.5 47,5 8.624.1 14.3 12.2 24,6
NELL995 Q2B 42,2 14,0 11.2 33,3
- 44,5
10.3 - 22,4 16,8 11.3 22,9
GQE 32,8 11.9 9.6 27,5
- 35.2
8.8 - 18,4 14.4 8.5 18.6
Tableau 1 : Résultats MRR (%) de BETAE, Q2B et GQE en répondant à l'EPFO (??, ??, ??) requêtes.
5.1 Configuration de l'expérience
Notre configuration expérimentale est axée sur les KG incomplets et nous mesurons donc les performances uniquement sur les
entités de réponse qui nécessitent (implicitement) l'imputation d'au moins une arête. Plus précisément, étant donné un KG
incomplet, notre objectif est d'obtenirnon négligeable réponses à des requêtes FOL arbitraires qui ne peut pas être découvert en
traversant directement le KG. Nous utilisons trois KG standard avec des fractionnements officiels d'entraînement/validation/test,
FB15k [4], FB15k-237 [35] et NELL995 [27] et suivons [10] pour le prétraitement.
Protocole d'évaluation : Nous suivons le protocole d'évaluation dans [10]. Nous construisons d'abord trois KG : KG d'entraînement
gformer, validation KG gvalide, tester KG gtest en utilisant des bords d'apprentissage, des bords d'apprentissage+validation, des bords
d'apprentissage+validation+test, respectivement. Notre évaluation se concentre sur les KG incomplets, donc compte tenu d'une
requête de test (validation)q, nous sommes intéressés à découvrir non négligeable réponses JqKtest\JqKval
(JqKval\JqKformer). C'est-à-dire des entités de réponse où au moins une arête doit être imputée afin de créer un
chemin de réponse vers cette entité. Pour chaque réponse non trivialev d'une requête test q, nous le classons
par rapport aux entités sans réponse V\JqKtest. On note le rang commer et calculer le rang réciproque moyen
(MRR) : 1r ; et, Coups à K (H@K): 1[r ?? K] comme paramètres d'évaluation.
Requêtes : Nous basons nos requêtes sur les 9 structures de requêtes proposées dans Query2Box (Q2B) [10] et apporter
deux améliorations supplémentaires. Tout d'abord, nous remarquons que certaines requêtes de test peuvent avoir plus
de 5 000 réponses. Pour rendre la tâche plus difficile, nous régénérons donc le même nombre de requêtes de validation/
test pour chacune des 9 structures, en ne gardant que celles dont les réponses sont inférieures à un seuil. Nous listons
les statistiques du nouvel ensemble de requêtes dans le tableau 6 (à l'annexe C). Nous évaluons BETAE sur les deux
requêtes dans Q2B et nos nouvelles requêtes réalistes, qui sont plus difficiles car elles utilisent les mêmes requêtes
d'entraînement sans aucune imposition sur le nombre maximum de réponses pour une comparaison équitable.
Deuxièmement, à partir des 9 structures, nous dérivons 5 nouvelles structures de requête avec négation. Comme le
montre la figure 3, afin de créer des structures réalistes avec négation, nous examinons les 4 structures de requête avec
intersection (2je/3i/ip/pi) et perturber une arête pour effectuer un complément d'ensemble avant de prendre
l'intersection, résultant en 2dans/3in/inp/pni/pin structure. Des informations supplémentaires sur la génération de
requêtes sont fournies dans l'annexe C.
Comme résumé dans la Fig. 3, nos requêtes d'entraînement et d'évaluation se composent des 5 structures conjonctives(1
p/2p/3p/2je/3je) et aussi 5 nouvelles structures avec négation (2dans/3in/inp/pni/pin). De plus, nous évaluons également
la capacité de généralisation du modèle, ce qui signifie répondre à des requêtes avec des structures logiques que le
modèle n'a jamais vues lors de l'entraînement. Nous incluons en outreip/pi/2tu/haut pour évaluation.
7
Base de données Métrique 2 pouces 3 pouces entrée épingler pni moy
MRR 14,3 14,7 11,5 6,5 12,4 11.8
FB15k
H@10 30,8 31,9 23,4 14,3 26,3 25,3
MRR 5,1 7,9 7,4 3,6 3,4 5.4
FB15k-237
H@10 11,3 17,3 16,0 8,1 7,0 11.9
MRR 5.1 7.8 10,0 3.1 3.5 5.9
NELL995
H@10 11.6 18.2 20,8 6.9 7.2 12.9
Tableau 2 : résultats MRR et H@10 (%) de BETAE sur la réponse aux requêtes par la négation.
Lignes de base : Nous considérons deux lignes de base de pointe pour répondre à des requêtes logiques complexes sur les KG :
Q2B [10] et GQE [9]. GQE intègre à la fois des requêtes et des entités en tant que vecteurs ponctuels dans l'espace euclidien ; Q2B
incorpore les requêtes sous forme d'hyper-rectangles (boîtes) et d'entités sous forme de vecteurs de points afin que les réponses
soient enfermées dans la boîte de requête. Les deux méthodes conçoivent leurs opérateurs de projection et d'intersection
correspondants, cependant, aucune ne peut gérer l'opération de négation puisque le complément d'un point/boîte dans l'espace
euclidien n'est plus un point/boîte. Pour une comparaison équitable, nous attribuons la même dimensionnalité aux plongements
des trois méthodes2. Notez que puisque les lignes de base ne peuvent pas modéliser l'opération de négation, l'ensemble
d'apprentissage pour les lignes de base ne contient que des requêtes des 5 structures conjonctives. Nous avons exécuté chaque
méthode pour 3 graines aléatoires différentes après avoir affiné les hyperparamètres. Nous listons les hyperparamètres, les
architectures et plus de détails dans l'annexe D.
5.2 Modélisation de requêtes FOL arbitraires
Modélisation EPFO (contenant uniquement ??, ?? et ??) Requêtes : On compare d'abord BETAE avec des lignes de base
qui ne peuvent modéliser que des requêtes avec conjonction et disjonction (mais pas de négation). Le tableau 1 montre
le MRR des trois méthodes. BETAE atteint en moyenne 9,4%, 5,0% et 7,4% d'amélioration relative du MRR par rapport à
l'état de l'art précédent Q2B sur FB15k, FB15k-237 et NELL995, respectivement. Nous renvoyons le lecteur aux tableaux 9
et 10 de l'annexe E pour les résultats H@1 . Encore une fois, sur les requêtes EPFO BETAE atteint de meilleures
performances que les deux lignes de base sur les trois ensembles de données.
DNF vs DM : Comme discuté dans la Sec. 4.3, nous pouvons modéliser les requêtes avec disjonction de deux manières : (1) les
transformer en forme normale disjonctive (DNF) ; (2) représentent la disjonction avec la conjonction et la négation en utilisant les
lois de De Morgan (DM). Nous évaluons les deux schémas de modélisation (tableau 1 (à droite)). La modélisation DNF obtient des
résultats légèrement meilleurs que la DM car elle est capable de mieux représenter la disjonction avec les plongements
multimodaux. Cependant, cela démontre également que notre modélisation DM fournit une bonne approximation de l'opération
de disjonction, et se généralise très bien puisque le modèle n'est pas formé sur2vous et en haut requêtes. Notez que BETAE est très
flexible et peut utiliser et améliorer les deux approches de modélisation tandis que les lignes de base ne peuvent utiliser que DNF
car elles ne peuvent pas modéliser l'opération de négation.
Modélisation de requêtes avec négation : Ensuite, nous évaluons la capacité de notre modèle à modéliser les requêtes
avec négation. Nous rapportons les résultats MRR et H@10 dans le tableau 2. Notez que répondre aux requêtes avec
négation est difficile car seule une petite fraction des requêtes d'apprentissage contient une négation. Comme le montre
le tableau 7 (annexe), lors de la formation, le nombre de2dans/3in/inp/pin/pni requêtes est 10 fois plus petit que le
nombre de requêtes conjonctives. Dans l'ensemble, BETAE se généralise bien et fournit la première méthode basée sur
l'intégration qui peut gérer des requêtes FOL arbitraires.
5.3 Modélisation de l'incertitude des requêtes
Nous cherchons également à savoir si nos intégrations bêta sont capables de capturer l'incertitude. L'incertitude
d'un ensemble (floue) peut être caractérisée par sa cardinalité. Étant donné une requête avec un ensemble de
réponsesJqK, nous visons à calculer la corrélation entre l'entropie différentielle du plongement bêta pJqK et le
cardinalité de l'ensemble de réponses |JqK|. En comparaison,Q2B intègre chaque requête sous la forme d'une boîte, qui
peut également modéliser l'incertitude de la requête en agrandissant/réduisant la taille de la boîte. Nous considérons
deux types de corrélations statistiques : le coefficient de corrélation de rang de Spearman (SRCC), qui mesure la
dépendance statistique entre les classements de deux variables ; et le coefficient de corrélation de Pearson (PCC), qui
mesure la corrélation linéaire des deux variables. Le tableau 3 et le tableau 11 (à l'annexe E) montrent que BETAE atteint
jusqu'à 77 % de meilleure corrélation que Q2B. Nous concluons que BETAE avec les intégrations bêta est capable de
capturer l'incertitude de la requête. De plus, notons que BETAE apprend naturellement cette propriété sans aucune
régularisation pour imposer la corrélation lors de l'apprentissage.
2Si GQE a des plongements de dimension 2m, alors Q2B a des inclusions de m puisqu'il doit modéliser à la fois le
centre et le décalage d'une boîte, et BETAE a aussi m distributions bêta puisque chacune a deux paramètres, ?? et ??.
8
Base de données Modèle 1p 2p 3p 2i 3i pi ip 2 pouces 3 pouces entrée épingler pni
Q2B 0,301 0,219 0,262 0,331 0,270 0,297 0,139 - - - - -
FB15k
BETAE 0,373 0,478 0,472 0,572 0,397 0,519 0,421 0,622 0,548 0,459 0,465 0,608
Q2B 0,184 0,226 0,269 0,347 0,436 0,361 0,199 - - - - -
FB15k-237
BETAE 0,396 0,503 0,569 0,598 0,516 0,540 0,439 0,685 0,579 0,511 0,468 0,671
Q2B 0,154 0,288 0,305 0,380 0,410 0,361 0,345 - - - - -
NELL995
BETAE 0,423 0,552 0,564 0,594 0,610 0,598 0,535 0,711 0,595 0,354 0,447 0,639
Tableau 3 : Corrélation de rang de Spearman entre l'intégration apprise (entropie différentielle pour BETAE, taille de la
boîte pour Q2B) et le nombre de réponses aux requêtes. BETAE montre jusqu'à 77% d'amélioration relative.
1p 2p 3p 2i 3i pi ip 2 pouces 3 pouces entrée épingler pni

0,825 0,766 0,793 0,909 0,933 0,868 0,798 0,865 0,93 0,801 0,809 0,848
Tableau 4 : score ROC-AUC de BETAE pour les 12 structures de requêtes sur la classification des requêtes avec/
sans réponses sur l'ensemble de données NELL.
Modélisation de requêtes sans réponses : Depuis BETAE peut modéliser efficacement le incertitude d'une requête
donnée, nous pouvons utiliser l'entropie différentielle de l'incorporation de la requête comme mesure pour représenter
si la requête est un ensemble vide (n'a pas de réponses). Pour l'évaluation, nous avons généré aléatoirement des
requêtes 4k sans réponses et des requêtes 4k avec plus de 5 réponses pour chacune des 12 structures de requêtes sur
NELL. Ensuite, nous calculons l'entropie différentielle des plongements de chaque requête avec un B entraînéETAE et
utilisez-le pour déterminer si une requête a des réponses. En conséquence, nous trouvons un score ROC-AUC de 0,844 et
listons le score ROC-AUC de chaque structure de requête dans le tableau 4. Ces résultats suggèrent que BETAE peut
naturellement modéliser des requêtes sans réponses, puisque (1) nous n'avons pas explicitement formé BETAE pour
optimiser la corrélation entre l'entropie différentielle et la cardinalité de l'ensemble de réponses ; (2) nous n'avons pas
formé BETAE sur les requêtes avec des réponses vides.
6. Conclusion
Nous avons présenté BETAE, la première méthode basée sur l'intégration capable de gérer des requêtes FOL arbitraires
sur des KG. Étant donné une requête, BETAE l'intègre dans des distributions bêta à l'aide d'opérateurs logiques
probabilistes en suivant le graphe de calcul de manière évolutive. De nombreux résultats expérimentaux montrent que B
ETAE surpasse considérablement l'état de l'art précédent, qui ne peut gérer qu'un sous-ensemble de FOL, en répondant à
des requêtes logiques arbitraires ainsi qu'en modélisant l'incertitude.
Impact plus large
BETAE donne naissance à la première méthode qui gère tous les opérateurs logiques dans de grands KG hétérogènes.
Cela augmentera considérablement l'évolutivité et la capacité du raisonnement multi-sauts sur les KG du monde réel et
les réseaux hétérogènes.
Un risque potentiel est que le modèle puisse faire des prédictions indésirables dans un KG complètement aléatoire, ou
un KG manipulé par des attaques adverses et malveillantes [36, 37]. Des progrès récents sur les attaques contradictoires
[36, 37] ont montré que la manipulation de la structure KG peut effectivement détériorer les performances des méthodes
basées sur l'intégration. Et cela peut induire les utilisateurs en erreur et avoir un impact négatif. Nous continuerons à
travailler dans cette direction pour concevoir des encastrements KG plus robustes. Alternativement, ce problème peut
également être atténué par la régularisation humaine des KG du monde réel.
Remerciements et divulgation du financement
Nous remercions Shengjia Zhao, Rex Ying, Jiaxuan You, Weihua Hu, Tailin Wu et Pan Li pour les
discussions, et Rok Sosic pour ses commentaires sur notre manuscrit. Hongyu Ren est soutenu par la
bourse de la Fondation Masason. Jure Leskovec est un enquêteur du Chan Zuckerberg Biohub. Nous
remercions également le soutien de la DARPA sous les numéros FA865018C7880 (ASED), N660011924033
(MCS); ARO sous les n° W911NF-16-1-0342 (MURI), W911NF-16-1-0171 (DURIP); NSF sous les n°
OAC-1835598 (CINES), OAC-1934578 (HDR), CCF-1918940 (Expéditions), IIS-2030477 (RAPID); Stanford Data
Science Initiative, Wu Tsai Neurosciences Institute, Chan Zuckerberg Biohub, Amazon, Boeing, JPMorgan
Chase, Docomo, Hitachi, JD.com, KDDI, NVIDIA, Dell.
9
Les références
[1] K. Bollacker, C. Evans, P. Paritosh, T. Sturge et J. Taylor, « Freebase : une base de données de graphes créée
en collaboration pour structurer la connaissance humaine », dans Conférence internationale ACM SIGMOD
sur la gestion des données (SIGMOD), ACM, 2008.
[2] FM Suchanek, G. Kasneci, et G. Weikum, « Yago : a core of semantic knowledge », dans
Actes de la Conférence internationale du World Wide Web (WWW), ACM, 2007.
[3] A. Carlson, J. Betteridge, B. Kisiel, B. Settles, ER Hruschka et TM Mitchell, « Vers une architecture pour
un apprentissage sans fin des langues », dans Conférence AAAI sur l'intelligence artificielle (AAAI),
2010.
[4] A. Bordes, N. Usunier, A. Garcia-Duran, J. Weston et O. Yakhnenko, « Translating embeddings for modelling
multi-relational data », in Avancées dans les systèmes de traitement de l'information neuronale (NeurIPS),
2013.
[5] T. Trouillon, J. Welbl, S. Riedel, É. Gaussier, et G. Bouchard, « Encastrements complexes pour la prédiction de
liens simples », dansConférence internationale sur l'apprentissage automatique (ICML), 2016.
[6] Z. Sun, Z.-H. Deng, J.-Y. Nie et J. Tang, « Rotate : Knowledge graph embedding by relational rotation in
complex space », dansConférence internationale sur les représentations de l'apprentissage (ICLR), 2019.
[7] S. Zhang, Y. Tay, L. Yao et Q. Liu, « Quaternion knowledge graph embeddings », dans Avancées dans les
systèmes de traitement de l'information neuronale (NeurIPS), 2019.
[8] B. Yang, W.-t. Yih, X. He, J. Gao et L. Deng, « Intégrer des entités et des relations pour l'apprentissage et l'inférence
dans les bases de connaissances », dansConférence internationale sur les représentations de l'apprentissage
(ICLR), 2015.
[9] W. Hamilton, P. Bajaj, M. Zitnik, D. Jurafsky et J. Leskovec, « Embedding logical queries on knowledge graphs
», in Avancées dans les systèmes de traitement de l'information neuronale (NeurIPS), 2018.
[10] H. Ren, W. Hu et J. Leskovec, « Query2box : Reasoning over knowledge graphs in vector space using box
embeddings », dans Conférence internationale sur les représentations de l'apprentissage (ICLR), 2020.
[11] K. Guu, J. Miller et P. Liang, « Traversing knowledge graphs in vector space », dans Méthodes
empiriques de traitement du langage naturel (EMNLP), 2015.
[12] R. Das, A. Neelakantan, D. Belanger et A. McCallum, « Chains of Reasoning over entity, relations,
and text using recurrent neural networks », dans Chapitre européen de l'Association for
Computational Linguistics (EACL), 2017.
[13] P. Indyk et R. Motwani, « Les voisins les plus proches approximatifs : vers la suppression de la malédiction de la
dimensionnalité », dans Actes du trentième symposium annuel de l'ACM sur la théorie de l'informatique, ACM,
1998.
[14] M. Schlichtkrull, TN Kipf, P. Bloem, R. Van Den Berg, I. Titov et M. Welling, « Modélisation de données
relationnelles avec des réseaux convolutifs de graphes », dans Conférence européenne du Web
sémantique, Springer, 2018.
[15] T. Dettmers, P. Minervini, P. Stenetorp et S. Riedel, « Convolutional 2d knowledge graph embeddings
», dans Conférence AAAI sur l'intelligence artificielle (AAAI), 2018.
[16] X. Jiang, Q. Wang et B. Wang, « Convolution adaptative pour l'apprentissage multi-relationnel »,
dansActes de la conférence 2019 de la section nord-américaine de l'Association for
Computational Linguistics: Human Language Technologies, Volume 1 (articles longs et courts),
2019.
[17] S. He, K. Liu, G. Ji et J. Zhao, « Apprendre à représenter des graphes de connaissances avec un plongement
gaussien », dans Actes de la 24e Conférence internationale de l'ACM sur la gestion de l'information et des
connaissances, 2015.
[18] H. Xiao, M. Huang et X. Zhu, « Transg : A generative model for knowledge graph embedding »,
dans Actes de la 54e réunion annuelle de l'Association for Computational Linguistics (Volume
1 : Articles longs), 2016.
[19] I. Vendrov, R. Kiros, S. Fidler et R. Urtasun, « Order-embeddings of images and language », dansConférence
internationale sur les représentations de l'apprentissage (ICLR), 2016.
dix
[20] A. Lai et J. Hockenmaier, « Apprendre à prédire les probabilités dénotationnelles pour la modélisation de
l'implication », dans Réunion annuelle de l'Association for Computational Linguistics (ACL), 2017.
[21] X. Li, L. Vilnis et A. McCallum, « Amélioration de l'apprentissage des représentations pour la prédiction des ontologies
de sens commun », arXiv préimpression arXiv:1708.00549, 2017.
[22] L. Vilnis, X. Li, S. Murty et A. McCallum, « Embedding probabiliste de graphes de connaissances avec des
mesures de réseau de boîtes », dans Réunion annuelle de l'Association for Computational Linguistics (ACL),
2018.
[23] X. Li, L. Vilnis, D. Zhang, M. Boratko et A. McCallum, « Smoothing the geometry of probabilistic box
embeddings », dans Conférence internationale sur les représentations de l'apprentissage (ICLR),
2019.
[24] L. Vilnis et A. McCallum, « Word representations via gaussian embedding », dans Conférence internationale
sur les représentations de l'apprentissage (ICLR), 2014.
[25] B. Athiwaratkun et AG Wilson, « Hierarchicaldensity order embeddings », dans Conférence internationale sur
les représentations de l'apprentissage (ICLR), 2018.
[26] D. Garg, S. Ikbal, SK Srivastava, H. Vishwakarma, H. Karanam et LV Subramaniam, « Encastrement quantique
de la connaissance pour le raisonnement », dans Avancées dans les systèmes de traitement de
l'information neuronale (NeurIPS), 2019.
[27] W. Xiong, T. Hoang et WY Wang, « Deeppath : A renforcement learning method for knowledge graph
Reasoning », dans Méthodes empiriques de traitement du langage naturel (EMNLP), 2017.
[28] XV Lin, R. Socher et C. Xiong, « raisonnement de graphe de connaissances multi-sauts avec mise en forme de la récompense »,
dans Méthodes empiriques de traitement du langage naturel (EMNLP), 2018.
[29] X. Chen, M. Chen, W. Shi, Y. Sun et C. Zaniolo, « Embedding uncertain knowledge graphs », dans
Conférence AAAI sur l'intelligence artificielle (AAAI), 2019.
[30] S. Guo, Q. Wang, L. Wang, B. Wang et L. Guo, « Knowledge graph embedding with iterative guidance
from soft rules », dans Conférence AAAI sur l'intelligence artificielle (AAAI), 2018.
[31] S. Guo, Q. Wang, L. Wang, B. Wang et L. Guo, « Jointly embedding knowledge graphs and logical
rules », dans Méthodes empiriques de traitement du langage naturel (EMNLP), 2016.
[32] H. Wang, H. Ren et J. Leskovec, « Contexte d'entité et chemins relationnels pour la complétion de graphe de
connaissances », arXiv préimpression arXiv:2002.06757, 2020.
[33] K. Sun et F. Nielsen, « Information-geometric set embeddings (igse) : From sets to probabilité
distributions », arXiv préimpression arXiv:1911.12463, 2019.
[34] DP Kingma et M. Welling, « Baies variationnelles à encodage automatique », arXiv préimpression
arXiv:1312.6114, 2013.
[35] K. Toutanova et D. Chen, « Caractéristiques observées versus latentes pour la base de connaissances et
l'inférence de texte », dans Actes du 3e atelier sur les modèles spatiaux vectoriels continus et leur
compositionnalité, 2015.
[36] D. Zügner, A. Akbarnejad et S. Günnemann, « Adversarial attack on neural networks for graph data », dans
Conférence ACM SIGKDD sur la découverte des connaissances et l'exploration de données (KDD), 2018.
[37] H. Dai, H. Li, T. Tian, X. Huang, L. Wang, J. Zhu et L. Song, « Adversarial attack on graph structured
data », dans Conférence internationale sur l'apprentissage automatique (ICML), 2018.
11
annexe
Une preuve pour la proposition 1
On reformule ici la proposition 1 et sa démonstration.
Proposition 2. Étant donné les opérateurs logiques probabilistes je et N défini à la Sec. 4.2,BETAE a les
propriétés suivantes :
1. Étant donné l'intégration bêta S, S est un point fixe de N N : N(N(S)) = S.
2. Compte tenu de l'intégration bêta S, on a je({S, S, . . . ,S}) = S.
Preuve. Pour la première propriété, l'opérateur de négation probabiliste N prend l'inverse des paramètres
des plongements bêta d'entrée. Si nous appliquonsN deux fois, il est naturellement égal aux plongements
bêta d'entrée. Pour la deuxième propriété, l'opérateur d'intersection probabilisteje prend le produit
pondéré des PDF des intégrations bêta d'entrée, et selon l'Eq. 4, les paramètres des plongements bêta de
sortie sont une interpolation linéaire des paramètres des plongements bêta d'entrée. On a alors
naturellementS = je({S, . . . ,S}).
B Complexité de calcul de DM et DNF

Ici, nous discutons de la complexité de calcul de la représentation d'une requête FOL donnée en utilisant les lois de De
Morgan (DM) et la forme normale disjonctive (DNF). Étant donné une requête FOLq, représentantq avec DNF peut dans le
pire des cas crée un nombre exponentiel de formules atomiques. Par exemple, transformer une requête FOL valide (q11
?? q12) ?? (q21 ?? q22) ··· ∧ (qm1 ?? qm2) conduit à une explosion exponentielle, résultant en une requête avec 2m nombre de
formules dans le DNF. Pour DM, puisque nous pourrions toujours représenter une opération de disjonction avec trois
opérations de négation et une opération de conjonction :q1 ?? q2 = ??(??q1 ??q2), qui est une constante. Par conséquent, la
modélisation DM n'évolue que de manière linéaire.
Génération de requêtes C et statistiques
Génération d'EPFO (avec ??, ?? et ??) Requêtes : Suite à [10], nous générons les 9 structures de requête EPFO d'une
manière similaire. Étant donné les trois KG, et ses divisions de bord d'entraînement/validation/test, qui sont montrées
dans le tableau 5, nous créons d'abordgformer, gvalide, gtest comme discuté dans la Sec. 5.1. Ensuite, pour chaque structure
de requête, nous utilisons une traversée de pré-ordre à partir du nœud/de la réponse cible pour attribuer une entité/
relation à chaque nœud/bord de manière itérative jusqu'à ce que nous instancions tous les nœuds d'ancrage (la racine
de la structure de requête). Après l'instanciation d'une requête, nous pourrions effectuer un parcours post-ordre pour
obtenir les réponses de cette requête. Et pour les requêtes de validation/test, nous filtrons explicitement celles qui
n'existent pas de réponses non triviales,c'est à dire, ils peuvent être entièrement répondus dans gformer/Gvalide. À la
différence de l'ensemble de données dans [10], où le nombre maximum de requêtes de test peut dépasser 5 000, nous
fixons une barre pour le nombre de réponses d'une requête, et en plus filtrer les requêtes irréalistes avec plus de 100
réponses. Nous listons le nombre moyen de réponses que les nouvelles requêtes de test ont dans le tableau 6 et le
nombre de requêtes de formation/validation/test dans le tableau 7.
Base de données Entités Rapports Bords d'entraînement Bords de validation Tester les bords Nombre total d'arêtes
FB15k 14 951 1 345 483 142 50 000 59 071 592 213

FB15k-237 14 505 237 272 115 17 526 20 438 310 079
NELL995 63 361 200 114 213 14 324 14 267 142 804
Tableau 5 : statistiques de l'ensemble de données du graphique de connaissances ainsi que des fractionnements d'entraînement, de validation et de test.
Base de données 1p 2p 3p 2i 3i ip pi 2u en haut 2 pouces 3 pouces entrée épingler pni

FB15k 1.7 19,6 24,4 8.0 5.2 18.3 12,5 18,9 23,8 15.9 14.6 19,8 21,6 16,9
FB15k-237 1.7 17.3 24,3 6.9 4.5 17,7 10.4 19,6 24,3 16.3 13.4 19,5 21,7 18.2
NELL995 1.6 14,9 17,5 5.7 6.0 17.4 11.9 14,9 19,0 12.9 11.1 12.9 16,0 13.0
Tableau 6 : Nombre moyen de réponses aux requêtes de test dans notre nouvel ensemble de données.
12
Requêtes Entraînement Validation Test
Base de données 1p/2p/3p/2i/3i 2in/3in/inp/pin/pni 1p autres 1p autres
FB15k 273,710 27 371 59 097 8 000 67 016 8 000
FB15k-237 149 689 14 968 20 101 5 000 22 812 5 000
NELL995 107 982 10 798 16 927 4 000 17 034 4 000
Tableau 7 : Nombre de requêtes d'entraînement, de validation et de test générées pour différentes structures de requête.
Génération de requêtes avec négation : Pour les requêtes supplémentaires avec négation, nous dérivons 5 nouvelles
structures de requête à partir des 9 structures EPFO. Plus précisément, comme le montre la figure 3, nous considérons
uniquement les structures de requête avec intersection pour la dérivation de requêtes avec négation. La raison en est
que les requêtes avec négation ne sont réalistes que si nous prenons ensemble la négation avec une intersection.
Considérons l'exemple suivant, où la négation n'est pas prise avec l'intersection, "Répertoriez toutes les entités sur KG
qui ne sont pas des pays européens.», puis les deux «Pomme" et "ordinateur» seront les réponses. Cependant, les
requêtes réalistes seront comme "Répertoriez tous les pays sur KG qui ne sont pas des pays européens.», qui nécessite
une opération d'intersection. À cet égard, nous modifions un bord de l'intersection pour incorporer davantage la
négation, ainsi nous dérivons2dans de 2je, 3dans de 3je, entrée de ip, épingler et pni de pi. Notez qu'en suivant les 9
structures EPFO, nous appliquons également que toutes les requêtes avec négation ont au plus 100 réponses.
D Détails expérimentaux
Nous implémentons notre code en utilisant Pytorch. Nous utilisons la mise en œuvre des deux lignes de baseGQE [9] et
Q2B [10] dans https://github.com/hyren/query2box. Nous ajustons les hyperparamètres pour les trois
méthodes, y compris le nombre de dimensions d'intégration de {200, 400, 800} et le taux d'apprentissage
de {1e−4, 5e−3, 1e−3}, taille de lot de {128, 256, 512}, et la taille de l'échantillon négatif de{32, 64, 128}, la
marge ?? de {20, 30, 40, 50, 60, 70}. Nous listons les hyperparamètres de chaque modèle dans le tableau
8. De plus, pour notre BETAE, on affine la structure de l'opérateur de projection probabiliste MLPr et le
module attention MLPAtt. Pour les deux modules, nous implémentons un MLP à trois couches avec une
dimension latente de 512 et une activation ReLU.
faible luminosité taux d'apprentissage taille du lot taille d'échantillon négative marge
GQE 800 0,0005 512 128 30
Q2B 400 0,0005 512 128 30
BETAE 400 0,0005 512 128 60
Tableau 8 : Hyperparamètres utilisés pour chaque méthode.
Chaque expérience est exécutée sur un seul GPU NVIDIA GeForce RTX 2080 TI, et nous exécutons chaque
méthode pour 300 000 itérations.
E Résultats expérimentaux supplémentaires
Nous listons ici quelques résultats expérimentaux supplémentaires.
Nous montrons dans le tableau 1 les résultats MRR des trois méthodes pour répondre aux requêtes de l'EPFO. Nos méthodes montrent une
amélioration significative par rapport aux deux lignes de base dans les trois ensembles de données.
Nous montrons dans le tableau 10 les résultats MRR des trois méthodes de réponse aux requêtes EPFO dans l'ensemble de
données proposé dans [10], où les requêtes peuvent avoir plus de 5 000 réponses. Notre méthode est toujours meilleure que les
deux lignes de base.
Nous montrons dans le tableau 11 le coefficient de corrélation de Pearson entre le plongement appris et le nombre de
réponses aux requêtes. Notre méthode est meilleure que la ligne de baseQ2B pour mesurer l'incertitude des requêtes.
13
2u
1p 2p 3p 2i 3i pi ip moy
en haut
Modèle
DNF DM DNF DM
Base de données
BETAE 52,0 17,0 16,9 43,5 55,3 32.3 19.3 28.1

17,0 16,9 17.4 31,3
FB15k Q2B 52,0 12,7 7.8 40,5 53,4 26,7 16,7 - 22,0
9.4 - 26,8
GQE 34,2 8.3 5.0 23,8 34,9 15,5 11.2 - 11,5
5.6 - 16,6
BETAE 28,9 5.5 4.9 18.3 31,7 14,0 6.7 6.1 6.3
4.6 4.8 13.4
FB15k-237 Q2B 28,3 4.1 3.0 17,5 29,5 12.3 7.1 - 5.2
3.3 - 12.3
GQE 22,4 2.8 2.1 11.7 20.9 8.4 5.7 - 3.3
2.1 - 8.8
BETAE 43,5 8.1 7.0 27.2 36,5 17.4 9.3 6.0 6.9
4.7 4.7 17.8
NELL995 Q2B 23,8 8.7 6.9 20.3 31,5 14.3 10.7 - 5.0
6.0 - 14.1
GQE 15,4 6.7 5.0 14.3 20.4 10.6 9.0 - 2.9
5.0 - 9,9
Tableau 9 : Résultats H@1 (%) de BETAE, Q2B et GQE en répondant à l'EPFO (??, ??, ??) requêtes.
Base de données Modèle 1p 2p 3p 2i 3i pi ip 2u en haut moy

BETAE 65,0 42,1 37,8 52,9 64,0 41,5 22,9 48,8 26,9 44,6
FB15k Q2B 67,1 38,0 27,5 49,2 62,8 36,2 19.2 49,0 28,9 42,0
GQE 54,6 30,5 22,2 37,7 48,4 24,8 14.7 33,8 24,7 32,4
BETAE 39,1 24.2 20.4 28.1 39,2 19.4 10.6 22,0 17,0 24,4
FB15k-237 Q2B 40.3 22,8 17,5 27,5 37,9 18,5 10.5 20,5 17.4 23,6
GQE 35,0 19,0 14.4 22,0 31,2 14.6 8.8 15,0 14.6 19.4
BETAE 53,0 27,5 28.1 32,9 45,1 21,8 10.4 38,6 19,6 30,7
NELL995 Q2B 41,8 22,9 20,8 28,6 41,2 19,9 12.3 26,9 15,5 25,5
GQE 32,8 19.3 17,9 23,1 31,9 16.2 10.3 17.3 13.1 20.2
Tableau 10 : résultats MRR (%) sur les requêtes de [10], où nous montrons que nous sommes également en mesure d'atteindre
des performances supérieures aux valeurs de référence Q2B et GQE sur les trois KG.
Base de données Modèle 1p 2p 3p 2i 3i pi ip 2 pouces 3 pouces entrée épingler pni

Q2B 0,075 0,217 0,258 0,285 0,226 0,245 0,133 - - - - -
FB15k
BETAE 0,216 0,357 0,383 0,386 0,299 0,311 0,312 0,438 0,413 0,343 0,360 0,442
Q2B 0,017 0,194 0,261 0,366 0,488 0,335 0,197 - - - - -
FB15k-237
BETAE 0,225 0,365 0,450 0,362 0,307 0,319 0,332 0,464 0,409 0,390 0,361 0,484
Q2B 0,068 0,211 0,306 0,362 0,287 0,240 0,338 - - - - -
NELL995
BETAE 0,236 0,403 0,433 0,404 0,385 0,403 0,403 0,515 0,514 0,255 0,354 0,455
Tableau 11 : Coefficient de corrélation de Pearson entre le plongement appris (entropie différentielle pour BETAE, taille de la boîte
pour Q2B) et le nombre de réponses aux requêtes (regroupées par type de requête différent). Les nôtres atteignent un coefficient
de corrélation plus élevé.
14

Embeddings Bêta Pour Le Raisonnement Logique Multi-Sauts: Hyren@cs - Stanford.edu Jure@cs - Stanford.edu

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Embeddings Bêta Pour Le Raisonnement Logique Multi-Sauts: Hyren@cs - Stanford.edu Jure@cs - Stanford.edu

Transféré par

Droits d'auteur :

Formats disponibles

Traduit de Anglais vers Français - www.onlinedoctranslator.

Embeddings bêta pour le raisonnement logique multi-sauts

Hongyu Ren Jure Leskovec

L'un des problèmes fondamentaux de l'intelligence artificielle est d'effectuer un raisonnement

(A) Graphique de calcul (B) BETAE Approche Macron (FR)-

q[V?] = V? . ??V1, . . . , Vk : c1 ?? c2 ... ∨ cm

2. Chaque littéral e représente une formule atomique ou sa négation. eje = r(vune, V ) ou ??

3. Complément/Négation : Étant donné un ensemble d'entités S V, calculer son complément S V\S.

4 plongements probabilistes pour le raisonnement logique

4.1 Embeddings bêta pour les entités et les requêtes

S?? = MLPr(S) (1)

1. Étant donné l'intégration bêta S, S est un point fixe de N N : N(N(S)) = S.

4.3 Apprentissage des intégrations bêta

où v ?? JqK appartient à l'ensemble de réponses de q, v?? j ??

BETAE 65,1 25.7 24,7 55,8 66,5

5.1 Configuration de l'expérience

5.2 Modélisation de requêtes FOL arbitraires

5.3 Modélisation de l'incertitude des requêtes

1p 2p 3p 2i 3i pi ip 2 pouces 3 pouces entrée épingler pni

Impact plus large

Remerciements et divulgation du financement

On reformule ici la proposition 1 et sa démonstration.

1. Étant donné l'intégration bêta S, S est un point fixe de N N : N(N(S)) = S.

2. Compte tenu de l'intégration bêta S, on a je({S, S, . . . ,S}) = S.

B Complexité de calcul de DM et DNF

Génération de requêtes C et statistiques

FB15k 14 951 1 345 483 142 50 000 59 071 592 213

Base de données 1p 2p 3p 2i 3i ip pi 2u en haut 2 pouces 3 pouces entrée épingler pni

E Résultats expérimentaux supplémentaires

Nous listons ici quelques résultats expérimentaux supplémentaires.

BETAE 52,0 17,0 16,9 43,5 55,3 32.3 19.3 28.1

Base de données Modèle 1p 2p 3p 2i 3i pi ip 2u en haut moy

Base de données Modèle 1p 2p 3p 2i 3i pi ip 2 pouces 3 pouces entrée épingler pni

Vous aimerez peut-être aussi