【论文阅读】时间序列中的变量是一张知识图谱

论文标题: Recurrent Event Network: Autoregressive Structure Inference over Temporal Knowledge Graphs
中文标题: 循环事件网络: 基于自回归架构的时序知识图谱推断
论文下载链接(免费): https://arxiv.org/pdf/1904.05530.pdf
论文项目代码: GitHub@RE-Net


序言

  1. 这篇报告是三周前组会里一位博士学长分享的, 当时主要是看中了这篇论文的项目repository里有现成可用的数据集(很多论文项目GitHub代码里的数据集都很难获得, 不是挂了个google链接要翻墙, 要么就是要给大会写信才能拿到数据, 缺少数据的情况下, 代码里很多部分都会让人摸不着头脑), 很利于进行代码学习, 而且主题也很吸引人, 知识图谱预测, 还有与图神经网络相关的内容, 笔者目前为止对于GNN这块确实还所涉很少, 也一直想要看看GNN具体的逻辑是怎样, 所以决定follow一下;

  2. 本文其实是一个时间序列预测问题, 只不过这里时间序列上的变量会异常的复杂: 知识图谱; 笔者认为计算机处理问题的一个重要思想往往是分而治之, 如果需要预测的目标很复杂, 就会想办法把目标分解成多个小问题分别进行预测, 所以第一感觉得这个问题似乎有些强行把简单问题杂糅成了一个非常复杂的问题, 预测一张未来的知识图谱(这里其实可以简化为实体之间的关系), 与只预测两个实体之间的关系本质上没有区别, 只不过前者会包含了很多后者而已;

  3. 但是事实上这种分治的想法往往不可行, 笔者总结主要有以下几种原因:

  • ① 关系本身可能是多元化的, 两个实体间的关系未必只有一种, 因此从图的角度来说会考虑多关系图(即两个节点间会有多条边), 是更加合理的;
  • ② 关系涉及的实体也可能是多元化的, 虽然目前大部分仍然是以RDF三元组 ( s , r , o ) (s,r,o) (s,r,o)的形式来表达, 即关系只涉及一个subject与一个object, 虽然图往往也只能表达出两个节点的关系, 但是图是可以通过其自身的内在结构进行关系的推理, 如一个中心节点同时有多个近邻, 通过推理可以推断出这些近邻可能存在某种关系; 而本文提出的一种RGCN聚合器可以将多级近邻一起纳入考虑(即邻近节点的邻近节点);
    • 图中的关系并非只是边所呈现出来的, 一方面限于标注成本, 大部分知识图谱中的关系都不可能被全部标注出来, 因此衍生出很多 推理/补充 知识图谱中缺失关系的研究; 另一方面, 复杂的多元实体关系无法被被图结构表达出来(如我 爸爸 妈妈构成一个家庭关系), 笔者想也许以后会有人提出能够一种新的知识图谱结构取代现在普遍使用的基于层级(hierarchy)关系的知识图谱和简单图结构的知识图谱;
    • NLP的研究往往都是数据驱动的, 而数据以什么样的形式呈现往往决定了模型的架构, 从三元组, 到四元组(加入时间轴, 进行时间序列推断), 以后可能会有什么数据呢? 或许会有更多的实体加进来构成多元实体关系(考虑最高阶为三元实体的关系推理), 也可能是更多的外部变量被考虑进来(就像本文考虑了时间的影响, 那我说经济形势, 社会发展水平, 甚至是地理气候变化, 难道不也会对关系构成影响么, 随便加一个变量进来或许就是一篇paper);
    • 如此多可能的变体, 或许以后会直接在现有图的结构进行优化改进使得可以适应更广泛的情况, 又或许会彻底革命掉现在的知识图谱结构, 谁又能知道呢;
  • ③ 借用文章总结部分的语言, 这是相关领域中第一次提出在时间序列上对结构推断问题(structure inference problem), 也许做具有结构性的数据(笔者认为是具有内在联系的数据, 结构性数据往往也是可以进行拆解的, 最典型的结构性数据就是数据库, 而图结构数据更多体现的是内生联系而非结构性, 而这也是其预测的困难之处)预测是一种很创新的事情吧;
  1. 最后提一句上一篇论文正则表达式也可以被当成神经网络训练吗?中提到的项目代码[GitHub@RE2RNN]就在昨天向repository中上传了inital commit; 有兴趣的朋友去看看具体的WFA实现逻辑, 笔者近期尽量抽时间把之前几篇论文的项目代码啃一下, 确实已经很久没有好好写代码了, 也没有写有代码的博客了, 感觉有些急于求成, 还是需要宁静致远的;


摘要 Abstract

  1. 知识图谱推理(knowledge graph reasoning, 下简称知识图谱为KG)是自然语言处理中的关键任务, 当知识图谱升级为时序知识图谱(temporal knowledge graphs, 下简称为TKG)后这个任务将变得更加具有挑战性;
  • TKG: 指知识库里每条事实(fact)都与一个时间戳相联系(timestamp), 即考虑事实的时效性;
  1. 目前相关研究着重于推理过去, 而无法推测未来即将发生的事实; 本文则提出了循环事件网络(Recurrent Event Network, 下简称为RE-NET)来预测未来影响(predicting future interactions);
  • 备注:
    • 方法并非用于预测未来不确定事件(预知未来), 而是对未来即将确定发生的事实进行合理推测;
  • RE-NET是一种新颖的自回归架构(novel autoregressive architecture)神经网络;
  1. 本文的方法是使用条件概率分布对事实(fact)或事件(event)的发生(occurence)进行;

    • 此处的条件为过去(past)KG的时间序列(temporal sequences)数据;
    • 具体而言, RE-NET是使用了一个循环事件编码器(recurrent event encoder, 下简称为REE)来编码过去的事实, 然后使用一个近邻聚合器(neighborhood aggregator, 下简称为NA)来对同一时间点上的事实联系进行建模; 从而未来的事实就能够以序列形式(in a sequence manner)被这两个模块推断出来;
  2. 本文通过在5个公开数据集上进行联系预测(link prediction)来评估了我们提出的方法, 并在扩展实验(extensive experiments)中, 论述了RE-NET的力量(strength), 特别是对未来时间点的多步推断(multi-step inference), 在这5个公开数据集上都取得了先进的(state-of-the-art)效果;


1 引入 Introduction

  1. 问题提出:
  • 由于KG中事实标注任务的成本非常高, 所以大部分的KG都处于极度欠全的状态(如很多实体间的关系都没有被标注在KG中), 因此如何预测出缺失的事实, 即赋予KG以推理能力, 是一项非常重要的任务;
  • 目前绝大多数针对KG推理能力的研究都建立在标准知识图谱上(standard knowledge graphs, 下简称为SKG);
    • SKG中每个事实都以三元组形式表示: ( s s s, r r r, o o o), 分别代表主体(subject), 关系(relation), 客体(object);
  • 难点在于现实情况中, 事实并非总是正确, 因此需要将它们用时间戳来进行约束, 这便产生了TKG的概念;
  • Figure1: TKG的样例Figure1
    • Figure1中展示了TKG的一些子图(subgraphs), 可以看到TKG就是变量为KG的时间序列, 本文的任务是预测影响(interactions)并画出未来时间点的KG;
  • 尽管TKG普遍存在(ubiquitousness), 但针对这种数据结构进行推理(reasoning)的方法相对来说处于未开发状态(unexplored);
  1. TKG推理研究概述:
  • 给定一个TKG, 时间戳范围从 t 0 t_0 t0 t T t_T tT, TKG推理主要分为两种模式:
    • ① 内生(Interpolation): 预测出时间 t t t处的新事实, 其中 t 0 ≤ t ≤ t T t_0\le t\le t_T t0ttT
    • ② 外推(Extrapolation): 预测出时间 t t t处的新事实, 其中 t > t T t\gt t_T t>tT
  • 显然外推更具有现实意义, 然而相关研究仍然局限于内生;
  • 目前解决TKG外推问题的尝试有Know-Evolve(参考文献[29])与其延申方法DyRep(参考文献[30]), 这两个方法都是假设之前发生事件的正确标注(ground truth of preceding events)在推断时间点(inference time)都已经被给定了;
    • 这就意味着无法用于序列式地(sequentially)预测未来多个时间点上的事件;
    • 备注:
      • 我理解为只能Know-EvolveDyRep只能做next时间点预测, 无法做更远的未来的预测以及连续未来时间点的序列式预测, 比如未来三个月特朗普所涉及的各种事实情况;
      • 原因可能是预测三个月后时间点的事实需要给定这三个月的事实(即原文提到的 ground truth of preceding events), 但是这里似乎有个trick, 即可以不断进行next时间点预测, 并将预测结果作为事实使用, 这是可行的, 但或许效果很差;
    • 此外这些方法也无法建模同时间窗口(the same time window, 比如同一天内, 或是12小时内)下同时发生的事件(concurrent events), 尽管它们在现实世界事件数据中有卓越的表现(prevalence);
  • 综上所述, 提出一个原则性方法(principled method), 即通过局部图(local graph)来对同时间窗口下同时发生事件建模, 从而可以用于外推(extrapolate)未来时间戳上的图结构, 是非常重要的;
  1. 本文的研究:
  • 本文提出具有自回归架构的RE-NET来建模TKG, 这种想法基于三点:
    • ① 预测多时间点的未来事件可以抽象为一个序列和多步推断问题(multi-step inference problem);
    • ② 时序邻近事件(temporally adjacent events)可能带有相关语义(related semantics)和信息模式(informative patterns), 这可以进一步帮助预测未来事件(如时序信息, temporal information);
    • ③ 多事件可能在同一时间窗口下同时发生, 并表现出实体间结构性的依赖(structural dependencies);
    • 备注:
      • 今天(20201111)听上周末的第5届语言与智能峰会录制视频bilibili, 本来王英林是准备带我们一起去的, 但是会费要1700, 会员都要1000, 王最终争取到四个名额, 于是就带了四个博士过去听, 剩下的硕士只能喝汤凑合一下了[Facepalm], 视频的P2周明刚好提到自回归(autoregressive)的概念, 简而言之就是时间序列预测, 利用自身的序列信息进行回归分析;
  • 具体方法:
    • Figure2: RE-NET的阐述Figure2
    • 详细步骤Figure2, 以下为文字概述;
    • 基于这些观察, RE-NET以一个自回归的架构来定义一个TKG中所有事件的联合概率分布; 在当前时间点, 同时发生的事件的条件概率分布被所有之前发生的事件所约束;
    • 具体而言, 一个REE被用来概述过去事件序列中的信息, 一个NA聚合同一时间窗口下同时发生的事件信息; 通过这些信息, 我们的解码器(decoder)将可以定义一个当前事件(current event)的联合概率;
    • 对于未来事件预测的推断可以通过序列式地(in a sequential manner)在时间轴上(over time)采样图谱(sampling graphs)来完成;
  • 评估手段:
    • 本文在5个公开的TKG数据集上评估了提出的方法, 方法是在一个时序(外推)联系预测任务(temporal (extrapolation) link prediction task)中通过测试时间轴上多步推断的效果;
    • 实验结果表示RE-NET比静态KG和TKG推理的先进方法都要表现得好, 这表明RE-NET更适合用于建模时序的, 多关系的(multi-relational)图结构数据;
      • 多关系图的意思是两个节点间可以有不止一条边, 不同的边代表不同的关系;
      • 举个例子, 如果小Tom的班主任是他的父亲老Tom, 那么小Tom和老Tom两个实体间就会存在两种关系(父子, 师生);
    • 进一步地本文验证了RE-NET可以实施有效的多步推断来预测在很远未来(distant future)处, 看不见的(unseen)的实体关系;
      • 备注:
        • 再次强调并非预知未来, 只是有些关系确实可以在很远的将来被推测到, 如远期合约, 商品期货交割;

2 问题抽象 Problem Formulation

本节中先描述模型建立中的数学符号标记和问题定义, 然后再定义时序事件(temporal events)的联合分布;

  1. 符号标记与问题定义 Notations and Problem Definition
  • 我们将一个TKG当作一个多关系的(multi-relational)有向图来抽象考虑, 该有向图中节点(即entity)间的边(即relation)上还会带有时间戳信息, 称这些边为时间标记的边(time-stamped edges, 下简称为TSE);
  • 定义一个事件(event)就是一个TSE;
    • 如事件四元组(subject, relation, object, time)就可以被表示为 ( s , r , o , t ) (s,r,o,t) (s,r,o,t) ( s t , r t , o t ) (s_t,r_t,o_t) (st,rt,ot)
    • 将时间 t t t处的事件(event)集合表示为图 G t G_t Gt
    • 在本文的设定中, 时间戳(timestamps)是离散的整数(discrete integers), 因此只是用于表示图或事件的相对排序;
  • TKG建立在事件四元组序列上, 基于它们的时间戳升序排列, 即 { G t } t = { ( s i , r i , o i , t i ) } i \{G_t\}_t=\{(s_i,r_i,o_i,t_i)\}_i {Gt}t={(si,ri,oi,ti)}i, 满足 ∀ i < j \forall i\lt j i<j t i < t j t_i\lt t_j ti<tj成立;
  • 每个TSE都有从一个subject实体指向一个object实体; 注意同样的三元组 ( s , r , o ) (s,r,o) (s,r,o)可能会在不同的时间戳中发生多次, 从而产生不同的事件四元组;
  • 学习事件的生成式模型(learning generative models of events)的目标基于观测到的事件集合 { G 1 , G 2 , . . . , G 3 } \{G_1,G_2,...,G_3\} {G1,G2,...,G3}来学习出TKG的一个分布;
  1. 方法概述 Approach Overview
  • 本文方法的关键点是从图序列和近邻中的局部结构性依赖(local structural dependency from the neighborhood, 详见Figure2)来学习时间依赖(temporal denpendency);
  • 本文将TKG表示为序列, 然后基于序列建立自回归生成式模型, 最终RE-NET定义在所有之前事件的条件下, 同时发生的事件(即TKG序列中的一个图)的联合概率;
  • 具体而言, RE-NET由一个RNN和一个NA模块构成:
    • RNN充当一个REE模块;
    • NA则用于捕获图结构的信息;
  • 下面我们先介绍时间事件(temporal events)联合分布的定义;
  1. 时序事件的联合分布建模 Modeling Joint Distribution of Temporal Events
  • 本文使用自回归形式来定义所有事件 G = { G 1 , G 2 , . . . G T } G=\{G_1,G_2,...G_T\} G={G1,G2,...GT}
  • 本文将联合分布分解为条件分布的序列 p ( G t ∣ G t − m : t − 1 ) p(G_t|G_{t-m:t-1}) p(GtGtm:t1)
    • 这里我们假设在一个时间点处的事件 G t G_t Gt的概率是依赖于前 m m m个步骤的事件 G t − m : t − 1 G_{t-m:t-1} Gtm:t1
    • 进一步地, 我们假设 G t G_t Gt中的事件在给定之前的事件 G t − m : t − 1 G_{t-m:t-1} Gtm:t1情况下是相互独立的;
    • 于是联合分布就可以写成: p ( G ) = ∏ t ∏ ( s t , r t , o t ) ∈ G t p ( s t , r t , o t ∣ G t − m : t − 1 ) = ∏ t ∏ ( s t , r t , o t ) ∈ G t p ( s t ∣ G t − m : t − 1 ) ⋅ p ( r t ∣ s t , G t − m : t − 1 ) ⋅ p ( o t ∣ s t , r t , G t − m : t − 1 ) (1) p(G)=\prod_t \prod_{(s_t,r_t,o_t)\in G_t}p(s_t,r_t,o_t|G_{t-m:t-1})\\=\prod_t \prod_{(s_t,r_t,o_t)\in G_t}p(s_t|G_{t-m:t-1})\cdot p(r_t|s_t,G_{t-m:t-1})\cdot p(o_t|s_t,r_t,G_{t-m:t-1})\tag{1} p(G)=t(st,rt,ot)Gtp(st,rt,otGtm:t1)=t(st,rt,ot)Gtp(stGtm:t1)p(rtst,Gtm:t1)p(otst,rt,Gtm:t1)(1)
  • 从上述这些概率中, 就可以通过以下方式生成三元组(triplets):
    • 给定所有过去事件 G t − m : t − 1 G_{t-m:t-1} Gtm:t1, 首先以 p ( s t ∣ G t − m : t − 1 ) p(s_t|G_{t-m:t-1}) p(stGtm:t1)采样一个subject实体 s t s_t st
    • 然后以 p ( r t ∣ s t , G t − m : t − 1 ) p(r_t|s_t,G_{t-m:t-1}) p(rtst,Gtm:t1)的概率生成一个关系 r t r_t rt
    • 最后object实体 o t o_t ot同理由 p ( o t ∣ s t , r t , G t − m : t − 1 ) p(o_t|s_t,r_t,G_{t-m:t-1}) p(otst,rt,Gtm:t1)生成;
    • 事实上也可以首先采样一个object实体, 但是为了论述简洁就不详细介绍了;
  • 接下来的章节中将介绍这些概率是如何被定义并在本文的方法中被参数化(parameterize);

3 循环事件网络 Recurrent Event Network

在本节中将介绍本文提出的方法RE-NET, 其两大组成结构在上节中已经提及, RNN充当REE来编码时间依赖(temporal dependency), NA用于处理图结构依赖(graph structural dependency);
本文也讨论了RE-NET参数学习(parameter learning)以及定义多步推断(multi-step inference)来进行遥远未来的预测, 方法是以序列方式(in a sequenctial manner)来采样中间图(intermediate graphs);

3.1 循环事件编码器 Recurrent Event Encoder

  1. 为了参数话每个事件的概率, RE-NET引入一个全局表示(global representations)和局部表示(local representations)的两种集合:
  • ① 全局表示集合 H t \bm{H}_t Ht直到时间 t t t前, 都在从全图(entire graph)中总结全局信息, 这些信息反映了对于即将到来的事件的某种全局偏好(global preference);
  • ② 局部表示集合侧重于每个subject实体 s s s或每对subject实体与关系 ( s , r ) (s,r) (s,r), 它会去具体捕获跟这些实体与关系相联系的知识;
    • 将上述的局部表示分别标记为 h t ( s ) \bm{h}_t(s) ht(s) h t ( s , r ) \bm{h}_t(s,r) ht(s,r)
  • 全局表示和局部表示捕获KG中知识的不同方面, 自然而然是一种互补, 从而使得我们能够以一种更加有效率的方式来建模图的生成过程(generative process);
  1. 基于上述的表示, RE-NET以如下方式将 p ( o t ∣ s , r , G t − m : t − 1 ) p(o_t|s,r,G_{t-m:t-1}) p(ots,r,Gtm:t1)参数化(parameterize): p ( o t ∣ s , r , G t − m : t − 1 ) ∝ exp ⁡ ( [ e s : e r : e t − 1 ( s , r ) ] ⊤ ⋅ w o t ) (2) p(o_t|s,r,G_{t-m:t-1})\propto \exp([\bm{e}_s:\bm{e}_r:\bm{e}_{t-1}(s,r)]^{\top}\cdot w_{o_t})\tag{2} p(ots,r,Gtm:t1)exp([es:er:et1(s,r)]wot)(2)
  • e s , e r ∈ R d \bm{e}_s,\bm{e}_r\in {\mathbb R}^d es,erRd是可学习的(learnable)嵌入向量, 分别表征subject实体 s s s和关系 r r r
  • h t − 1 ( s , r ) ∈ R d \bm{h}_{t-1}(s,r)\in {\mathbb R}^{d} ht1(s,r)Rd是在时间点 ( t − 1 ) (t-1) (t1)处对于 ( s , r ) (s,r) (s,r)的局部表示;
  • 直觉上, e s , e r \bm{e}_s,\bm{e}_r es,er应当理解为subject实体 s s s和关系 r r r的静态嵌入向量, 因为 h t − 1 ( s , r ) \bm{h}_{t-1}(s,r) ht1(s,r)会随着时间点推移而动态更新;
    • 备注:
      • 可能意思是说如果不是静态嵌入向量就太复杂了, 或者是因为 h t − 1 ( s , r ) \bm{h}_{t-1}(s,r) ht1(s,r)的动态更新, 无需考虑嵌入向量是否需要更新, 否则就无法体现到底是因为 ( s , r ) (s,r) (s,r)更新导致 h t − 1 ( s , r ) \bm{h}_{t-1}(s,r) ht1(s,r)更新, 还是 t t t更新导致 h t − 1 ( s , r ) \bm{h}_{t-1}(s,r) ht1(s,r)了;
  • 通过拼接(concatenate)静态与动态表示, RE-NET可以高效捕获直到时间点 ( t − 1 ) (t-1) (t1) ( s , r ) (s,r) (s,r)的语义(semantic);
  • 进一步地, 我们通过将编码结果(encoding)传递给多层感知机(multi-layer perceptron, 下简称为MLP)解码器(decoder), 就可以计算不同object实体 o t o_t ot的概率;
  • 我们定义MLP解码器是一个线性的softmax分类器, 参数为 { w o t } \{\bm{w}_{o_t}\} {wot}
  1. 类似地, 我们可以定义关系和subject的概率, 如下所示: p ( r t ∣ s , G t − m : t − 1 ) ∝ exp ⁡ ( [ e s : h t − 1 ( s ) ] ⊤ ⋅ w r t ) (3) p(r_t|s,G_{t-m:t-1})\propto\exp([\bm{e}_s:\bm{h}_{t-1}(s)]^{\top}\cdot\bm{w}_{r_t})\tag{3} p(rts,Gtm:t1)exp([es:ht1(s)]wrt)(3) p ( s t ∣ G t − m : t − 1 ) ∝ exp ⁡ ( H t − 1 ⊤ ⋅ w s t ) (4) p(s_t|G_{t-m:t-1})\propto\exp(\bm{H}_{t-1}^{\top}\cdot\bm{w}_{s_t})\tag{4} p(stGtm:t1)exp(Ht1wst)(4)
  • h t − 1 ( s ) \bm{h}_{t-1}(s) ht1(s)着重于过去关于 s s s的局部信息;
  • H t − 1 ∈ R d \bm{H}_{t-1}\in {\mathbb R}^d Ht1Rd是编码全局图结构(global graph structures) G t − m : t − 1 G_{t-m:t-1} Gtm:t1的向量表示;
  • 为了预测一个subject实体将会与何种关系相互作用, 即预测概率 p ( r T ∣ s , G t − m : t − 1 ) p(r_T|s,G_{t-m:t-1}) p(rTs,Gtm:t1), 我们将静态表示 e s \bm{e}_s es和动态表示 h t − 1 ( s ) \bm{h}_{t-1}(s) ht1(s)视为特征, 并将它们输入到参数为 { w r t } \{\bm{w}_{r_t}\} {wrt}的MLP解码器中;
  • 此外, 为了预测subject实体在时间点 t t t处的分布(比如 p ( s t ∣ G t − m : t − 1 ) p(s_t|G_{t-m:t-1}) p(stGtm:t1)), 我们将全局表示 H t − 1 \bm{H}_{t-1} Ht1也视为一个特征, 因为它总结了直到时间点 ( t − 1 ) (t-1) (t1)处, 过去图中所有的全局信息, 这反映了对于时间点 t t t处即将到来的事件的全局偏好(global preference);
  1. 我们期望全局表示 H t \bm{H}_t Ht能够保存直到时间点 t t t前的所有图的全局信息; 局部表示 h t ( s , r ) \bm{h}_t(s,r) ht(s,r) h t ( s ) \bm{h}_t(s) ht(s)更多强调去每个实体和关系相联系的局部事件, 我们用以下三个式子来定义这三种表示: H t = R N N 1 ( g ( G t ) , H t − 1 ) (5) \bm{H}_t={\rm RNN}^1(g(G_t),\bm{H}_{t-1})\tag{5} Ht=RNN1(g(Gt),Ht1)(5) h t ( s , r ) = R N N 2 ( g ( N t ( s ) ) , H t , h t − 1 ( s , r ) ) (6) \bm{h}_t(s,r)={\rm RNN}^2(g(N_t^{(s)}),\bm{H}_t,\bm{h}_{t-1}(s,r))\tag{6} ht(s,r)=RNN2(g(Nt(s)),Ht,ht1(s,r))(6) h t ( s ) = R N N 3 ( g ( N t ( s ) ) , H t , h t − 1 ( s ) ) (7) \bm{h}_t(s)={\rm RNN}^3(g(N_t^{(s)}),\bm{H}_t,\bm{h}_{t-1}(s))\tag{7} ht(s)=RNN3(g(Nt(s)),Ht,ht1(s))(7)
  • g g g是将在3.2节中讨论的聚合函数(aggregate function);
  • N t ( s ) N_t^{(s)} Nt(s)表示在当前时间点 t t t处所有与 s s s相联系的事件;
  • 最后借用RNN模型来对三种表示进行更新:
    • 全局表示的RNN模型输入参数为全局图结构(global graph strcture) g ( G t ) g(G_t) g(Gt), g ( G t ) g(G_t) g(Gt)是对于时间点 t t t处的所有事件 G t G_t Gt的一个聚合(aggregation);
  • g ( G t ) g(G_t) g(Gt)定义为 max ⁡ ( { g ( N t ( s ) ) } s ) \max(\{g(N_t^{(s)})\}_s) max({g(Nt(s))}s), 这相当于是对所有 g ( N t ( s ) g(N_t^{(s)} g(Nt(s)进行一个对每个元素最大值池化(an element-wise max-pooling)操作;
  • g ( N t ( s ) ) g(N_t^{(s)}) g(Nt(s))针对subject实体 s s s捕获局部图结构;
  • 局部表示与全局表示有两处不同:
    • ① 局部表示侧重于每个实体与关系, 因此我们聚合了与实体 s s s相联系的事件 N t ( s ) N_t^{(s)} Nt(s)中的信息;
    • ② 为了使得RE-NET能够更好地刻画(characterize)不同实体间的关系, 我们定义全局表示 H t \bm{H}_t Ht作为一个额外特征, 这种额外特征充当是联系不同实体的桥梁;
  1. 下一节中, 我们将介绍如何设计RE-NET中的函数 g g g

3.2 近邻聚合器 Neighborhood Aggregators

本节中, 我们首先介绍两种简单的聚合函数: 均值池化聚合器(mean pooling aggregator, 下简称为MPA)与注意力池化聚合器(attentive pooling aggregator, 下简称为APA), 则两个简单的聚合器只收集在相同关系 r r r下的邻近实体(neighboring entities); 然后我们介绍一个更加有力的聚合函数: 多关系图聚合器(multi-relational graph aggregator), Figure刻画了这三种聚合器的比较情况;

Figure3: 三种近邻聚合器(neiborhood aggregators)之间的比较, 蓝色节点对应节点 s s s, 红色节点是1-hop的近邻, 绿色节点是2-hop的近邻, 不同颜色的边表示不同的关系, 前两种简单的聚合器不会编码2-hop的近邻, 也不会区分不同的关系, 而RGCN聚合器会将多关系以及多级近邻考虑在内Figure3

  1. 均值池化聚合器 Mean Pooling Aggregator
  • MPA是基线聚合器, 它简单把 { e o : o ∈ N t ( s , r ) } \{\bm{e}_o:o\in N_t^{(s,r)}\} {eo:oNt(s,r)}的基于元素均值作为池化表示, 其中 N t ( s , r ) N_t^{(s,r)} Nt(s,r)是时间点 t t t处在关系 r r r下与 s s s相互作用的objects集合;
  • 但是MPA会将所有邻近objects平权对待, 就忽略了每个邻近实体的不同影响力;
  1. 注意力池化聚合器 Attentive Pooling Aggregator
  • 基于累积注意力(参看文献[04]), 本文定义了APA;
  • 定义聚合函数 g ( N t ( s , r ) ) = ∑ o ∈ N t ( s , r ) α 0 e o g(N_t^{(s,r)})=\sum_{o\in N_t^{(s,r)}}\alpha_0\bm{e}_o g(Nt(s,r))=oNt(s,r)α0eo
    • α 0 = s o f t m a x ( v ⊤ tanh ⁡ ( W ( e s ; e r ; e o ) ) ) v ∈ R d \alpha_0={\rm softmax}(\bm{v}^{\top}\tanh(\bm{W}(\bm{e}_s;\bm{e}_r;\bm{e}_o)))\quad \bm{v}\in {\mathbb R}^d α0=softmax(vtanh(W(es;er;eo)))vRd
    • W ∈ R d × 3 d \bm{W}\in {\mathbb R}^{d×3d} WRd×3d是一个可训练的权重矩阵;
  • 通过将subject的注意力函数和关系的注意力函数相加, 就可以确定每个object实体对于subject和关系的权重有多大;
  1. 多关系图聚合器 Multi-Relational Graph (RGCN) Aggregator
  • RGCN聚合器(参考文献[24])是一种可以将多重关系和多级近邻的信息都包含在内的聚合器, 定义如下: g ( N t ( s ) ) = h s ( l + 1 ) = σ ( ∑ r ∈ R ∑ o ∈ N t ( s , r ) 1 c s ( W ) r ( l ) h o ( l ) + ( W ) o ( l ) h s ( l ) ) (8) g(N_t^{(s)})=\bm{h}_s^{(l+1)}=\sigma(\sum_{r\in R}\sum_{o\in N_t^{(s,r)}}\frac{1}{c_s}\bm(W)_r^{(l)}\bm{h}_o^{(l)}+\bm(W)_o^{(l)}\bm{h}_s^{(l)})\tag{8} g(Nt(s))=hs(l+1)=σ(rRoNt(s,r)cs1(W)r(l)ho(l)+(W)o(l)hs(l))(8)
  • 对于每个节点, 它的初始隐层表示 h 0 ( 0 ) \bm{h}_0^{(0)} h0(0), 被设置为可训练的嵌入向量 e o \bm{e}_o eo
  • c s c_s cs是一个标准化因子;
  • 该聚合器的算法细节详见附录B;

3.3 参数学习与推断 Parameter Learning and Inference

本节中我们将讨论RE-NET是如何训练的, 又是如何推断多时间点处的事件的;

  1. 通过事件预测的参数学习 Parameter Learning via Event Prediction
  • 给定 ( s , r ) (s,r) (s,r)进行一个object实体预测任务, 可以被视为一种多分类预测任务, 每种类别对应每个object实体; 类似地给定subject实体 s s s进行关系预测, 以及subject实体预测都可以被视为是多分类任务; 损失函数定义如下: L = − ∑ ( s , r , o , t ) ∈ G log ⁡ p ( o t ∣ s t , r t ) + λ 1 log ⁡ p ( r t ∣ s t ) + λ 2 log ⁡ p ( s t ) (9) L=-\sum_{(s,r,o,t)\in G}\log p(o_t|s_t,r_t)+\lambda_1\log p(r_t|s_t)+\lambda_2\log p(s_t)\tag{9} L=(s,r,o,t)Glogp(otst,rt)+λ1logp(rtst)+λ2logp(st)(9)
  • G G G是事件集合;
  • λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2是多目标损失函数中不同目标的权重系数, 取值基于任务类型, 比如我们目标是给定 ( s , r ) (s,r) (s,r)来预测 o o o, 那么就可以给 λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2以一个较小的权重值;
  1. 基于时间的多步推断 Multi-step Inference over Time
  • RE-NET试图基于对过去的观测来预测即将到来的事件; 假设当前时间为 t t t, 我们目标预测事在时间点 t + Δ t t+\Delta t t+Δt处的事件( Δ t > 0 \Delta t\gt 0 Δt>0), 多步推断问题就可以被抽象为推断条件概率 p ( G t + Δ t ∣ G : t ) p(G_{t+\Delta t|G_{:t}}) p(Gt+ΔtG:t)
  • 事实上这个问题并不平凡, 因为我们需要集成所有的 G t + 1 : t + Δ t − 1 G_{t+1:t+\Delta t-1} Gt+1:t+Δt1
  • 这里给出一个 G t + 1 : t + Δ t − 1 G_{t+1:t+\Delta t-1} Gt+1:t+Δt1的样本, 然后将以如下的方式进行条件概率估计: p ( G t + Δ 5 ∣ G : t ) = ∑ G t + 1 : t + Δ t − 1 p ( G t + Δ t , G t + 1 : t + Δ t − 1 ∣ G : t ) = ∑ G t + 1 : t + Δ t − 1 p ( G t + Δ t ∣ G : t + Δ t − 1 ) ⋅ ⋅ ⋅ p ( G t + 1 ∣ G : t ) = E G t + 1 : t + Δ t − 1 ∣ G : t [ p ( G t + Δ t ∣ G : t + Δ t − 1 ) ] ≈ p ( G t + Δ ∣ G ^ t + 1 : t + Δ t − 1 , G : t ) p(G_{t+\Delta 5}|G_{:t})\\=\sum_{G_{t+1:t+\Delta t-1}}p(G_{t+\Delta t},G_{t+1:t+\Delta t-1}|G_{:t})\\=\sum_{G_{t+1:t+\Delta t-1}}p(G_{t+\Delta t}|G_{:t+\Delta t-1})\cdot\cdot\cdot p(G_{t+1}|G_{:t})\\={\mathbb E}_{G_{t+1}:t+\Delta t-1|G_{:t}}[p(G_{t+\Delta t}|G_{:t+\Delta t-1})]\\\approx p(G_{t+\Delta}|{\hat G}_{t+1:t+\Delta t-1},G_{:t}) p(Gt+Δ5G:t)=Gt+1:t+Δt1p(Gt+Δt,Gt+1:t+Δt1G:t)=Gt+1:t+Δt1p(Gt+ΔtG:t+Δt1)p(Gt+1G:t)=EGt+1:t+Δt1G:t[p(Gt+ΔtG:t+Δt1)]p(Gt+ΔG^t+1:t+Δt1,G:t)
  • 直觉上, 我们会先计算 p ( G t + 1 ∣ G : t ) p(G_{t+1}|G_{:t}) p(Gt+1G:t), 然后从条件分布中采样一个 G ^ t + 1 {\hat G}_{t+1} G^t+1, 根据这个样本, 就可以进一步计算 p ( G t + 2 ∣ G ^ t + 1 , G : t ) p(G_{t+2}|{\hat G}_{t+1},G_{:t}) p(Gt+2G^t+1,G:t), 如此迭代计算 G t ′ G_{t^{\prime}} Gt条件分布并从中采样, 最终就可以用 p ( G t + Δ t ∣ G ^ t + 1 : t + Δ t − 1 , G : t ) p(G_{t+\Delta t}|{\hat G}_{t+1:t+\Delta t-1},G_{:t}) p(Gt+ΔtG^t+1:t+Δt1,G:t)估计出 p ( G t + Δ 5 ∣ G : t ) p(G_{t+\Delta 5}|G_{:t}) p(Gt+Δ5G:t)
  • 虽然在每一次迭代步骤中可以通过多次采样来提升估计效果, 但是实验结果表明RE-NET在单次采样下已经可以表现得很好, 因此我们出于效率考虑每次只采样一个图样本;
  • 基于条件分布的估计, 我们可以进一步预测可能在未来构成的事件;
  • Algorithm1: RE-NET的学习算法Algorithm1
  • Algorithm1中总结了推断算法的细节, line3中采样 M M M个subject实体 s s s并挑选top- k k k的三元组(line4), 然后构建了时间点 t ′ t^{\prime} t处的一个图(line5)来生成一个图, 算法复杂度分析详见附录C;

4 实验 Experiments

  1. 事实上评估生成图(预测出的KG)质量的任务是不平凡的(nontrivial); 我们是在TKG上的一个外推联系预测任务(extrapolation link prediction task)中评估了本文提出的方法;
  • 该任务目标是时间点 t t t处, 给定 ( s , r , ? , t ) (s,r,?,t) (s,r,?,t)预测与object实体相关的未知的关系(unseen relationships), 或给定 ( ? , r , o , t ) (?,r,o,t) (?,r,o,t)预测与subject实体相关的未知的关系(unseen relationships);
  • 最终这是一个排名问题(ranking problem), 即对所有事件 ( s , r , ? , t ) (s,r,?,t) (s,r,?,t) ( ? , r , o , t ) (?,r,o,t) (?,r,o,t)进行排名; 而RE-NET可以通过推断算法*Algorithm1**来计算每个事件在远期(distant future)的概率, 然后基于概率对所有事件进行排序;
  • 注意: 我们在推断时只被给定了一个训练集作为ground truth, 并且不会 在进行多步推断(multi-step inference)时, 使用任何ground truth在测试集上进行下步预测(next-step prediction); 这是本文与前人工作的主要区别, 前人通常都会在测试集上使用之前的ground truth;
    • 备注:

      原文: Note that we are only given a training set as ground truth at inference and we do not use any ground truth in the test set for the next time step predictions when performing multi-step inference. This is the main difference from previous work; they use previous ground truth in the test set.

      • 稍许理解一下这个意思, 首先ground truth就是正确标注的意思, 我想这应该是指说他们在测试集上不会使用训练集给定的那些正确标注来辅助预测, 即避免使用外部知识, 而仅仅使用从外部知识上训练得到的模型进行测试;
  1. 本文评估提出的方法基于三个基准任务(benchmark task):
  • ① 在基于事件的(event-base)数据集上预测未来事件;
  • ② 在两个包含带时间范围的事实的KG上预测未来事实;
  • ③ 对本文提出的方法进行消融研究(studying ablation);
  1. 在所有上述实验中, 我们都会在训练中没有观测的时间点上进行预测;
  • 备注:

    原文: In all these experiments, we perform predictions on time stamps that are not observed during training.

    • 这似乎是呼应了上一个备注的内容, 只对训练中没有涉及的时间点进行预测, 即不会使用训练集的ground truth, 避免使用到外部知识, 或者说从训练集训练出的模型也不应该再回头去预测训练集上的时间点;

4.1 实验配置 Experimental Setup

本文将提出的方法与各种传统的KG预测模型, 以及一些近期提出的时序推理模型(temporal reasoning models)在5个公开数据集上进行性能比较;

  1. 数据集 Datasets
  • 3个基于事件的(event-base)TKG数据集:
    • ICEWS18: 参考文献[03]
    • ICEWS14: 参考文献[29]
    • GDELT: 参考文献[17]
  • 2个KG数据集, 当中的时序联系事实(temporally associated facts)的元事实(meta-facts)的数据结构是 ( s , r , o , [ t s , t e ] ) (s,r,o,[t_s,t_e]) (s,r,o,[ts,te]), 即时间戳是一个时间跨度(time span), 指示从 t s t_s ts t e t_e te之间事实成立:
    • WIKI: 参考文献[16]
    • TAGO: 参考文献[19]
  1. 评估设置与指标 Evaluation Settings and Metrics
  • 除了ICEWS14外, 其他四个数据集都按照时间戳被分割成三个子集, 训练集( 80 % 80\% 80%), 验证集( 10 % 10\% 10%)和测试集( 10 % 10\% 10%), 即(time stamps of train) < \lt <(time stamps of valid) < \lt <(time stamps of test)
    • ICEWS14的分割方式采用的是参考文献[29]中提供的方法;
  • 本文报告了平均值相应排序(Mean Reciprocal Ranks, 下简称为MRR)的过滤版本(filter version), 以及Hit@3/10指标
    • 备注:
      • MRR指标即如果预测排序结果的第 k k k名命中了真实值, 则记得分 1 k \frac{1}{k} k1, 最终在所有样本取得分的均值;
      • Hit@3/10从图表中的情况看来是研究预测排名前3与前10命中真实值的频率;
      • 这些指标都可以在Table1中查到结果;
  • 在评估过程中我们根据一个损坏三元组列表(list of corrupted triplets), 移除所有出现在训练集/验证集/测试集中验证三元组(valid triplet);
    • 这与参考文献[02]中使用的过滤设置定义是类似的
    • 备注:
      • 理解为会有一定的规则来筛除各个数据集中不符合规范的三元组;
  1. 基线 Baselines
  • 我们将我们的方法与适用于静态图和时序图的基线方法进行比较, 主要有如下三种基线:
    • ① 静态方法 Static Methods

      • 通过忽略掉数据集中边(edge)上的时间戳, 就可以构建一个所有事件的静态的累积图(static cumulative graph), 然后就可以使用将多关系图表示学习方法(multi-relational graph representation learning methods)应用在数据集上, 如:
        • DistMult: 参考文献[31]
        • R-GCN: 参考文献[24]
        • ConvR: 参考文献[06]
        • RotatE: 参考文献[27]
    • ② 时序推理方法 Temporal Reasoning Methods

      • 我们也对先进的用于KG的时序推理方法进行比较, 包括:
        • Know-Evolve: 参考文献[29]
        • TA-DistMult: 参考文献[07]
        • HyTE: 参考文献[05]
        • TA-DistMultHyTE都是用于一个内生(interpolation)认为, 而本文是侧重于外推(extrapolation)任务, 为了能够进行比较, 我们对不会在训练中被观测的时间嵌入(temporal embeddings)上设置了一些随机值;
          • 备注:

            原文: we assign random values to temporal embeddings that are not observed during training.

            • 很晦涩, 内生任务是预测过去的事实, 外推则是预测未来的事实, 对时间嵌入进行随机设值, 就能将过去的时间点和未来的时间点相对等价了么?
      • 为了看出我们方法中REE的影响, 本文采用前人工作中的编码器和我们的MLP解码器作为基线; 由此我们比较了Know-Evolve, Dyrep(参考文献[30]), GCRN(参考文献[25])三种方法与我们的MLP解码器结合的综合方法, 标记为:
        • Know-Evolve+MLP
        • Dyrep+MLP
        • GCRN+MLP
      • GCRN利用图卷积网络(Graph Convolution Network, 下简称为GCN, 参考文献[13]), 而本文的方法使用的是RGCN(参考文献[24])来处理多关系图(multi-relation graphs);
      • 我们也将本文的方法与动态方法(dynamic methods)在齐次图(homogeneous graphs)上进行比较, 有如下几个方法:
        • dyngraph2vecAE: 参考文献[09]
        • tNodeEmbed: 参考文献[26]
        • EvolveRGCN: 参考文献[22]
        • 这些方法都是被提出用于预测齐次图上未来时间点处的相互影响(interactions), 我们稍微修改了一下这些方法来使得它们可以用在多关系图中;
        • 备注:
          • 关于齐次图(homogeneous graphs)暂时没有找到确切定义, 我猜想和图的阶数有关, 即所有图的节点数都相同, 这里可能是指图序列上每张图的实体数都相同;
    • ③ 循环事件网络的变体 Variants of RE-NET

      • 为了评估RE-NET不同构件(components)的重要性, 我们以不同方法来修改模型:
        • RE-NET w/o multi-step: 推断时不更新历史的RE-NET;
        • RE-NET w/o agg.: 不带有聚合器(aggregator)的RE-NET;
          • 这种变体直接用一个零向量来取代聚合器;
        • RE-NET w. mean agg.: 带平均值聚合器的RE-NET;
        • RE-NET w. attn agg.: 带注意力聚合器的RE-NET;
        • RE-NET w. GT: 带有ground truth的RE-NET
          • 备注:
            • 应该就是本节开头提到的与前人工作主要不同处的那个东西, 这里配置了一种与前人工作相同的变体;
  • 关于详细实验设置详见附录D;

4.2 TKG上的表现比较 Performance Comparison on TKGs

我们比较了本文的方法与其他基线, 测试结果通过五轮实验求均值的方法在每个数据集的完整测试集上评估得出;

  1. 基于事件的TKG结果 Results on Event-based TKGs
  • Table1: 5个数据集上不同方法的实验结果比较(5轮测试求均值), 显然RE-NET是全项冠军Table1
  • Table1总结了所有数据集上的结果:
    • RE-NET比其他所有基线方法在ICEWS18和GDELT数据集上的表现都要好;
    • 静态方法(static methods)比我们的方法差因为他们没有考虑时序因素;
    • RE-NET比其他基于齐次图的时序方法(temporal methods)表现得要更好;
    • Know-Evolve+MLP显著的增强了Know-Evolve, 这表明我们提出的MLP解码器是有效的, 但是与我们模型的差距仍然很大, 所以这表明我们的REE也很有效;
    • R-GCRN+MLP与我们方法的结构相似(recurrent encoder+RGCN聚合器), 但是它的recurrent encoder缺乏多步推断, 捕获全局信息的能力, 也没有被很好的建模(sophisticated modeling), 所以结果也不如我们的模型;
      • 备注:
        • sophisticated直译为见多识广的, 我想作者的意思就是R-GCRN的建模不行;
    • 除了RE-NET外其他的时序方法都没有多步推断能力, 只有RE-NET可以序列式地推断多步事件; 细节详见4.3节;
  1. 公开的KG结果 Results on Public KGs
  • 在前一段的分析中可以看到RE-NET比其他所有方法在基于事件的(event-based)TKG上表现都要更好, 一个重要因素是这些数据集提供了时间跨度信息;
  • 但是我们的方法既比静态方法表现得好, 也比时序方法表现得好, 这意味着RE-NET使用一个强有力的REE和一个全新的NA确实能够提供更精确的推断预测结果;
    • 备注:
      • 其实这里我没有搞清楚具体静态方法是怎么比较的, 我理解前面对比齐次图的时序方法作者确实是通过某些手段把时序方法和RE-NET放到了同一种任务中进行比较, 但是静态方法是完全不考虑时间因素的, 这里能将静态方法和RE-NET一样放到同一种任务中比较么? 如果不能的话(我看前面的表述其实就是强调静态方法不考虑时间所以很差), 静态方法就等于让了一个时间轴跟RE-NET比, 这里说虽然因为数据集中带有时间跨度因素是RE-NET领先于其他方法很重要的因素, 但是RE-NET比两类方法都好, 所以认为不仅仅是数据集本身的性质很好, RE-NET本身也有很突出的优势, 就是一种很tricky的诡辩;

      原文: In these datasets, baselines show better results than in the eventbased TKGs. This is due to the characteristics of the datasets; they have facts that are valid within a time span. However, our proposed method consistently outperforms the static and temporal methods, which implies that RE-NET effectively infers new events using a powerful event encoder and an aggregator, and provides accurate prediction results.

  1. 基于时间的预测效果 Performance of Prediction over Time
  • Figure4: 未来时间点上的时序联系预测效果(Hits@3指标) Figure4
    • Figure4展示了数据集ICEW18, GDELT, WIKI, YAGO上不同时间点的效果比较(Hits@3指标);
    • RE-NET仍然在全部的时间点上比基线方法表现得好;
    • 图中每个方法的的效果折线呈现波动态势是因为每个时间点的测试实体都是不同的;
  • 可以发现随着时间推进, RE-NET与ConvE的差距变小了, 这可能意味着远期的事件是很难被预测的了; 为了估计远期事件的联合概率, RE-NET需要生成一个很长的图序列, 而随着生成图序列长度增加, 图的质量很不断变差;

4.3 消融研究 Ablation Study

本节中将研究RE-NET不同变体在ICEWS18数据集上的表现效果, 具体结果可以在Table1, Table2, Figure5中查看;
Figure5: RE-NET模型变体的表现情况 Figure5
Table2: 两个数据集上的消融研究 Table2

  1. 不同的聚合器 Different Aggregators
  • Table2中可以发现RE-NET w/o agg.损伤了模型质量, 意味着引入聚合器使得模型可以处理同时发生的事件是有助于提高评估效果的;
  • Table1Figure5展示了不同聚合器的RE-NET表现效果:
    • RGCN聚合器比其他聚合器表现得好, 因为这种聚合器可以探测多级近邻关系;
    • 注意力聚合器表现的比均值聚合器好, 表明赋予近邻节点权重是有利于预测的;
  1. 多步推断 Multi-step Inference
  • Table2中发现RE-NET比RE-NET w/o multi-step表现得好, 后者在推断中不会更新历史, 而只是保留它训练集上最新的历史, 因此它不会被时间戳影响;
  • RE-NET W. GT表现出显著的提升, 这说明使用之前时间点的三元组的ground-truth是对模型评估有显著增益的, 但是本文的设定中是不允许做这件事情的;
  1. 经验概率 Empirical Probabilities
  • 在这一点中我们研究 p ( s t ∣ G t − m : t − 1 ) p(s_t|G_{t-m:t-1}) p(stGtm:t1) p ( r t ∣ s t , G t − m : t − 1 ) p(r_t|s_t,G_{t-m:t-1}) p(rtst,Gtm:t1), 这里简化表示为 p ( s ) p(s) p(s) p ( r ) p(r) p(r)
  • 注意到 p ( s t , r t ∣ G t − m : t − 1 ) p(s_t,r_t|G_{t-m:t-1}) p(st,rtGtm:t1)(简化表示为 p ( s , r ) p(s,r) p(s,r))等价于 p ( s ) p ( r ) p(s)p(r) p(s)p(r)
  • Figure5b中的标记解释:
    • emp. p ( s ) p(s) p(s)(简化表示为 p e ( s ) p_e(s) pe(s))表示一个带有经验 p ( s ) p(s) p(s)的模型:
    • p e ( s ) p_e(s) pe(s)定义为(# of s-related triples) ÷ \div ÷(total # of triples);
    • emp. p ( s , r ) p(s,r) p(s,r)(简化表示为 p e ( s , r ) p_e(s,r) pe(s,r))表示一个带有 p e ( s ) p_e(s) pe(s) p e ( r ) p_e(r) pe(r)的模型;
    • p e ( r ) p_e(r) pe(r)定义为(# of r-related triples) ÷ \div ÷(total # of triples);
    • 显然有 p e ( s , r ) = p e ( s ) p e ( r ) p_e(s,r)=p_e(s)p_e(r) pe(s,r)=pe(s)pe(r)
  • 注意到RE-NET使用一个训练过的 p ( s ) p(s) p(s) p ( r ) p(r) p(r), 结果表明训练过的 p ( s ) p(s) p(s) p ( r ) p(r) p(r)可以帮助RE-NET进行多步推断, 而 p e ( s ) p_e(s) pe(s)使得效果变差, p e ( s , r ) p_e(s,r) pe(s,r)则使得效果变得非常差, 这表明训练式1(在第2节第3点中)中每个部分的概率是可以提升模型效果;
    • 备注:
      • 1本身是一个贝叶斯条件概率计算公式, 这里所谓的经验概率我理解是即从样本(训练集)中挖掘出的概率分布信息, 作者的意思大概是与其去统计概率, 不如都扔进模型训练拉倒, 难道说训练集和测试集的分布并不一致? 感觉这很难去解释背后的原因;

5 相关工作

  1. 时序KG推理 Temporal KG Reasoning
  • 参考文献[29]: 外推(extrapolation)
    • 该文献将事实的发生建模成为时序点过程(temporal point process);
  • 参考文献[07,16,05,08,15]: 内生(interpolation)
    • 这五篇文献建模时间信息(time information), 将联系(associate)嵌入到低维空间
    • 参考文献[07]用RNN建模包含时间信息的文本;
    • 参考文献[16]时间嵌入(time embeddings);
    • 参考文献[16]时序超平面(temporal hyperplanes);
    • 参考文献[08]历时实体嵌入(diachronic entity embedding);
    • 参考文献[15]张量分解;
    • 这些文献都不能预测未来事件, 因为未知时间点(unseen timestamps)的表示(representations)是不可获得的;
  1. 齐次图上的时序建模 Temporal Modeling on Homogeneous Graphs
  • 参考文献[22,09,10,33,26]: 试图在齐次图上预测未来联系(future link)
  • 参考文献[22,33,26]: 将学习图结构和预测未来联系结合;
  • 参考文献[09,10]: 通过使用自动编码器(autoencoder)重构图邻接矩阵;
  • 这些方法尝试在单关系图上预测, 并且只对一个未来时间点的边(edge)进行预测, 如只预测 t + 1 t+1 t+1时间点的, 而本文是多关系的KG, 且是做多步预测;
  1. 深度自回归模型 Deep Autoregressive Models
  • 深度自回归模型使用条件概率的乘积来定义联合概率分布;
  • 参考文献[18]: DeepGMG
  • 参考文献[32]: GraphRNN
  • 这两篇文献都是图深度生成模型(deep generative models of graphs), 侧重于在静态齐次图上进行预测, 且图中只有一种类型的边;
  • 本文是第一篇在时序的, 多关系KG上抽象结构推断问题(structure inference problem)的paper;

6 结论 Conclusion

  1. 为了解决外推(extrapolation)问题, 本文提出RE-NET来建模时序的(temporal), 多关系的(multi-relational), 以及实体间同时发生事件所产生的影响(concurrent interactions between entities), 最终验证了这是一个有能力进行序列式推测图结构的模型;

  2. 实验揭示了RE-NET比所有静态和时序方法表现得好, 我们的扩展分析表明了它有很强的性能(strength);

  3. 未来工作:

  • ① 建立更快且高效的RE-NET版本
  • ② 建模持续事件以及在持续发生图(long-lasting graph)结构上实现推断任务;

致谢

This research is based upon work supported in part by the Office of the Director of National Intelligence (ODNI), Intelligence Advanced Research Projects Activity (IARPA), via Contract No. 2019-19051600007, the DARPA MCS program under Contract No. N660011924033 with the United States Office Of Naval Research, the Defense Advanced Research Projects Agency with award W911NF-19-20271, and NSF SMA 18-29268. The views and conclusions contained herein are those of the authors and should not be interpreted as necessarily representing the official policies, either expressed or implied, of ODNI, IARPA, or the U.S. Government. We would like to thank all the collaborators in USC INK research lab for their constructive feedback on the work


参考文献

[01]Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473.
[02]Antoine Bordes, Nicolas Usunier, Alberto Garc´ıaDuran, Jason Weston, and Oksana Yakhnenko. ´ 2013. Translating embeddings for modeling multirelational data. In NIPS.
[03]Elizabeth Boschee, Jennifer Lautenschlager, Sean O’Brien, Steve Shellman, James Starz, and Michael Ward. 2015. Icews coded event data. Harvard Dataverse, 12.
[04]Kyunghyun Cho, Bart van Merrienboer, C¸ aglar Gulc¸ehre, Dzmitry Bahdanau, Fethi Bougares, Hol- ¨ ger Schwenk, and Yoshua Bengio. 2014. Learning phrase representations using rnn encoder-decoder for statistical machine translation. In EMNLP.
[05]Shib Sankar Dasgupta, Swayambhu Nath Ray, and Partha Talukdar. 2018. Hyte: Hyperplane-based temporally aware knowledge graph embedding. In EMNLP.
[06]Tim Dettmers, Pasquale Minervini, Pontus Stenetorp, and Sebastian Riedel. 2018. Convolutional 2d knowledge graph embeddings. In AAAI.
[07]Alberto Garc´ıa-Duran, Sebastijan Dumancic, and ´ Mathias Niepert. 2018. Learning sequence encoders for temporal knowledge graph completion. In EMNLP.
[08]Rishab Goel, Seyed Mehran Kazemi, Marcus Brubaker, and Pascal Poupart. 2020. Diachronic embedding for temporal knowledge graph completion. In Thirty-Fourth AAAI Conference on Artificial Intelligence.
[09]Palash Goyal, Sujit Rokka Chhetri, and Arquimedes Canedo. 2019. dyngraph2vec: Capturing network dynamics using dynamic graph representation learning. Knowledge-Based Systems, page 104816.
[10]Palash Goyal, Nitin Kamra, Xinran He, and Yan Liu. 2018. Dyngem: Deep embedding method for dynamic graphs. arXiv preprint arXiv:1805.11273.
[11]Seyed Mehran Kazemi, Rishab Goel, Kshitij Jain, Ivan Kobyzev, Akshay Sethi, Peter Forsyth, and Pascal Poupart. 2019. Relational representation learning for dynamic (knowledge) graphs: A survey. arXiv preprint arXiv:1905.11485.
[12]Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.
[13]Thomas N. Kipf and Max Welling. 2016. Semisupervised classification with graph convolutional networks. CoRR, abs/1609.02907.
[14]Gizem Korkmaz, Jose Cadena, Chris J Kuhlman, Achla Marathe, Anil Vullikanti, and Naren Ramakrishnan. 2015. Combining heterogeneous data sources for civil unrest forecasting. In Proceedings of the 2015 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining 2015, pages 258–265.
[15]Timothee Lacroix, Guillaume Obozinski, and Nicolas ´ Usunier. 2020. Tensor decompositions for temporal knowledge base completion. In International Conference on Learning Representations.
[16]Julien Leblay and Melisachew Wudage Chekol. 2018. Deriving validity time in knowledge graph. In Companion of the The Web Conference 2018 on The Web Conference 2018, pages 1771–1776. International World Wide Web Conferences Steering Committee.
[17]Kalev Leetaru and Philip A Schrodt. 2013. Gdelt: Global data on events, location, and tone, 1979– 2012. In ISA annual convention, volume 2, pages 1–49. Citeseer.
[18]Yujia Li, Oriol Vinyals, Chris Dyer, Razvan Pascanu, and Peter Battaglia. 2018. Learning deep generative models of graphs. arXiv preprint arXiv:1803.03324.
[19]Farzaneh Mahdisoltani, Joanna Asia Biega, and Fabian M. Suchanek. 2014. Yago3: A knowledge base from multilingual wikipedias. In CIDR.
[20]Fred Morstatter, Aram Galstyan, Gleb Satyukov, Daniel Benjamin, Andres Abeliuk, Mehrnoosh Mirtaheri, KSM Tozammel Hossain, Pedro Szekely, Emilio Ferrara, Akira Matsui, Mark Steyvers, Stephen Bennet, David Budescu, Mark Himmelstein, Michael Ward, Andreas Beger, Michele Catasta, Rok Sosic, Jure Leskovec, Pavel Atanasov, Regina Joseph, Rajiv Sethi, and Ali Abbas. 2019. Sage: A hybrid geopolitical event forecasting system. In Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, IJCAI-19. International Joint Conferences on Artificial Intelligence Organization.
[21]Sathappan Muthiah, Bert Huang, Jaime Arredondo, David Mares, Lise Getoor, Graham Katz, and Naren Ramakrishnan. 2015. Planned protest modeling in news and social media. In AAAI.
[22]Aldo Pareja, Giacomo Domeniconi, Jie Chen, Tengfei Ma, Toyotaro Suzumura, Hiroki Kanezashi, Tim Kaler, Tao B. Schardl, and Charles E. Leiserson. 2020. EvolveGCN: Evolving graph convolutional networks for dynamic graphs. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence.
[23]Lawrence Phillips, Chase Dowling, Kyle Shaffer, Nathan Oken Hodas, and Svitlana Volkova. 2017. Using social media to predict the future: A systematic literature review. ArXiv, abs/1706.06134.
[24]Michael Sejr Schlichtkrull, Thomas N. Kipf, Peter Bloem, Rianne van den Berg, Ivan Titov, and Max Welling. 2018. Modeling relational data with graph convolutional networks. In ESWC.
[25]Youngjoo Seo, Michael Defferrard, Pierre Van-dergheynst, and Xavier Bresson. 2017. Structured sequence modeling with graph convolutional recurrent networks. In ICONIP.
[26]Uriel Singer, Ido Guy, and Kira Radinsky. 2019. Node embedding over temporal graphs. arXiv preprint arXiv:1903.08889.
[27]Zhiqing Sun, Zhi-Hong Deng, Jian-Yun Nie, and Jian Tang. 2019. Rotate: Knowledge graph embedding by relational rotation in complex space. arXiv preprint arXiv:1902.10197.
[28]Lucas Theis, Aaron van den Oord, and Matthias ¨ Bethge. 2015. A note on the evaluation of generative models. arXiv preprint arXiv:1511.01844.
[29]Rakshit Trivedi, Hanjun Dai, Yichen Wang, and Le Song. 2017. Know-evolve: Deep temporal reasoning for dynamic knowledge graphs. In ICML.
[30]Rakshit Trivedi, Mehrdad Farajtabar, Prasenjeet Biswal, and Hongyuan Zha. 2019. Dyrep: Learning representations over dynamic graphs. In ICLR 2019.
[31]Bishan Yang, Wen tau Yih, Xiaodong He, Jianfeng Gao, and Li Deng. 2015. Embedding entities and relations for learning and inference in knowledge bases. CoRR, abs/1412.6575.
[32]Jiaxuan You, Rex Ying, Xiang Ren, William Hamilton, and Jure Leskovec. 2018. Graphrnn: Generating realistic graphs with deep auto-regressive models. In International Conference on Machine Learning, pages 5694–5703.
[33]Lekui Zhou, Yang Yang, Xiang Ren, Fei Wu, and Yueting Zhuang. 2018. Dynamic network embedding by modeling triadic closure process. In Thirty-Second AAAI Conference on Artificial Intelligence.

附录

备注:
本文的附录实在是太长了, 这里直接截取原文内容了, 主要都是数学推导和结果展示, 因为组会时学长已经对几个重要component的推导做了详细阐述, 如REE与NA, 其实还是挺重要的, 有余力可以仔细看看;
附录部分的相关图表没有在对应section中展示, 全部在文末的图表汇总中;

附录A 循环神经网络 Recurrent Neural Network

附录A

附录B RGCN聚合器的详细情况 Details of RGCN Aggregator

附录B1
附录B2

附录C 计算复杂度分析 Computational Complexity Analysis

附录C

附录D 详细实验配置 Detailed Experimental Settings

  1. 数据集 Datasets

附录D1
附录D2

  1. 循环事件网络的建模细节 Model details of RE-NET

附录D3
附录D4

  1. 基线方法的实验配置 Experimental Settings for Baseline Methods

附录D5
附录D6

  1. 动态方法的实验配置 Experimental Settings for Dynamic Methods

附录D7
附录D8

附录E 其他实验 Additional Experiments

E.1 原始指标的结果 Results with Raw Metrics

附录E1

E.2 敏感性分析 Sensitivity Analysis

附录E2
附录E3

  1. 循环时间编码器中的过去历史长度 Length of Past History in Recurrent Event Encoder

附录E4

  1. 推断时在位置 k k k处切断 Cut-off Position k k k at Inference

附录E5

  1. RGCN聚合器的层 Layers of RGCN Aggregator

附录E6
附录E7

  1. 全局信息 Global Information

附录E8

附录F 案例分析 Case Study

附录F

附录G 感知进化的实现问题 Implementation Issues of Know-Evolve

附录G1
附录G2


图表汇总

Figure1
Figure2
Figure3
Algorithm1
Table1
Figure4
Figure5
Table2
Table3
Table4
Figure6
Figure7
Figure8

相关推荐
©️2020 CSDN 皮肤主题: 程序猿惹谁了 设计师:白松林 返回首页