使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

融合异质图表示学习与注意力机制的可解释论文推荐

  • 马霄 1
  • 邓秋淼 1
  • 张红玉 1
  • 文轩 1
  • 曾江峰 2
1. 中南财经政法大学信息工程学院,武汉 430073; 2. 华中师范大学信息管理学院,武汉 430079

最近更新:2024-08-06

DOI: 10.3772/j.issn.1000-0135.2024.07.004

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

学术论文推荐旨在为研究人员从海量学术资源中快速筛选出感兴趣的论文。现有论文推荐方法主要基于论文标题等文本内容和引用关系等进行推荐,使得蕴含丰富语义的多源学术信息的表示学习不够充分,制约了推荐准确度的进一步提升。同时,当前方法往往关注论文推荐的准确性,而忽略了可解释性,降低了论文推荐系统的可信度和用户满意度。为解决上述问题,本文提出了一种融合异质图表示学习与注意力机制的可解释论文推荐方法,该方法能够有效利用异质学术图中的语义信息,为推荐结果提供文本解释说明。具体来说,首先,提出了一种基于异质图表示学习与注意力机制的论文推荐模型,融合多源学术信息来构建语义丰富的异质学术图,并利用注意力机制学习不同节点和元路径的重要性,以获得更准确的节点表示。其次,提出了一种基于特征的文本解释生成模型,该模型将可解释文本生成方法引入论文推荐场景,能够在为作者提供推荐列表的同时生成文本解释,以告知其推荐缘由,从而提高论文推荐的可解释性。最后,构建了一个包含论文元数据、特征词、引用上下文的学术数据集,基于该数据集的对比实验结果表明,本文提出的基于异质图表示学习与注意力机制的论文推荐模型推荐准确度更高,解释生成模型能够为论文推荐结果提供质量较高的可解释文本说明。

0 引 言

随着科学技术的快速发展和人类对知识的追求,越来越多的研究人员在各自领域不断进行探索和实验,并将研究成果以科技论文的形式进行发表,科技论文数量呈现爆发式增长。因此,如何在海量科技论文中找到全面的、相关的参考文献成为了学术研究的关键。为了提高效率,一些新兴工具应运而生,例如,文献管理软件Mendeley

、学术社交媒体网站如ResearchGate,以及常用的学术数据库或检索工具如谷歌学等。为了更具特色并提高用户的使用率,这些工具除了作为检索数据库外,不断增加推荐功[1]。近年来,围绕论文推荐的研究和方法不断涌[2]

现有论文推荐方法包括基于内容的论文推[

3-4]、基于协同过滤的论文推[5-6]以及混合论文推荐方[7-8]等。其中,基于内容的论文推荐方法主要考虑作者的历史研究偏好,如历史发表论文的标题和摘要等文本内容,通过计算作者偏好与候选论文的相似度来进行推[4]。传统基于协同过滤的论文推荐方法主要根据目标作者与其他作者共同引用的论文来进行推荐,交互相似度越高的作者间的研究兴趣偏好越相似,以此为依据来进行后续论文推[6]。基于图的协同过滤推荐方法突破了信息的局限性,利用多元化的图关系来生成推荐,图关系包括引文关系、学术社交关系[9]。例如,Son[10]将引文关系建模为多层引用图,通过计算目标论文与待推荐论文之间的关联度来进行论文推荐。然而,这些方法仍然存在一些问题:一方面,上述论文推荐方法没有充分挖掘和利用丰富的学术辅助信息,无法有效缓解数据稀疏性问题,使得论文推荐结果的准确性较低;另一方面,现有方法仅提供推荐结果,无法提供具有说服力的推荐解释,降低了用户信任度和满意度。

为了充分利用学术辅助信息,异质图被引入学术推荐研[

11-12]。Ma[12]将元结构概念引入论文推荐中,提出一种新发表论文推荐方法,该方法通过构建元结构来表示作者与论文节点间更为复杂的语义关系;实验结果表明,该方法有效缓解了论文推荐中的数据稀疏性问题。吴俊超[13]提出了一种融合文本和异质图的学术论文推荐算法,通过学习不同语义下用户和论文的多样化特征,基于图卷积神经网络充分挖掘不同特征对论文推荐性能的影响。这些研究证实了将异质图表示学习引入论文推荐任务中,能够在一定程度上提高推荐结果的准确性。然而,这些方法在进行节点表示学习时忽略了不同元路径和节点的重要性差异,使学习得到的作者和论文节点之间的交互表示不够准确,降低了推荐性能。

推荐系统的可解释性研究主要聚焦于商品推荐、电影推荐等领[

14-16],通过对用户发布的文本评论信息建模来进行可解释研究。由于论文推荐任务中缺乏来自用户的文本评论数据,使得论文推荐的可解释性研究成为挑战。然而,如图1所示,如果能够在为用户提供论文推荐列表时告知其推荐缘由,比如,研究问题相关,使用了相关的模型如BiLSTM(bi-directional long short-term memory),或使用了相同的数据集如TIMIT(Texas Instruments-MIT Speech Database)等,能够有效增强论文推荐系统的可解释性,提高用户信任度和满意度。

fig

图1  可解释论文推荐示例

针对上述问题,本文提出了一种基于异质图表示学习与注意力机制的可解释论文推荐方法(explainable paper recommendation,EPRec),能够在提高推荐准确度的同时,为推荐结果提供有效的可解释文本说明。本文的主要贡献如下。

(1)提出了一种融合异质图表示学习与注意力机制的论文推荐模型,能够充分利用多源辅助信息来构建语义丰富的异质学术图。考虑到异质图中各类节点和元路径的重要性差异,使用融合注意力机制的长短期记忆网络模型来学习作者节点与论文节点间的交互表示,从而提高论文推荐的准确度。

(2)提出了一种基于特征的文本解释生成模型。首先,将目标作者发表论文中对参考文献的引用上下文以及待推荐论文的被引上下文类比为文本评论信息,构建引文评论文档。其次,使用特征提取技术从引文评论文档中挖掘出与作者研究兴趣和论文内容都高度相关的特征词。最后,以这些特征为依据,基于门控循环神经网络生成相关性高且更多元化的推荐解释文本。

(3)构建了一个包含论文元数据、特征词、引用上下文等信息的学术数据集。基于该数据集的实验结果表明:①融合异质图表示学习与注意力机制的论文推荐模型相较于传统论文推荐模型效果更好,准确率、召回率等评价指标均有所提升;②在论文推荐场景下获得的文本解释质量较高,能够有效提高论文推荐系统的可解释性。

1 相关研究

1.1 学术论文推荐研究

学术论文推荐旨在对研究者兴趣和论文内容间的相似度等关系进行计算和排名,帮助研究人员快速找到相关的论文,并推荐与研究者的研究兴趣或最相关的前N篇论[

1-2]。论文推荐系统已成为学术领域不可或缺的工具。

早期的论文推荐方法主要为基于内容的论文推[

4],即根据研究者过去发表、浏览或下载过的论文,为其推荐与历史论文相似的论文,其核心在于构建作者和论文画像,常用的数据为论文文本内容,如标题、摘要[1]。例如,基于TF-IDF(term frequency-inverse document frequency[17]、LDA(latent Dirichlet allocation[18]等模型学习论文摘要的文本向量表示,然后,计算作者偏好表示和待推荐论文表示之间的相似度分数并进行论文推荐。

随后,基于协同过滤的推荐方法被引入论文推荐领域,研究者们将作者对论文的引用信息类比为用户-项目评分矩阵,提出了基于协同过滤的论文推荐方法。文献[

7]使用论文文本信息学习文本表示,基于协同过滤来识别潜在的引用论文并进行论文推荐。文献[19]采用关联挖掘技术获取论文表示,基于协同过滤来计算论文间的相似度并进行论文推荐。

为了进一步利用学术数据中的结构信息,研究者们将论文推荐问题建模为引文图挖掘问[

20]。文献[10]构建了多层次的引文关系图,不仅学习直接引用论文的表示,也学习多层间接引用的论文表示,使得结构和语义关系的表示更为完整。文献[13]则是将内容信息与图结构信息融合,在学习引文图结构表示的同时,学习论文文本的表示,利用混合推荐的思想进一步提高了论文推荐的准确度。文献[21]提出了一种基于深度学习的混合论文推荐方法。该方法结合文档相似度、层次聚类和关键词提取来学习作者和论文的表示,并进行论文推荐。

由于论文推荐场景下存在如作者、论文、会议等多种实体及发表、引用等多种关系,因此,为了充分利用语义丰富的多源辅助信息,基于异质图表示学习的论文推荐方法受到了关[

11]。文献[12]提出了一种基于异质图的论文推荐方法,该方法基于元结构概念对作者与论文节点间的语义关系进行建模。实验结果表明,该方法有效缓解了论文推荐中存在的数据稀疏性问题。文献[22]提出利用随机游走来获取异质学术图中的论文节点序列,然后基于skip-gram模型学习节点嵌入,并用于下游的学术推荐任务。文献[13]先学习不同语义下用户和论文的多样化特征,然后融合不同语义特征并使用三维图卷积神经网络充分挖掘不同特征对性能的影响,最后改进贝叶斯个性化排序损失函数进行论文推荐。针对冷启动问题,文献[9]提出了一种基于社交网络的论文推荐方法,使用随机游走遍历马尔可夫链的方法,在异质学术社交网络中结合用户的社交互动以及论文的主题相关性为用户推荐论文。然而,相较于语义丰富的学术数据,社交数据的获取则相对困难。

总之,基于异质图的论文推荐方法能够对多源辅助信息进行建模,有效缓解数据稀疏性问题及冷启动问题,提高了论文推荐的准确度。然而,这些方法大多直接利用随机游走采样节点进行预测,没有区分不同类型的元路径和节点的重要性,导致异质学术图中语义信息的表示不够准确,从而影响论文推荐性能。

1.2 可解释推荐研究

当前,可解释推荐研究主要聚焦于商品推[

14]、电影推[15]等领域,分为基于文本生成的可解释推荐和基于模型的可解释推荐,旨在为推荐结果提供可信度高、说服力强的解释说[23]

基于文本生成的可解释推荐在得到推荐结果后,生成文本对结果进行解释,如简单的“与您相似的用户点击过该物品”或复杂的“该物品质量很好,价格很划算”。生成文本解释的方法有两种:基于模板的文本生成和基于自然语言的文本生成。基于模板的方法是先定义一些解释的句子模板,然后利用不同的单词填充模板。例如,文献[

16]提供了基于特征词和意见词模板的解释,其表现形式为“推荐给您这个餐馆,它的装饰很[漂亮][好][完美],它的食物是[烧烤的][素食的][甜的]”。文献[24]使用回归树来提取特征词,并使用学习到的树结构来解释建议,比如,“我们向您推荐这个项目,因为它的[味道优秀]特性与您的[看重味道]相匹配”。基于自然语言的生成方法则是生成易于理解的句子来解释推荐结果。例如,文献[25]使用改进后的Att2Seq(attribute-to-sequence)模型,结合用户、产品以及用户对产品的评分和评论信息生成推荐和推荐解释。

基于模型的可解释推荐旨在从建模角度设计可解释的模型,以增加推荐过程的透明度。文献[

26]提出了一种联合张量因子分解模型,利用用户、项目和特征的三方张量建模,通过特征级别的情绪分析描述用户对单个项目特征的偏好,从而给出推荐和解释。文献[27]提出了以用户为中心的路径推理网络(usercentric path reasoning network,UCPR),不断地从用户需求的角度指导搜索并实现可解释的推荐。文献[28]先构建异构图,然后进行随机游走,产生特定于元路径交互关系的推荐结果,使得推荐结果具备解释性。相较于张量分解等方法,基于异质图的方法依赖于其清晰的元路径分布,在推荐可解释性方面具备较大优势,更容易建模与实现。

上述研究均依赖于各个推荐场景下的文本评论数据,然而,在论文推荐领域缺乏显式的评论数据以供生成文本解释。因此,如何在论文推荐场景下生成高质量且能准确反映项目特性的解释句子成为一种挑战。

2 相关定义

异质学术图中包含多种类型的实体(如作者、论文、期刊等)以及关系(如撰写、发表、包含等)。本文首先介绍异质图的相关概念和定义。

定义1.  异质[

29]:给定图G=V,E,其中VE分别表示节点集合和边集合。如果存在一个节点类型的映射Ψ()和一个边类型的映射φ()分别将节点和边映射成一个具体的类型,映射的公式定义为Ψ(v)𝒯(vV)φ(e)(eE)𝒯+>2,则G是一个异质图。

定义2.  网络模[

29]:对于一个异质图G=(V,E,Ψ,φ),其网络模式是一个以T中的点类型为点、以R中的边类型为边的有向图。异质图的网络模式对多种点类型与边类型的连接情况进行了概括,网络模式中的一条边可能代表了一对一、一对多等关系。

图2a表示的是异质学术图的网络模式,图中的A、P、V和T分别表示节点的对象类型,即作者、论文、期刊以及术语。另外,对于目标类型A到目标类型P的关系类型R表示为ARP,其中,A和P分别为关系R的源对象类型和目标对象类型。

fig

图2  异质学术图相关概念示意图

定义3.  元路[

29]:元路径是指在异质图中,依赖于网络模式,由不同节点类型T经由不同关系类型R连接而成的关系序列。

图2b描述的是异质学术图中的元路径APVP、APAP及APTP,分别表示“某作者撰写的论文与另一篇论文发表在同一个刊物上”“某作者撰写的论文的合作者发表的其他论文”以及“某作者发表论文与另一篇论文包含相同的术语”。

值得说明的是,元路径是一种描述不同类型节点间语义关联的抽象模式,而元路径实例则指的是不同元路径下具体的路径序列。例如,在图2c中,a1p2v1p1表示的是元路径APVP下的一条元路径实例,a1p4t1p1是元路径APTP下的一条元路径实例。其中,元路径实例所对应的序列为a1,p2,v1,p1a1,p4,t1,p1,序列中相邻的任意两个节点互为邻居节点。

3 基于异质图表示学习的可解释论文推荐

图3描述的是本文提出的论文推荐方法EPRec的总体框架,包括基于异质图表示学习与注意力机制的论文推荐模块和基于特征的文本解释生成模块。

fig

图3  EPRec模型框架图

基于异质图表示学习与注意力机制的论文推荐模块包含以下步骤:第一步,构建异质学术图,并根据推荐任务指定元路径;第二步,在异质图中通过随机游走获取不同元路径下的元路径实例,利用融合注意力机制的LSTM(long short-term memory)模型学习作者和论文节点在所有元路径实例下的交互表示;第三步,将目标节点表示和交互表示拼接,并利用MLP(multilayer perceptron)模型对推荐结果进行预测。

基于特征的文本解释生成模块包含以下步骤:第一步,构建引文评论文档;第二步,使用点互信息方法(pointwise mutual information,PMI)提取引文评论文档包含的高频词作为特征;第三步,将作者和论文表示编码后,使用GFRU(gated fusion recurrent unit)模型解码完成解释文本的生成。

3.1 构建异质学术图

本节按照图2a所示的网络模式构建异质学术图,并定义了如图2b所示的三种元路径。在异质学术图中,作者、论文、期刊以及术语这些实体节点的初始节点表示均通过随机初始化获得。

3.2 基于元路径的节点交互表示学习

本文旨在为作者推荐相关论文。首先,建模时选择起始节点为作者节点、终止节点为论文节点的元路径,如图2b所示。其次,从作者节点出发,按照不同元路径对异质学术图进行随机游[

11],得到多条元路径实例对应的节点序列。

为了更好地建模序列信息,使用融合了注意力机制的LSTM模[

30]计算同一种元路径下元路径实例节点序列中不同类型节点间的关系权重,以区分不同邻居节点的重要性。

具体来说,随机游走得到的某条元路径实例节点序列的初始嵌入为xk,11,xk,22,,xk,tn。其中,k表示元路径的类别;t1,2,,L代表时间步,即当前节点是元路径实例节点序列中的第几个节点,其最大值为元路径的长度LnN表示当前节点是前一时间步下节点的第n个邻居节点,N表示时间步t下邻居节点的数量。

图4所示,给定元路径APTP,存在四条元路径实例,其对应的节点序列分别是a1,p4,t1,p1a1,p5,t1,p1a1,p5,t2,p1a1,p6,t2,p1。因此,这些节点的初始嵌入表示分别为a1:x1,11p4:x1,21p5:x1,22p6:x1,23t1:x1,31t2:x1,32p1:x1,41。其中,x1,11表示在第1种元路径APTP下的元路径实例节点序列中时间步t=1时,作者节点a1的嵌入表示。从图4中可以看到,作者节点a1有三个邻居节点,其中x1,21表示时间步t=2时,节点a1的第一个邻居节点p4的嵌入表示,其他以此类推。

fig

图4  基于LSTM的APTP元路径实例节点序列表示学习

由于元路径实例节点序列中不同邻居节点的重要性不同,因此,需要引入注意力机制来学习其权重,以区分更为重要的邻居节点。具体实现为,计算在时间步t,前一节点的隐层状态ht-1与其当前每个邻居节点的嵌入之间的相似性。例如,在图4中,t=2时可看成作者节点a1的隐层状态h11与邻居论文节点p4p5p6的嵌入x1,21x1,22x1,23之间的相似性,节点的隐层状态由LSTM获得:

zt=σ(Wz[ht-1,xk,tn])rt=σ(Wr[ht-1,xk,tn])h˜t=tanhWrtht-1,xk,tnht=zth˜t+(1-zt)ht-1 (1)

其中,σ是激活函数;tanh是双曲函数;W是可学习的参数;zt表示更新门;rt表示重置门;h˜t表示候选单元状态;ht表示新的隐藏状态;⊙表示Hadamard乘积。

隐层嵌入与邻居节点嵌入之间的注意力权重系数使用点积进行计算:

et,n=ht-1xk,tn (2)

使用Softmax函数正则化该系数,得到最终的权重:

αt,n=exp(et,n)n'=1Nexp(et,n') (3)

图4所示,对当前元路径类型下得到的元路径实例节点序列中各个时间步下的所有同类型节点的嵌入进行加权融合:

xk,t'=n=1Nαt,nxk,tn (4)

其中,xk,tn是元路径实例节点序列中节点的表示。将各个时间步tt=1,2,3,4)下的xk,t'输入LSTM模型,并将其隐层状态拼接,得到第k种元路径下作者节点a和论文节点p间的元路径实例的交互表示:

ca,pk=hk(1)||||hk(t)k=1,2,3,,m (5)

其中,||是连接操作;m表示元路径种类数。

由于在进行作者和论文节点间交互表示学习时,不同元路径的重要性亦不同,因此,通过引入路径级注意力机[

22]对不同类型元路径下的元路径实例表示进行加权融合,来获得作者节点与论文节点之间更为精准的个性化交互表示。

具体来说,给定作者嵌入表示za、论文嵌入表示zp和第k种元路径下的元路径实例的嵌入表示ca,pk,利用Softmax函数来计算该种元路径的注意力权重αa,p,c,将其用于区分不同类型的元路径对作者和论文节点间交互表示的影响:

αa,p,c=exp(fp(za,ca,pk,zp))k'=1|m|exp(fp(za,ca,pk',zp)) (6)

其中,fp()是一个前馈神经网络用来计算相似度。最后,将不同类型元路径的表示进行加权融合得到作者-论文交互表示:

ca,p=k=1|m|αa,p,cca,pk  (7)

3.3 论文推荐

将作者嵌入za、论文嵌入zp和交互嵌入ca,p融合成统一表示,并使用MLP模[

28]实现推荐结果预测:

r^a,p=MLP(zaca,pzp) (8)

最后,使用负采样技[

11]来学习模型的参数:

L=-(a,pPos)logr^a,p-(a,pNeg)log(1-r^a,p)=-(a,pAll)ra,plogr^a,p-1-ra,p)log(1-r^a,p) (9)

其中,r^a,p表示预测值;ra,p表示真实值,即如果作者a引用过论文p,那么,ra,p=1;否则,ra,p=0。

3.4 基于特征提取的可解释文本生成

本节为上述得到的推荐结果生成解释文本,分为引文评论文档构建、特征提取和解释文本生成三步。

3.4.1 引文评论文档构建

由于论文推荐场景中缺乏显式的用户文本评论数据,因此,本文将引文信息类比为文本评论信息。具体来说,将作者引用参考文献时的描述语句比作用户对商品的评论数据,而论文被引用时的引文当作商品获得的评论数据。

图5所示,目标作者a1发表了论文p4p5p6,论文p7p8p13p15是其参考文献。本文将论文p4p5p6中对于参考文献的引用文本集合类比为作者a1的引文评论文档Q。同理,对于被推荐的论文p1,论文p10p11p12对其进行了引用。因此,本文将论文p10p11p12对论文p1的引用文本集合类比为论文p1的引文评论文档T

fig

图5  引文评论文档构建示意图

3.4.2  特征提取

在得到作者和论文的引文评论文档后,通过分词及词频统计,筛选出同时在作者引文评论文档Q和论文引文评论文档T中出现频率较高的特征词构成各自的特征集合。然后,基于常用的特征选择技术PMI[

31]在特征集合中选择相关性最高的特征词用于辅助解释文本的生成。

具体地,给定fqft分别为单个特征词,PMI计算公式为

PMI(fq,ft)=logp(fq,ft)p(fq)p(ft)=logp(fq|ft)p(fq) (10)

其中,p(| )表示后验分布概率;p()表示先验分布概率。

从特征集中选择与特征集中所有特征进行PMI计算,将得分最高的特征f^t作为预测的特征,即f^t=argmaxfFtPMI(Fq,f),其中,

PMI(Fq,f)=logp(Fq|f)p(Fq)logfFqp(f'|f)f'Fqp(f')
   =fFqlogp(f'|f)p(f')=f'FqPMI(f',f) (11)

公式(11)中的近似值是基于先验分布和后验分布的独立性假设,特征间的相关性越大,PMI得分越[

31]

3.4.3 解释文本生成

传统的文本生成模型使用递归神经网络(recurrent neural network,RNN[

32]、长短期记忆网络(LSTM[30]或门控循环单元(gated recurrent unit,GRU[33]。由于GRU模型可以解决文本生成任务中的长序列依赖问题,且参数量少,相较于RNN和LSTM能减少过拟合的风险和计算量。因此,本文使用GRU作为基础文本生成模型。然而,直接使用GRU模型生成的解释文本存在可控性、相关性低等问[34],受文献[35]启发,本文采用基于特征的解释生成模型GFRU来增强所生成文本的相关性。

GFRU模型引入了特征模板的概念,用两个GRU模型分别控制文本的生成和特征的加入,最后使用门控融合单元决定两个GRU模型的重要性,以判断下一个词的生成。如图3所示,在基于特征的文本解释生成模块中,从引文评论信息中提取的特征词“BERT”辅助生成了解释文本“The model is BERT”,说明待推荐的论文中涉及“BERT”这个模型。而传统文本生成模型仅仅基于单词出现的概率,往往会为不同的推荐生成相同的解释句子,如“The model is accurate”,这样的文本解释不够具体、准确。

具体来说,在解释生成部分,首先使用MLP模型对目标作者表示za和推荐论文表示zp(此时,zazp为经过推荐任务训练优化后的向量表示)进行编码,以便解码的单词序列可以个性化到不同的作者论文引用对:

h0=tanh(We[za,zp]+be) (12)

其中,Webe是模型参数;tanh为双曲函数。

h0作为生成模型的初始表示,即解码器的初始隐藏状态。其他时间步长的隐藏状态可以通过递归地将第n-1时刻的输出和特征表示输入GFRU来计算:

hn=GFRU(xn-1,hn-1,xf) (13)

图6所示,GFRU模型由三个组件构成:上下文门控循环单元(gated recurrent unit,GRU)、特征GRU以及门控融合单元(gated fusion unit,GFU)。上下文GRU将前一时间步n-1生成的单词表示作为输入;特征GRU则在每个时间步接受给定的特征;GFU融合来自两个GRU的输出得到一个最终的隐藏状态,用于预测下一个单词。

fig

图6  GFRU融合单元

具体来说,对于上下文GRU,设hn-1是前一个时间步的隐藏状态,xn-1是前一个时间步生成的单词表示,则当前时间步的隐藏状态可以表示为hnα=gα(xn-1,hn-1)gα()的计算方式为

znα=σ(Wzα[xn-1,hn-1]+bzα)rnα=σ(Wrα[xn-1,hn-1]+brα)hnα=tanh(Whα[xn-1,rnαhn-1]+bhα)hnα=znαhn-1+(1-znα)h˜nα (14)

其中,Wxαbxα是每一时间步的模型参数;znα表示GRU中的“更新门”;rnα表示GRU中的“重置门”,分别控制有多少过去的信息需要被保留和遗忘;表示Hadamard乘积。

相应地,特征GRU当前时间步的隐藏状态由前一时间步的隐藏状态hn-1和特征单词的表示xf所决定,即htβ=gβ(xf,hn-1)。其具体计算公式与上下文GRU类似,此处不再赘述。

得到上下文GRU和特征GRU在当前时间步的隐藏状态hnαhnβ后,GFU将其融合得到最终的隐藏状态hn,计算公式为

h^nα=tanh(Wαhnα)h^nβ=tanh(Wβhnβ)φ=σ(wk[h^nα,h^nβ])hn=(1-φ)hnα+φhnβ (15)

其中,WαWβ是需要学习的模型参数;φ是控制上下文GRU和特征GRU解码重要性的权重系数,即当φ较小时,当前GFRU的输出主要来自上下文GRU,用于生成一个连贯可读的上下文单词序列,当φ较大时,则依赖于特征GRU在单词序列中加入特征,以提高解释生成过程的可控性。

在时间步n,得到当前的隐藏状态后,将其映射为一个大小为V的向量,其中V是数据集中构建的词汇表,V是词汇表长度。向量中每个元素的值对应词表单词的概率大小,选择概率p最大的索引,带入词表得到输出的单词,即

p(yn|y<n,h0)=Softmaxyn(Wvhn+bv) (16)

其中,Wvbv是模型参数;yn表示当前时间步长预测的单词。

本文采用交叉熵函数来训练解释生成的模块,其计算方法为

Le=1|τ|a,pτ1|Sa,p|n=1|Sa,p|-logp(yn) (17)

其中,Sa,p是作者a引用论文p时真实描述的句子;Sa,p是该真实句子中单词的数量。公式(17)表示将生成错误单词的概率最小化。

4 实验构建

4.1 数据集构建

本文构建的数据集来源于S2ORC[

36]学术论文语料库。S2ORC(The Semantic Scholar Open Research Corpus)是一个包含8 110万篇跨多学科的英语学术论文大型语料库,该语料库由两个部分组成:论文元数据和论文结构化全文。

其中,论文元数据包括论文ID(identity)、作者、摘要等数据。论文结构化全文则保留了整篇论文中有价值的内容,例如,段落中段、章节标题、内联引文以及对其他论文的解析引文链接。本文对论文元数据进行筛选,提取构建学术异质图所需的实体信息:作者、论文和发表场所信息。同时,在对应的结构化全文中,提取文献的引文作为文本评论数据,具体方法如3.4.1节所述。将获取的论文元数据和文本评论数据整合对齐后重新编号以进行后续筛选。

具体来说,首先,选取发表在computer science领域且发表年份不早于2000年的论文。其次,从CCF(China Computer Federation)期刊会议列

中筛选排名靠前的20个期刊、会议,并选取发表在这些学术场所中的论文。最后,去除掉文本质量较差(如正文空缺或包含乱码、引文文本字符数不足10个等)的论文。

对筛选后的论文数据进行分词,并利用TF-IDF方法提取每篇论文的5个高频词形成特征集合,共获得7 529个特征,特征集合中的高频词在推荐部分被作为构建异质图的术语节点T,并且在解释部分利用PMI方法选择相关性最大的高频特征词辅助解释生成。

本文的任务旨在给作者推荐感兴趣的论文,需要保证元路径首尾分别为作者节点类型A和论文节点类型P。由于过长的元路径会存在噪声数据增加计算量,因此,本文选取元路径集{APVP,APAP,APTP}来获取异质学术图中的元路径实例,该元路径长度为4。此外,由于元路径实例数量过多会增加计算[

28],本文对元路径实例进行了筛选,即计算一个路径实例上两个相邻节点间的相似度,并对这些相似度进行平均,以便对候选元路径实例进行相关性排序。最后,对于每种元路径,只保留平均相似度较高的元路径实例。本文构建数据集的统计结果如表1表2所示。

表1  节点数据统计
节点类型数量
作者 13 215
论文 18 641
术语 7 529
发表场所 20
表2  边数据统计
边类型数量
A-P/P-A 37 224
P-V/V-P 18 641
P-T/T-P 21 683
P-P 172 025

4.2 对比实验设计

本文提出的EPRec模型分为推荐和解释两个模块,因此,从推荐和解释两个方面设计对比实验。

EPRec:本文提出的可解释论文推荐方法。该方法基于融合注意力机制的异质图表示学习方法来进行推荐。同时,利用GFRU模型为推荐结果生成文本解释。

针对推荐任务的对比模型阐述如下。

(1)BPR(Bayesian personalized ranking[

37]:是一种面向排序推荐的通用模型,在实验中,基于作者和论文间的交互关系进行推荐排序建模。

(2)metapath2vec[

11]:是一种面向异质图元路径的随机游走模型,用来学习异质图中节点的嵌入,并将嵌入用于论文推荐任务。本文使用该模型来学习作者、论文节点表示,并实现论文推荐。

(3)MCRec(metapath based context for recommendation[

28]:是一种考虑了元路径重要性差异的推荐模型,利用CNN(convolutional neural networks)模型来学习异质图中的元路径实例表示,并使用神经共注意模型区分路径重要性以得到更准确的交互表示。本文将该模型用于论文推荐场景。

(4)BERT-GCN[

7]:是一种将文本表示和图结构表示相结合的推荐模型。实验中,利用BERT(bidirectional encoder representations from transformers)模型来学习论文的文本表示,利用图卷积神经网络模型GCN(graph convolutional network)来学习引文的结构表示,并将两者结合起来作为论文的嵌入表示。同时,将作者发表论文的嵌入表示组成作者的嵌入表示。最后,对作者和论文嵌入表示进行相似度计算以完成论文推荐。

(5)SHARE(systematic hidden attribute-based recommendation engine[

21]:是一种基于深度学习的混合论文推荐方法。该方法结合文档相似度、层次聚类和关键词提取来学习作者和论文的表示,并进行论文推荐。

(6)EPRec-nonAtt:是EPRec模型的消融模型,该模型基于异质图表示学习进行推荐而忽略了注意力机制,即在学习作者、论文节点的嵌入表示时,不考虑不同类型邻居节点、元路径的影响。

文本解释模块的对比模型阐述如下。

(1)AttSeq2Seq[

38]:是一种融合了LSTM和注意力机制的文本生成模型,使用两个LSTM进行编码解码,并添加注意力机制动态处理解码过程。

(2)NRT(neural template explanations[

24]:该模型通过神经网络提取主题词,然后结合GRU模型生成摘要型解释。

(3)PGN(pointer-generator networks[

34]:是一个指针生成网络模型,除了直接生成单词外,还可以从原文中复制词表未包含的单词到生成的文本中,以生成更完整的句子。

(4)EPRec-GRU:EPRec模型的消融模型,在解释生成时去掉特征GRU单元和融合单元,仅使用上下文GRU单元完成解释生成,以验证引入特征对提高文本生成质量的重要性。

4.3  评价指标设计

在评测模型的推荐性能时,本文采用Top-N排序推荐任务中广泛使用的精确率(precision)、召回率(recall)以及NDCG(normalized discount cumulative gain)作为评估指标。

precision表示预测结果为正例的样本中实际为正样本的比例,其定义为

precision@N=1Ni=1Nri (18)

其中,N表示推荐列表里论文的总数量;ri表示推荐结果列表中第i个结果是否被推荐,若是,则ri=1,否则,ri=0。

recall表示预测结果为正的样本中实际正样本数量占全样本中正样本的比例,其定义为

recall@N=1Di=1Nri (19)

其中,D表示全样本中正样本的数量。

值得说明的是,由于数据集中仅包含作者对论文的引用信息,不包含点击、浏览、收藏等其他表示用户兴趣的数据。因此,在实验过程中,正样本来自目标作者引用的论文集合,负样本来自随机选取的没有被该作者引用的其他论文。

NDCG是一种用于评估推荐系统中排序准确性的指标,特别用于度量推荐列表中项目的排序质量,它考虑了每个项目的感兴趣程度及其在推荐列表中的位置,具体计算公式为

NDCG@N=DCG@NIDCG@N=i=1N2r^a,p-1log2(i+1)i=1RELNr^a,plog2(i+1) (20)

其中,DCG@N表示在推荐列表的前N个项目中计算得到的折损累计增益;IDCG@N表示在理想排序下,在推荐列表的前N个项目中计算得到的折损累计增益;RELN表示按分数从大到小排序(按照最优的方式对结果进行排序)后,取前N个结果组成的集合。

对于可解释模块,本文采用BLEU(bilingual evaluation understudy[

39]和ROUGE(recall-oriented understudy for gisting evaluation[40]来评估生成的文本解释的质量。其中,BLEU用于统计在生成文本中有多少单词是正确的,其计算公式为

BLEU=gramnCCountclip(gramn)gramnCCount(gramn) (21)

其中,C表示生成的文本;gramnCCount(gramn)表示在生成的文本中N-gram的个数;gramnCCountclip(gramn)表示生成的文本中正确的N-gram的个数。

ROUGE用于统计真实文本中有多少单词被模型所生成,其计算公式为

ROUGE=gramnSCountmatch(gramn)gramnSCount(gramn) (22)

其中,S表示真实文本;gramnSCount(gramn)表示在真实文本中N-gram的个数;gramnSCountmatch(gramn)表示真实文本与生成文本共有的N-gram个数。

4.4 实验参数设置

在推荐模块中,本文设置模型学习率为0.001,节点向量嵌入维数为64,正则化系数为0.000 1,对于元路径,采样元路径的最大长度为4。

在解释模块,本文设置GRU的隐层维数为128,学习率为0.000 1,并在引文评论文档的高频词集合中选择前20 000个出现频率较大的单词作为训练文本生成的词汇表V。当生成的句子长度较长时,呈现过多的信息可能会造成用户的视觉压力。因此,在实验中,生成的文本句子的平均长度为30。

5 实验结果分析

5.1 结果分析

5.1.1 推荐结果分析

表3描述的是本文提出的EPRec模型的论文推荐模块和其他论文推荐方法的对比实验结果。从表3中可以发现,传统的推荐算法BPR的效果相对较差,该模型通过学习作者、论文潜在特征向量来挖掘二者之间的交互关系。然而,简单的矩阵分解不能学习作者和论文之间复杂的语义关联,使得模型无法充分利用多源辅助信息,影响了推荐的性能。

表3  推荐准确度对比实验结果
模型precision@10recall@10NDCG@10
BPR 0.167 0 0.288 5 0.503 1
BERT-GCN 0.205 1 0.339 7 0.550 2
metapath2vec 0.219 0 0.343 1 0.552 6
MCRec 0.236 2 0.473 0 0.569 8
SHARE 0.257 9 0.490 1 0.603 3
EPRec-nonAtt 0.230 7 0.471 9 0.559 9
EPRec 0.263 4 0.491 9 0.614 5

注:   粗体表示指标的最优值。

BERT-GCN提出了一种将文本表示和引文同质图表示相结合的论文推荐方法,由表3可知,BERT-GCN在准确率、召回率等指标上的表现均优于传统推荐方法,这是因为该方法能够综合考虑文本信息和引文信息,从而能较为全面地利用论文之间的语义关系和结构关系提供更为精准的推荐。

metapath2vec提出了一种面向异质图的节点嵌入表示方法,相较于同质图,用异质图对论文推荐问题建模能够包含更为丰富的推荐辅助信息,有效缓解了数据稀疏性问题,进一步提高了论文推荐的性能。

MCRec在metapath2vec的基础上,进一步考虑了节点间边的关系,使得推荐准确度得到了进一步提升。MCRec引入了路径交互信息,使用CNN模型学习元路径实例表示,并使用注意力机制区分了不同类型元路径实例表示的重要性。

SHARE作为混合推荐的方法在所有比较方法中获得了较好的性能,它结合了文档相似度、层次聚类和关键字提取的方法,相较于使用简单结构关系的模型,其学习到的表示更为准确。

本文提出的EPRec模型在MCRec模型的基础上进一步考虑了不同元路径的重要性及其所对应的元路径实例序列中不同节点的重要性,对异质学术图中的语义信息进行更为精准的建模。因此,EPRec在precision指标上与BPR、BERT-GCN和metapath2vec相比分别提升了57.72%、28.43%与20.27%。相较于基于元路径的推荐模型MCRec,推荐性能提升了11.52%。相较于混合论文推荐模型SHARE,推荐准确度也有所提升。EPRec-nonAtt消融模型由于忽略了节点表示学习过程中不同类型邻居节点及不同元路径的影响,预测准确度相对较差。

上述对比实验结果表明,基于异质图表示学习的推荐方法相较于传统推荐方法,能够有效利用多源辅助信息缓解数据稀疏性问题。同时,在异质学术图中,融入注意力机制来学习作者与论文节点之间面向元路径实例的交互表示能够提高表示学习的准确度,从而进一步提升推荐性能。

此外,对本文提出的模型EPRec在precision@NN=5,10,20)上的实验结果进行了比较,其准确度分别为0.182 5、0.263 4和0.218 7。因此,本实验将N值设置为10。

5.1.2 解释结果分析

表4描述的是EPRec模型的解释模块和其他比较模型的对比实验结果。

表4  文本解释生成对比实验结果
模型BLEUROUGE-1ROUGE-2
AttSeq2Seq 0.459 6 0.496 7 0.293 7
NRT 0.576 0 0.629 1 0.514 7
PGN 0.668 5 0.720 4 0.593 8
EPRec-GRU 0.437 9 0.461 2 0.287 9
EPRec 0.838 5 0.841 9 0.786 6

注:   粗体表示指标的最优值。

AttSeq2Seq模型是被广泛使用的编码器-解码器模型,编码器和解码器模块均使用LSTM,同时使用注意力机制进一步辅助文本生成。该模型在单词表足够大的情况下能够生成流畅的句子,但是,单词表过大会造成计算负担,降低效率。当单词表较小时,会导致模型无法填补空缺词,使得生成的解释文本不完整。

PGN模型在AttSeq2Seq的基础上进行了改进,既能够通过编码器解码器生成单词,又能够从原文中复制单词表没有覆盖的单词,解决了空缺词的问题,可以生成清晰、完整的解释句子。但没有特征词的引导,生成的句子相关度不够高,容易生成重复句子。

NRT模型则选择LSTM模型的变体GRU模型作为主要单元,该模型将解释生成转换成归纳问题,将作者和论文的引文评论文档作为输入,然后进行摘要总结,生成简短的句子作为解释。简短的解释同样可以避免出现空缺词,但是无法完整反映被推荐论文的整体思想。

本文提出的模型EPRec通过引入特征GRU模块解决了空缺词问题,生成的句子更加流畅,同时特征词的引入使其相较于传统文本生成模型在生成的结果上更具有多样性和相关性,因此,该模型在BLEU和ROUGE两个指标上均表现最好,与对比实验中效果最好的PGN模型相比,EPRec在BLEU和ROUGE-1两个指标上分别提升了25.43%和16.87%。而去除特征GRU单元的消融模型EPRec-GRU由于仅使用上下文GRU单元递归地生成解释文本,其实验结果最差,进一步证明了特征的加入对解释文本的生成效果的影响。

5.2 案例分析

本节通过具体的案例分析对EPRec的推荐模块和文本解释生成模块的具体内容进行说明。

在推荐模块中,假设为作者a3058推荐论文p299,基于注意力机制学习得到的APVP、APAP和APTP元路径的权重分别为33.0%、19.0%和48.0%(图7)。这意味着该作者对与自己的研究主题相关的论文更感兴趣,而对其合作者发表的其他论文的兴趣不大。

fig

图7  不同元路径的注意力分布

以元路径APTP为例,图8描述的是其所对应的元路径实例的邻边注意力权重分布。对于节点a3058,由邻边注意力权重可知,节点p6019是最重要的邻居,节点t:translation是p6019最重要的邻居。这说明在为作者a3058推荐论文p299时,术语“translation”比“NLP”对推荐结果的影响更大。

fig

图8  APTP元路径实例的注意力权重分布

表5描述的是为作者a3058推荐论文p229时,不同比较方法生成的推荐解释文本。可以看出,基线模型AttSeq2Seq、NRT和PGN生成的解释文本均比较笼统,而本文提出的EPRec模型基于特征“translation”生成的文本解释更全面且可解释性更高。

表5  解释文本生成案例分析
模型论文推荐解释文本生成示例
AttSeq2Seq We are able to design efficient neural models including tasks.
NRT The models including tasks.
PGN Our system used neural models, including social media and texts translation tasks.
EPRec

translation

This allows us to design effective neural models over large vocabularies in computer vision and natural language processing tasks, including social media and texts translation tasks.

总之,本文提出的论文推荐方法能够在为目标作者提供论文推荐列表之时提供推荐的文本解释,如表5所示,明确告知所推荐论文的研究内容与计算机视觉及自然语言处理相关,且聚焦于在翻译任务等场景下设计有效的神经网络模型,由此能够辅助作者判断该论文是否与其研究兴趣相关,快速做出是否阅读或参考该论文的决定。

5.3 注意力机制分析

本文提出的EPRec模型在聚合路径实例的表示时采用了软注意力机制。本节对基于不同注意力聚合机制的推荐结果进行分析。

图9描述了使用不同注意力机制类别时的推荐效果。其中,rand表示在聚合时随机选择邻居节点,avg则给每个邻居节点分配同样的平均权重,hard只选择权重最高的邻居节点,soft通过权重分布加权融合邻居节点。实验结果显示,avg和soft相对于其他两种方法效果更好,这是因为聚合多个邻居节点的表示相较于选择单一邻居节点能够更加充分地探索交互表示。相较于avg,soft注意力机制给不同邻居节点分配了不同的权重,能区分不同邻居节点的影响,使得表示学习和推荐结果更加准确。

fig

图9  不同注意力机制的比较

5.4 参数分析

图10描述的是EPRec在不同模型学习率下训练得到的推荐结果。可以看出,当学习率为0.001时,召回率达到了最大值,模型表现最佳。

fig

图10  不同学习率对推荐结果的影响

6 结 语

为了缓解学术大数据中的信息过载问题,本文提出了一种融合异质图表示学习与注意力机制的可解释论文推荐方法,该方法能够在为用户提供论文推荐的同时明确告知用户推荐的缘由,在保证推荐准确度的同时有效提高了论文推荐系统的可解释性。本文的主要贡献包括:①提出了一种融合注意力机制与异质图表示学习的论文推荐模型,基于异质图对语义丰富的学术数据进行建模,利用注意力机制对异质学术图中的元路径权重及元路径实例表示进行学习。实验结果表明,本文提出的推荐方法能够有效提高推荐结果的准确度。②将文本解释生成方法引入论文推荐领域,提出了一种基于特征的文本解释生成模型。通过挖掘作者和论文共同关注的重要特征,并将其引入门控循环神经网络来辅助生成个性化的解释句子,从而有效提高论文推荐系统的可解释性,提高用户满意度。③通过将引文信息类比为评论信息,构建了一个包含多种类型节点、多种类型边及引文评论文档的数据集,结合多个评价指标和案例分析,验证了本文模型的有效性。

本文也存在一定的不足之处。在推荐模块中,本文仅考虑了给定的元路径类型,未来将继续探索如何自动挖掘包含语义更为丰富的元路径。同时,当前的论文推荐系统忽略了时间等因素,然而,学术图时刻处于动态变化中,如何在异质学术图中引入时间等动态因素也是未来研究的重点。此外,本文提出的可解释论文推荐系统能否被扩展应用到其他学术推荐领域,如合作者推荐、学术场所推荐等,这也是未来研究的重要方向。

参 考 文 献

1

Jannach D, Zanker M, Felfernig A, et al. Recommender systems: an introduction[M]. Cambridge: Cambridge University Press, 2010. [百度学术] 

2

Bai X M, Wang M Y, Lee I, et al. Scientific paper recommendation: a survey[J]. IEEE Access, 2019, 7: 9324-9339. [百度学术] 

3

Ma S T, Zhang C Z, Liu X Z. A review of citation recommendation: from textual content to enriched context[J]. Scientometrics, 2020, 122(3): 1445-1472. [百度学术] 

4

Sugiyama K, Kan M Y. Exploiting potential citation papers in scholarly paper recommendation[C]// Proceedings of the 13th ACM/IEEE-CS Joint Conference on Digital Libraries. New York: ACM Press, 2013: 153-162. [百度学术] 

5

杨辰, 郑若桢, 王楚涵, . 集成因子分解机及其在论文推荐中的应用研究[J]. 数据分析与知识发现, 2023, 7(8): 128-137. [百度学术] 

6

Lu Y B, He Y, Cai Y X, et al. Time-aware neural collaborative filtering with multi-dimensional features on academic paper recommendation[C]// Proceedings of the 2021 IEEE 24th International Conference on Computer Supported Cooperative Work in Design. Piscataway: IEEE, 2021: 1052-1057. [百度学术] 

7

Jeong C, Jang S, Park E, et al. A context-aware citation recommendation model with BERT and graph convolutional networks[J]. Scientometrics, 2020, 124(3): 1907-1922. [百度学术] 

8

Shi H, Ma W, Zhang X L, et al. A hybrid paper recommendation method by using heterogeneous graph and metadata[C]// Proceedings of the 2020 International Joint Conference on Neural Networks. Piscataway: IEEE, 2020: 1-8. [百度学术] 

9

Manju G, Abhinaya P, Hemalatha M R, et al. Cold start problem alleviation in a research paper recommendation system using the random walk approach on a heterogeneous user-paper graph[J]. International Journal of Intelligent Information Technologies, 2020, 16(2): 24-48. [百度学术] 

10

Son J, Kim S B. Academic paper recommender system using multilevel simultaneous citation networks[J]. Decision Support Systems, 2018, 105: 24-33. [百度学术] 

11

Dong Y X, Chawla N V, Swami A. metapath2vec: scalable representation learning for heterogeneous networks[C]// Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2017: 135-144. [百度学术] 

12

Ma X, Zhang Y, Zeng J F. Newly published scientific papers recommendation in heterogeneous information networks[J]. Mobile Networks and Applications, 2019, 24(1): 69-79. [百度学术] 

13

吴俊超, 刘柏嵩, 沈小烽, . 卷积融合文本和异质信息网络的学术论文推荐算法[J]. 计算机应用研究, 2022, 39(5): 1330-1336. [百度学术] 

14

Ye L, Yang Y, Zeng J X. An interpretable mechanism for personalized recommendation based on cross feature[J]. Journal of Intelligent & Fuzzy Systems, 2021, 40(5): 9787-9798. [百度学术] 

15

Zhang Y F, Chen X. Explainable recommendation: a survey and new perspectives[J]. Foundations and Trends® in Information Retrieval, 2020, 14(1): 1-101. [百度学术] 

16

Wang N, Wang H N, Jia Y L, et al. Explainable recommendation via multi-task learning in opinionated text data[C]// Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM Press, 2018: 165-174. [百度学术] 

17

Sparck Jones K, Walker S, Robertson S E. A probabilistic model of information retrieval: development and comparative experiments: Part 2[J]. Information Processing & Management, 2000, 36(6): 809-840. [百度学术] 

18

李晓敏, 王昊, 李跃艳. 基于细粒度语义实体的学术论文推荐研究[J]. 情报科学, 2022, 40(4): 156-165. [百度学术] 

19

Liu H F, Kong X J, Bai X M, et al. Context-based collaborative filtering for citation recommendation[J]. IEEE Access, 2015, 3: 1695-1703. [百度学术] 

20

Jiang C, Ma X, Zeng J F, et al. TAPRec: time-aware paper recommendation via the modeling of researchers’ dynamic preferences[J]. Scientometrics, 2023, 128(6): 3453-3471. [百度学术] 

21

Chaudhuri A, Sarma M, Samanta D. SHARE: designing multiple criteria-based personalized research paper recommendation system[J]. Information Sciences, 2022, 617: 41-64. [百度学术] 

22

Ma X, Deng Q M, Ye Y, et al. Attention based collaborator recommendation in heterogeneous academic networks[C]// Proceedings of the 2022 IEEE 25th International Conference on Computational Science and Engineering. Piscataway: IEEE, 2022: 51-58. [百度学术] 

23

Zhang Y F, Lai G K, Zhang M, et al. Explicit factor models for explainable recommendation based on phrase-level sentiment analysis[C]// Proceedings of the 37th International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM Press, 2014: 83-92. [百度学术] 

24

Li P J, Wang Z H, Ren Z C, et al. Neural rating regression with abstractive tips generation for recommendation[C]// Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2017: 345-354. [百度学术] 

25

Dong L, Huang S H, Wei F R, et al. Learning to generate product reviews from attributes[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2017: 623-632. [百度学术] 

26

Tao Y Y, Jia Y L, Wang N, et al. The FacT: taming latent factor models for explainability with factorization trees[C]// Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2019: 295-304. [百度学术] 

27

Tai C Y, Huang L Y, Huang C K, et al. User-centric path reasoning towards explainable recommendation[C]// Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2021: 879-889. [百度学术] 

28

Hu B B, Shi C, Zhao W X, et al. Leveraging meta-path based context for top- N recommendation with A neural co-attention model[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 1531-1540. [百度学术] 

29

乔连鹏, 侯会文, 王国仁. 属性公平的异质信息网络上的社区搜索算法[J]. 软件学报, 2023, 34(3): 1277-1291. [百度学术] 

30

Wang X, Wang Y, Ling Y Z. Attention-guide walk model in heterogeneous information network for multi-style recommendation explanation[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(4): 6275-6282. [百度学术] 

31

Mou L L, Song Y P, Yan R, et al. Sequence to backward and forward sequences: a content-introducing approach to generative short-text conversation[C]// Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. The COLING 2016 Organizing Committee, 2016: 3349-3358. [百度学术] 

32

Zaremba W, Sutskever I, Vinyals O. Recurrent neural network regularization[OL]. (2015-02-19). http://arxiv.org/pdf/1409.2329. [百度学术] 

33

Cho K, van Merriënboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2014: 1724-1734. [百度学术] 

34

See A, Liu P J, Manning C D. Get to the point: summarization with pointer-generator networks[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2017: 1073-1083. [百度学术] 

35

Li L, Zhang Y F, Chen L. Generate neural template explanations for recommendation[C]// Proceedings of the 29th ACM International Conference on Information & Knowledge Management. New York: ACM Press, 2020: 755-764. [百度学术] 

36

Lo K, Wang L L, Neumann M, et al. S2ORC: the semantic scholar open research corpus[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2020: 4969-4983. [百度学术] 

37

Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C]// Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence. Arlington: AUAI Press, 2009: 452-461. [百度学术] 

38

Bahdanau D, Cho K H, Bengio Y. Neural machine translation by jointly learning to align and translate[OL]. (2016-05-19). https://arxiv.org/pdf/1409.0473. [百度学术] 

39

Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation[C]// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2002: 311-318. [百度学术] 

40

Lin C Y. ROUGE: a package for automatic evaluation of summaries[C]// Proceedings of Workshop on Text Summarization Branches Out, Post-Conference Workshop of ACL 2004. Stroudsburg: Association for Computational Linguistics, 2004: 74-81. [百度学术] 

责任编辑 冯家琪) [百度学术]