en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
NouvelD, EhrmannM, RossetS. Named entities for computational linguistics[M]. New York: John Wiley & Sons, Inc., 2016: 153-156.
参考文献 2
HughesK, NothmanJ, CurranJ R. Trading accuracy for faster named entity linking[C]// Proceedings of the Australasian Language Technology Association Workshop. Penrith: Western Sydney University, 2014: 32-40.
参考文献 3
ZhangW, SuJ, TanC L, et al. Entity linking leveraging: automatically generated annotation[C]// Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2010: 1290-1298.
参考文献 4
AnastácioI, MartinsB, CaladoP. Supervised learning for linking named entities to knowledge base entries[C]// Proceedings of TAC. Gaithersburg: NIST, 2011: 1-12.
参考文献 5
McNameeP, MayfieldJ, LawrieD, et al. Cross-language entity linking[C]// Proceedings of the 5th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2011: 255-263.
参考文献 6
Francis-LandauM, DurrettG, KleinD. Capturing semantic similarity for entity linking with convolutional neural networks[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2016: 1256-1261.
参考文献 7
SunY, LinL, TangD, et al. Modeling mention, context and entity with neural networks for entity disambiguation[C]// Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence. California: IJCAI, 2015: 1333-1339.
参考文献 8
HanX, SunL, ZhaoJ. Collective entity linking in web text: a graph-based method[C]// Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2011: 765-774.
参考文献 9
HoffartJ, YosefM A, BordinoI, et al. Robust disambiguation of named entities in text[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2011: 782-792.
参考文献 10
FrontiniF, BrandoC, GanasciaJ G. Semantic Web based named entity linking for digital humanities and heritage texts[C]// Proceedings of the First International Workshop Semantic Web for Scientific Heritage at the 12th ESWC 2015 Conference. Berlin: Springer, 2015: 77-88.
参考文献 11
GuoY, CheW, LiuT, et al. A graph-based method for entity linking[C]// Proceedings of 5th International Joint Conference on NLP. California: IJCAI, 2011: 1010-1018.
参考文献 12
GuoZ, BarbosaD. Robust entity linking via random walks[C]// Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. New York: ACM Press, 2014: 499-508.
参考文献 13
RaoD, McNameeP, DredzeM. Entity linking: Finding extracted entities in a knowledge base[M]// Multi-source, Multilingual Information Extraction and Summarization. Berlin: Springer, 2013: 93-115.
参考文献 14
CheW, LiZ, LiuT. LTP: A Chinese language technology platform[C]// Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2010: 13-16.
参考文献 15
黄惠贤, 赵泽轩. 二十五史人名大辞典电子版[EB/OL]. [2018-03-10]. http://mall.cnki.net/reference/detail_R200610137.html.
参考文献 16
史为乐, 邓自欣, 朱玲玲. 中国历史地名大辞典电子版[EB/OL]. [2018-03-10]. http://mall.cnki.net/reference/detail_R200606116.html.
参考文献 17
HIT-SCIR. LTP词性标注集[EB/OL]. [2018-02-05]. http://ltp.readthedocs.io/zh_CN/latest/appendix.html.
参考文献 18
百度百科. 百科词条数统计[EB/OL]. [2018-01-05]. https://baike.baidu.com.
参考文献 19
MikolovT, ChenK, CorradoG, et al. Efficient estimation of word representations in vector space[EB/OL]. [2018-03-15]. https://arxiv.org/pdf/1301.3781.pdf.
参考文献 20
LeQ, MikolovT. Distributed representations of sentences and documents[C]// Proceedings of the 31st International Conference on Machine Learning. New York: ACM Press, 2014: 1188-1196.
参考文献 21
XingC, WangD, ZhangX, et al. Document classification with distributions of word vectors[C]// Proceedings of 2014 Annual Summit and Conference Asia-Pacific Signal and Information Processing Association. Piscataway: IEEE, 2014: 1-5.
参考文献 22
OuS, KimH. Unsupervised citation sentence identification based on similarity measurement[C]// Proceedings of 2018 International Conference on Information. Berlin: Springer, 2018: 384-394.
参考文献 23
BleiD, LaffertyJ. Dynamic topic models[C]// Proceedings of the 23rd International Conference on Machine Learning. New York: ACM Press, 2006: 113-120.
参考文献 24
HoffmanM, BachF R, BleiD M. Online learning for Latent Dirichlet Allocation[C]// Proceedings of Conference on Neural Information Processing Systems. New York: Curran Associates, 2010: 856-864.
参考文献 25
JoulinA, GraveE, BojanowskiP, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2017: 427-431.
参考文献 26
BoldiP, SantiniM, VignaS. PageRank as a function of the damping factor[C]// Proceedings of the 14th International Conference on World Wide Web. New York: ACM Press, 2005: 557-566.
参考文献 27
McNameeP, DredzeM, GerberA, et al. HLTCOE approaches to knowledge base population[C]// Proceedings of the 2nd Text Analysis Conference. Gaithersburg: National Institute of Standards and Technology, 2009.
参考文献 28
LiH. A short introduction to learning to rank[J]. IEICE Transactions on Information and Systems, 2011, 94(10): 1854-1862.
参考文献 29
CaoY, XuJ, LiuT Y, et al. Adapting ranking SVM to document retrieval[C]// Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2006: 186-193.
参考文献 30
JoachimsT. SVM-rank: Support Vector Machine for ranking[EB/OL]. [2018-04-03]. https://www.cs.cornell.edu/people/tj/svm_ light/svm_rank.html.
参考文献 31
WittenI H, FrankE, HallM A, et al. Data mining: Practical machine learning tools and techniques[M]. Burlington: Morgan Kaufmann Publishers, 2011: 154-155.
参考文献 32
复旦大学计算机信息与技术系国际数据库中心NLP小组. 文本分类语料库[EB/OL]. [2018-04-12]. http://www.nlpir.org/?action-viewnews-itemid-103.
目录 contents

    摘要

    命名实体链接是利用知识库进行命名实体消歧,将文本中的实体指称映射至知识库中正确义项的一种方法。现有的命名实体链接研究与实践多利用维基百科实现西文实体的消歧,缺乏对中文命名实体消歧的研究。本文以百度百科作为基础知识库,提出了一种中文命名实体链接方法,该方法融合了单实体消歧和多实体消歧特征,并根据不同文本长度选用不同的特征组合,同时,在传统一阶段式消歧的基础上添加了第二阶段消歧以改善消歧结果。在真实中文语料上的实验表明,多特征叠加和两段式消歧可较大程度地提升消歧准确率。对比实验显示,本文提出的命名实体链接方法的总体性能优于当前主流同类系统的水平。

    Abstract

    Named Entity Linking (NEL) refers to a named entity disambiguation method that disambiguates multi-sense named entity mentions in a text by mapping them to their correct meanings in a knowledge base. Most of the current NEL studies and practices focus on named entity disambiguation in western texts, rather than Chinese texts, by using Wikipedia. However, this study proposed a Chinese named entity linking method based on the Baidu Encyclopedia. This method integrates single and collective named entity disambiguation features, and adopts different combinations of features in accordance with the different text lengths. In addition, a two-stage disambiguation strategy, which can optimize the result of the first-round of disambiguation, was designed. The results of this experiment on real Chinese corpora showed that disambiguation accuracy can be significantly improved by multi-feature fusion and two-stage disambiguation. A comparative experiment demonstrated that the performance of this NEL method is superior to that of a similar state-of-the-art system (the Chinese NEL service of Knowledge Works Lab at Fudan University).

  • 1 引 言

    1

    命名实体(Named Entity)是指自然语言文本中能够用特定名称(如人名、机构名、地点名)指代的对[1]。命名实体是文献中蕴含的重要知识单元,其通常涉及文献所描述或研究的核心主题,以及与该主题相关的一系列事物。

    在非结构化文本中存在着大量的一词多义和多词一义现象,如“长恨歌”既可指代白居易创作的长篇叙事诗,也可指代王安忆创作的长篇小说;“康熙”、“玄烨”、“清圣祖”则均可指代同一人物。为了令计算机能够对命名实体进行语义表示,需要对它们进行消歧处理。命名实体链接(Named Entity Linking,NEL)是一种典型的命名实体消歧方法,该方法通过将文本中的实体指称(mention)链接至知识库(如在线百科)中的特定词条,从而解决词汇的歧义和同义问题,实现实体消歧。命名实体链接的具体任务可以描述为:抽取一段自然语言文本TT中包含命名实体指称的集合M={m1,m2,,mn},对于任一mM,为了识别其正确含义,通过遍历实体名称从命名实体知识库K中得到一系列候选实体εm={em,1,em,2,,em,k};通过消歧算法将m无歧义的链接到对应的正确实体emˆ上;若所有候选实体均无法与m匹配,则将m指向空实体标记为NIL。图1所示为具体的命名实体链接实例。

    图1                            命名实体链接实例

    图1 命名实体链接实例

    命名实体链接在知识图谱(Knowledge Graph)构建中具有尤为重要的应用价值。知识图谱是当前知识工程领域的研究热点,旨在将海量数据中包含的实体、概念及其语义关系提取出来并转换为基于图的语义网络。对实体进行消歧是知识图谱构建的关键问题之一。命名实体链接可将带有歧义的实体指称映射至与其语义匹配的词条,并将同一实体的不同指称采用同一URI进行一致化概念表示,这为后序进一步正确提取实体间的语义关系并表示为三元组(通常是RDF三元组)结构提供了条件。

    目前,西文命名实体链接技术正得到快速发展,已出现了一批较为成熟的西文命名实体链接系统,如德国Max Planck实验室基于YAGO知识库开发的AIDA(Accurate Online Disambiguation of Named Entities),DBpedia.org开发的DBpedia Spotlight等。上述系统均提供基于Web的命名实体链接工具及开放接口,但这些系统主要针对西文命名实体进行消歧,支撑的知识库多为维基百科及其衍生关联数据集。相比之下,中文命名实体链接技术的发展相对滞后,其主要原因是:①中文命名实体链接受制于中文分词和命名实体识别的准确性,实体消岐的难度更大;②西文领域存在TAC-KBP命名实体链接数据集、AIDA语料库等用于命名实体链接系统训练和测试的已标注文本语料,而此类语料在中文领域较为缺乏;③相对于维基百科及其衍生的Freebase、YAGO、DBpedia等知识库,中文百科的发展起步较晚,缺乏较成熟的知识库。近年来,以百度百科为代表的中文知识库建设得到了较快发展,这为开展中文命名实体链接研究提供了有利条件。本研究拟以百度百科作为基础知识库,对面向中文的命名实体链接方法展开研究,提出一种基于多种消歧特征的两阶段式命名实体链接方法。

  • 2 相关工作

    2

    命名实体链接的流程通常包含指称识别、候选实体生成和实体消歧三个基本环[2],其中,实体消歧是命名实体链接的核心问题,本节对相关工作进行总结。

    目前命名实体链接系统中使用的消歧算法大致可分为两种类型:单实体消歧(Single Named Entity Disambiguation,SNED)和多实体消歧(Collective Named Entity Disambiguation,CNED)。单实体消歧是对文本中的每个实体进行独立消歧,而不考虑实体间的联系,其主要思路是将实体指称与候选实体(在百科中表现为词条)进行比较,选择匹配程度最高的候选实体作为链接目标。单实体消歧的代表性方法有三种:①基于分类器的方法:将实体链接视为一个二元分类问题,即给定一对实体指称和候选实体,由分类器根据相关特征决定实体指称是否指向该候选实[3];②基于排序学习的方法:通过多种特征衡量指称与候选实体的匹配程度,并通过有监督的排序学习得到各特征的权重,将排序次序最高的候选实体作为目标实[4,5];③基于深度学习的方法:利用CNN等深度神经网络模型学习和集成多种特征生成带消歧文本和候选实体的向量表示,然后选择与待消歧文本相似度最高的候选实体为目标实[6,7]。多数单实体消歧方法需要一定的匹配特征,典型特征包括四类:①字符相似度特征,即通过文本编辑距离等指标计算指称词语与候选实体名称(即词条名)的字符匹配程度;②文本相似度特征,即通过词袋模型、主题模型等计算指称上下文和候选词条正文内容的相似程度;③类型相似度特征,即比较指称项的实体类型与各候选实体的词条类型,为类型相同的候选实体分配更大的特征值;④流行度特征,即计算各候选实体在当前流行语料或知识库中的出现频率,为高频义项分配更大的特征值。

    多实体联合消歧的主要思路是对实体之间的依赖关系进行建模,并将实体消歧定义为一个全局优化问题,其目标是找到最佳实体集。多实体联合消歧方法常基于图模型,即将文本中的实体指称及候选实体作为图的顶点,根据指称和候选实体间的链接关系或主题一致性构建图的边,再通过特定算法筛选出匹配概率最高的候选实体。典型的算法有三种,包括:①基于随机游走的方法:通过基于随机游走的算法多次迭代得到各候选实体的分[8];②基于密集子图的方法:首先从完整的图中寻找出一个包含指称和部分候选实体的密集子图,然后再从子图中寻找与指称相关性较高的候选实[9];③基于中心度计算的方法:通过计算顶点的中心度对候选实体进行排序,选择每一指称中心度最高的候选实体作为目标实[10,11]

    单实体消歧和多实体消歧在命名实体链接中存在一定的互补性:单实体消岐的优势在于便于在消歧中采用多种特征,且不受文本长度的限制;缺点在于未考虑实体间的语义一致性。譬如,在“周立波因作品《暴风骤雨》荣获斯大林文学奖”这句话中,实体“暴风骤雨”、“斯大林文学奖”与实体“周立波[中国现代著名作家]”存在着较大的语义关联,从而可暗示此“周立波”并非“周立波[主持人、海派清口创始人]”,这种实体间的相互联系在单实体消岐中往往被忽视;多实体消岐可有效利用此类依赖关系,但缺点是实体数较少的短文本难以进行图的构建。因此,有研究者将单实体消歧和多实体消歧相结合,旨在实现两者的互补,如Guo[12]在多实体消歧的图模型中将文本相似度等单实体消歧特征作为边的权重,Rao[13]在单实体消歧的排序学习算法中增加了反映节点中心度的特征,但上述研究仍是以单实体消歧或多实体消歧中的一种方法为主,在此基础上适当考虑另一种方法带来的互补效应,仍未充分发挥两类方法的综合优势。在本研究中,我们提出了一个两阶段式的混合特征消歧法:第一阶段消歧以单实体消歧为主,但引入考虑实体间关系的多实体特征;第二阶段消歧以多实体消歧为主,利用已消歧实体间的依赖关系对第一阶段的消歧结果进行优化,从而实现单实体消歧和多实体消歧的优势互补。此外,文本长度对消歧性能的影响在现有研究中被忽视,本研究对该问题进行了测试,并在实体消歧中考虑了文本长度因素。

  • 3 基于多特征的中文命名实体链接方法

    3

    本研究提出的中文命名实体链接方法包含指称识别、候选实体集合生成和候选实体消歧三个阶段。该方法的创新点在于:①在最后的候选实体消歧环节中,将单实体消歧(SNED)特征和多实体消歧(CNED)特征同时应用于排序学习,并根据文本长度选用不同的特征组合;②不同于传统实体链接的一阶段消歧方案,本研究采用了两阶段式的消歧策略,第二阶段可利用第一阶段的消歧结果生成虚拟上下文,从而对消歧结果进行优化。该实体链接方法的基本流程如图2所示(图中虚线流程代表排序模型的训练过程,实线流程代表消歧过程)。

    图2                            命名实体链接的流程

    图2 命名实体链接的流程

  • 3.1 指称识别

    3.1

    指称识别旨在从待消歧文本中抽取出命名实体指称。不同于西文文本,中文文本无法根据首字母大写规则简单地确定命名实体,同时还需在识别指称前解决文本分词问题。本研究通过调用哈尔滨工业大学的LTP(Language Technology Platform)系[14]对文本进行分词和命名实体识别。为了提高系统对中文文献中实体名称识别的准确率,我们向LTP添加了分词用户词典和词性标注用户词典,其数据来源于:①百度百科词条名称与对应词条类型(词条分类方法见3.3.1节);②从《二十五史人名大辞典[15]和《中国历史地名大辞典[16]电子版中提取的词条名称。

    根据LTP词性和命名实体标注[17],本研究将标注为人名(Nh)、机构名(Ni)、地名(Ns)及其他专有名词(nz)的词或短语作为命名实体指称。此外,文献中的图书、影视、音乐、戏剧等作品名往往被作为实体名称提及,且中文文本中的作品名称通常使用书名号作为定界符。对于此类实体,基于规则的方法较NER工具能更为准确的识别出作品指称,故本研究从文本中提取所有书名号内的文字,并将此类词语标注为作品(Nw)实体。

  • 3.2 候选实体集合生成

    3.2

    生成候选实体集合的目的是为每一指称提供一系列可能的候选实体,以避免在消歧阶段遍历整个知识库,进而提高消歧效率。

    为了获得指称的候选实体,本研究从百度百科词条中提取各种名称构建名称词典。名称词典由一系列不重复的“词条ID-名称”键值对构成,一个词条ID代表百科中的一个词条,名称则为该词条所指实体的不同名称。截至2018年1月,百度百科共包含1510万余个词[18],我们通过爬虫抓取到其中的1509万余个词条(含35万余对同义转向词条)。每个百度百科词条均有一个规范名称,若规范名称存在歧义,则会给出其不同的义项,每个义项对应于一个独立的词条。图3所示为规范名称“三毛”的四个义项。

    图3                            百度百科的规范名称及其义项实例

    图3 百度百科的规范名称及其义项实例

    针对百度百科词条的上述特性,我们采用7种方式从词条中提取出与之相对应的各种名称:①从词条头部提取出词条规范名称;②根据词条间同义转向关系提取出同义名称(百度百科存在同义词自动跳转机制,如“周树人”词条会自动跳转到“鲁迅”词条);③从词条的结构化信息框(称为Infobox)中,提取出原名、外文名、别称、庙号等名称;④从人物类词条的首句中提取出人物的字、号、绰号等,如“诸葛亮(181—234),字孔明,号卧龙……”;⑤提取去除姓氏的两字人名,如“贾宝玉”中的“宝玉”;⑥提取“名姓”形式的外文译名的姓氏部分,如“米歇尔·福柯”中的“福柯”;⑦提取“姓名”形式的少数民族人名中的名部分,如“爱新觉罗·玄烨”中的“玄烨”。基于上述方法,我们构建出一个包含1557万余个键值对的名称词典。为了提高检索效率,对词典中的“名称”字段建立了B-Tree索引。

    针对3.1节所提取的每一个命名实体指称,使用字符串完全匹配的方式遍历名称词典的“名称”字段,以获得该指称所对应的所有候选词条ID。基于该方法,可构建出一个“指称-候选实体”映射表(表1),通过该表即可取得每一指称对应的候选实体集合。

    表1 “指称-候选实体”映射表实例

    实体指称候选实体(词条)
    孙文孙中山(中国近代伟大的民主革命先行者)
    孙文(浦东新区宣桥镇党委副书记、镇长)
    ……
    孙科孙科(民国时期著名政治人物)
    孙科(中国内地男演员)
    ……
  • 3.3 候选实体消岐

    3.3

    在这一阶段,本研究使用四类消歧特征对人工标注的训练语料进行排序学习以得到排序模型,用于预测语料中指称项的目标实体。预测完成后,可通过第二阶段消歧优化预测结果的准确率。

  • 3.3.1 消歧特征

    3.3.1

    本研究的消歧特征设计基于四个假设:①与任一实体指称m相匹配的词条正文T(em)与待消歧文本T(M)具有某种程度的语义相关性;②实体指称和相匹配实体的类型相同,如均为人物实体或均为作品实体;③待消歧文本中的实体间存在一定的关联性,如实体“季羡林”与实体“北京大学”存在一定的语义关联;④知识库中的实体并不完备,即文本中可能存在无法匹配到目标实体的指称项。根据上述假设,我们使用了以下消歧特征组合:文本相似度和实体类型两个单实体消歧特征用于衡量实体指称和候选实体间的匹配程度,基于PageRank的多实体联合消歧特征用于计算候选实体间的相关性,空实体特征用于识别在知识库中不存在目标实体的指称项。

  • 1) 文本相似度特征

    1)

    文本相似度有多种度量形式,本研究比较了基于向量空间模型(VSM)、词嵌入模型(含word2vec、加权word2vec和doc2vec)和LDA主题模型的三类相似度特征的消歧性能。

    基于VSM的特征根据LTP词性标注结果,选择文本中全部名词、动词和形容词作为特征词,以TF-IDF作为特征词权值,计算出待消歧文本和候选词条正文(来自于所抓取的百度百科词条)的余弦相似度。其中,每个特征词的IDF值根据该词在百科词条文本中出现的逆文档频率统计得到。

    VSM无法捕捉到词汇的深层次语义,相比而言,以word2vec[19]为代表的词嵌入(Word Embedding)模型可将词汇映射至低维稠密向量,以表现出词汇的相关关系,即语义接近的词汇具有较近的空间距离。在实体消歧过程中,由于指称本身带有歧义,直接使用指称词向量与多个候选实体文本的词向量进行比较并无实际意义,因此需要生成指称上下文和候选词条文本的文档向量,再计算文档向量的相似度。生成文档向量的代表性方法有三种:①Quoc和Mikolov提出的doc2vec算[20];②对文档中所有词汇向量取平均值以得到文档向[21];③以TF-IDF为权值对文档词汇向量进行加权平均以得到文档向[22]。本研究使用Python自然语言处理工具包gensim,利用全部百度百科词条文本分别训练出一套word2vec和doc2vec模型,然后使用上述三种方案分别生成待消歧文本和候选词条正文的文档向量,最后计算两向量的余弦相似度。

    基于LDA模型的特征计算首先利用LDA算[23]生成待消歧文本和候选实体词条正文的主题概率分布,然后比较两概率分布的相似度。此处仍旧使用gensim工具包和训练词嵌入模型的相同语料训练LDA主题模型,训练参数参照Hoffman的实[24]设置主题数K=100,先验参数α=β=0.01。利用训练得到的主题模型,生成待消歧文本的主题分布P[Tm]和百度百科候选词条正文的主题分布P[T(em,i)],并采用JS散度(Jensen-Shannon Divergence)度量两者的主题相似度,计算公式为:

    simldam,em,i=1-JSD[TM,T(em,i)]
    (1)

    式中,em,i为指称m的任一候选实体,JSD[TM,T(em,i)]为待消歧文本和候选实体词条正文主题分布的JS散度。JS散度的值介于0~1,该值越大,表示两个概率分布的距离越远,则相似度越低。

    在4.2节的实验中,我们测试了上述特征对于不同长度中文文本的消歧性能,并根据待消歧文本的长度自动选择最优特征加入特征组合。

  • 2) 实体类型特征

    2)

    一个指称的多个候选实体可能具有不同实体类型,如“流沙河”一词既可指代一名中国当代诗人(人物实体),也可指代名著《西游记》中河流(地名实体)或一部2016年拍摄的电影(作品实体)。候选实体的类型对实体消歧具有一定的参考价值。

    实体类型特征用于判断指称的实体类型与候选实体是否一致。其中,指称的实体类型可通过LTP的词性标注模块直接获得;候选实体类型的判断则相对复杂:尽管百度百科等在线知识库大都提供词条社会化标签,但标签标注结果往往缺乏规范性和一致性,无法简单的将其作为实体类型的判断依据。相比词条标签,词条的结构化数据可以更准确地反映出词条的类型信息,如人物类词条常具有“国籍”、“出生地”等字段。本研究首先基于百度百科词条infobox字段名编写启发式规则,将具有明显类型倾向的词条归入相应类别。百度百科中包含1473万余个未设置同义转向的词条,本研究利用编写的规则将其中1026万余个词条归入5个类别:人物(PER)、组织(ORG)、地名(GEO)、作品(WORK)和其他(OTHER),分别对应于在指称识别阶段提取的人物(Nh)、组织(Ni)、地名(Ns)、作品(Nw)和其他专名(nz)类型。一些词条的infobox信息量过低,不足以作为判定类型的依据,对于此类词条,本研究利用Facebook公司的开源词向量与文本分类工具fastText基于已分类词条的正文(含infobox文本)训练出词条类型分类模型,再利用fastText文本分类器对剩余的447万余个词条的类型进行了预测。选用fastText的原因是其与基于CNN等深度神经网络的文本分类器相比性能相当,但模型训练耗时仅为其数百分之[25]。使用上述方法,我们完成了对百度百科所有词条的分类,并将实体类型特征定义为一个阶跃函数:若指称类型与候选词条类型一致,函数值为1;反之,则函数值为0。

  • 3) PageRank特征

    3)

    同一篇文献中的多数实体是为同一主题服务的,这意味着实体间往往具有一定的语义关联。多数在线百科均提供基于众包的内部链接机制,若词条作者认为另一词条对理解本词条内容有帮助,可在本词条文本上构建指向目标词条的链接,这为词条间隐性语义关联的显性化提供了便利。若待消歧文本中某一实体的一个候选实体与其他指称的候选实体产生的关联越多,则该候选实体越有可能服务于文本主题,故有更大的概率成为指称的正确实体;同时,在文献中往往存在着一些“核心实体”,这些“核心实体”与主题的关系更加密切,与“核心实体”相关联的实体也越有更大的可能是正确的实体。

    基于上述思路,本研究设计了一个基于图的多实体联合消歧(CNED)特征,并引入PageRank算法模拟投票机制来计算特征值,具体计算步骤为:①将文本中所有实体指称的候选词条作为图的顶点(vertices)集合;②若两个候选词条之间存在直接链接关系(不考虑链接方向),则在两顶点间生成一条边(edge),由此构建一个无向图G=V,E;③赋予所有节点相同的初始权重,再通过PageRank算法进行投票。节点特征值(即PageRank值)的计算公式为:

    PR(em,i)=eL(em,i)PR(e)L(e)×d+1-d(0<d<1)
    (2)

    式中,em,i为待消歧文本中指称m的任一候选实体(即词条),L(em,i)为文本其他指称的候选词条中与em,i有链接关联的词条的集合,Le为集合L(em,i)的大小(即与词条em,i相关联的候选词条的数量),d为阻尼系数,用于使特征值可收敛于某一常数。本研究参照Brin和Page的建议[26]d=0.85,并设置最大迭代次数n为100、收敛阈值为106,对节点PR值进行n轮迭代直到PR值变化收敛到阈值范围内,最后将收敛后的节点PR值作为各候选实体的特征值。

  • 4) 空实体特征

    4)

    尽管目前百度百科与维基百科等知识库均提供千万量级的词条资源,其词义仍不可能覆盖中文文献中的所有命名实体。本研究将无法在知识库中找到匹配义项的实体标记为NIL(即空实体),以便在应用系统中忽略该指称或进行特殊处理,并将空实体问题分为两类:①第Ⅰ类空实体问题,即指称名称无法与知识库中的任何词条名(含替代名称)匹配;②第Ⅱ类空实体问题,即根据指称名称可以找到一个或多个候选实体,但全部候选实体均为非正确实体。对于第Ⅰ类空实体,直接将指称关联至NIL标记;对于第Ⅱ类空实体,使用McNamee[27]的方法,专门针对空实体判断设置了一个NIL特征,并为所有指称增加一个虚拟的候选实体NIL,该实体的NIL特征值为1,其余特征均为0,最后使用排序学习得到NIL特征的权重值。该方法的实质是利用训练语料,通过机器学习求得一个针对空实体的合理阈值。

  • 3.3.2 排序学习

    3.3.2

    利用上述设定的4个消歧特征,可对待消歧文本中每一指称的一系列候选实体(即词条)进行排序,从而得到最可能的匹配词条。为此,本研究利用排序学习(Learning to Rank,L2R)方法对人工标注的数据进行有监督的机器学习以得到排序模型。L2R常被应用于搜索引擎的相关度排序优化领域,但在命名实体消歧中同样适用。L2R方法根据实现原理不同可分为Pointwise、Pairwise和Listwise三种类[28]。我们选择基于Pairwise原理的Ranking SVM算[29]进行模型训练。

    SVM-rank[30]是Ranking SVM算法的一个开源实现,本研究利用SVM-rank训练排序模型,训练方法为:首先以人工方式标注训练语料中每一指称对应的正确实体;对于每一个<指称,候选实体>对,分别计算出4个消歧特征的特征值,并将其表示为一个6维的特征向量i,xij,1,xij,2,xij,3,xij,4,yij,i=1,2,,n,其中n为文本中的指称数量;i为指称ID;xij,1-xij,4对应于指称第j个候选实体的4个消歧特征值;yij表示该候选实体是否为正确实体,若为正确实体,则令yij=1,否则令yij=0。我们使用SVM-rank算法对特征向量进行学习,出于效率考虑SVM核函数使用线性核函数,这样学习过程的关键参数仅为惩罚系数c,该参数的取值由程序根据测试结果在0~100间自动寻参以取得最优值。基于上述方法可以生成一套排序模型,该模型包含一系列无偏置的特征参数(特征权重),然后使用该模型计算测试语料中待消歧指称与其各候选实体的匹配分值,选择每一指称中分值最高的候选实体(或NIL标记)作为该指称的匹配实体。

  • 3.3.3 消歧结果优化

    3.3.3

    通过前述消歧过程(即第一阶段消歧),可以为待消歧文本中的每一指称匹配到唯一的实体。本节将利用实体间的语义依赖关系对消歧结果做进一步优化,即进行第二阶段消歧。同一文本中的多个实体往往具有内容层面的关联,虽然通过计算实体的PageRank值可以部分反映这种语义相关性,但由于在线百科的词条质量参差不齐,一些词条仅提供少量内链或未提供内链,无法充分揭示实体间的主题关联。为了进一步发掘待消歧文本中实体间的相关性,并利用这种相关性改善消歧准确率,本研究借鉴了交叉验证中的“留一”(Leave-One-Out)策[31]的思想,针对文本中的某一实体指称,利用其他实体指称的消歧结果对该指称的消歧结果进行优化,以便对第一轮的消歧结果进行改进。

    具体的消歧结果优化方法为:①若M={m1,m2,,mn}为待消歧文本T中的指称集合,对于任一指称mM,有一系列候选实体εm={em,1,em,2,,em,k},通过第一阶段匹配可得其中之一为匹配实体em;②每次从指称集合M中留出一个指称mii=1,2,,n构成待优化集合V,去除m的剩余指称构成集合M-V=m1,,mi-1,mi+1,,mn;③将M-V中各指称匹配实体的词条正文合并,形成一个虚拟的指称上下文T(mi),然后比较mi的各候选实体emi,1,emi,2,emi,k的词条文本与T(mi)的文本相似度。我们使用此方法更新各候选实体特征向量中的文本相似度特征,并使用更新后的特征值重新计算指称与各候选实体的匹配度分值,选择得分最高的候选实体作为最终匹配实体。需要说明的是,若待消歧文本中的实体指称数量过低(本研究中将文本中实体指称总数≤3视为指称数不足),第一轮消歧存在的错误匹配结果易对虚拟上下文的内容和主题产生较大污染,故对于此类文本不对其进行第二轮优化。

  • 4 实验与结果分析

    4

    本节针对中文文本,采用实验语料对上述基于多特征的命名实体链接方法进行验证。在前文所述的四种消歧特征中,文本相似度特征是可以单独用于消歧的基本特征,但其有多种计算方法,本研究首先对不同类型的文本相似度特征进行了比较测试,筛选出效果最优的特征;然后在文本相似度基础上,叠加其他三种消歧特征,测试多特征联合消歧的性能。

  • 4.1 实验语料

    4.1

    由于当前中文领域尚缺乏成熟的命名实体链接语料库(特别是中、长文本语料库),故本研究通过自建语料库进行模型训练与测试。本研究选取中文人文领域文本作为实验语料,原因是:相对于自然领域文本,人文文本通常在单位长度的文本中存在更多的带有歧义的人名、地名等实体指称,故对其进行实体链接具有更大的价值。该语料一部分抽取自复旦大学中文文本分类语料[32]的Art和History类别文档,另一部分抽取自网络数字方志和人物志。本研究从上述来源按三种长度随机选取了222篇文档,其中包含150篇短文本(单句)、60篇中文本(单一段落)和12篇长文本(由多个段落构成的篇章),三种长度的文本每篇平均字数分别为33字、431字和2682字。通过命名实体识别工具可从中识别出1464个实体指称,这些指称共对应8849个候选实体(含虚拟的NIL实体)。我们通过人工方式标注了所有实体指称对应的正确实体(或NIL),并将222篇文档按5∶1分为两部分,5份用于文本相似度特征选择,以及多特征消歧实验的交叉验证,1份作为对比实验的测试语料。

  • 4.2 文本相似度特征筛选实验

    4.2

    针对文本相似度特征,前文(3.3.1节)中提出了基于VSM、词嵌入和LDA三种文本相似度计算方案,其中,在基于词嵌入计算文本相似度时,文档向量的表示又分为基于doc2vec模型,基于词向量平均值(word2vec[avg])和基于词向量TF-IDF加权平均值(word2vec[tf-idf]三种不同形式。我们猜测上述文本相似度特征对于不同长度文本的消歧性能具有差异,为了筛选出性能最佳的文本相似度特征,本研究对这5种特征在不同长度文本(短、中、长)下的消歧性能进行了比较测试。比较的指标是消歧准确率,其计算公式为:

    Accuracy=mMσRIDm,HIDmM
    (3)

    式中,M为待消歧文本中所有指称集合,RIDm为指称m经人工标注的正确实体ID,HIDm为该指称单项特征的最高值对应实体的ID,σ函数用于判断两ID是否相同,若相同,则函数值为1,否则为0。不同的文本相似度特征的消歧性能如表2所示。

    表2 单项文本相似度特征消歧准确率

    特征短文本中文本长文本
    基于向量空间模型(VSM)0.59850.76550.7296
    基于LDA主题模型0.62450.71240.6609
    基于词嵌入word2vec[avg]0.59850.74040.6438
    word2vec[tf-idf]0.64680.75660.6567
    doc2vec0.43120.72120.6995

    从表2可以发现,不同文本相似度特征在不同长度的中文文本下具有不同的消歧性能:多数特征对于中等长度(段落)文本的消歧性能优于短句和篇章文本,其原因可能是短文本词汇量有限,不易进行相关性度量;篇章文本虽包含较多的词汇,但涉及的主题内容较为广泛,导致实体区分度下降;段落文本则在二者之间实现了较好的平衡。同时,经TF-IDF加权的词向量特征在各种篇章长度下均优于未加权的词向量特征,而文档向量特征在中、短文本中的性能均次于词向量特征,但在长文本中则优于后两者。针对长文本,基于VSM的文本相似度特征消歧性能最优;而针对短文本,则基于LDA和基于TF-IDF加权词向量(word2vec[tf-idf])的文本相似度特征优于基于VSM的特征,这很可能是因为VSM侧重于文本的字面匹配,而LDA和词嵌入则侧重于概念匹配,因此越短的文本越适合采用基于LDA和基于词嵌入的文本相似度特征进行消歧。根据不同模型的消歧表现,本研究在模型训练和实体消歧中,针对不同长度的文本调用不同的文本相似度特征:对于短文本,使用基于TF-IDF加权的word2vec相似度特征;对于中、长文本,则选用基于VSM的相似度特征。

  • 4.3 多特征消歧实验

    4.3

    多特征消歧实验在文本相似度的基础上叠加了实体类型、PageRank值和NIL三种特征,基于这四个特征利用训练语料训练排序模型(3.2.2节),用于对待消歧实体指称的所有候选实体进行排序,并选择排序最前的候选实体作为消歧后的正确实体,最后以消歧准确率衡量排序模型的消歧性能。为了保证排序模型的泛化能力,本实验采用了5折交叉验证(5-fold cross validation),实验结果取5折验证的算数平均值。多特征消歧的实验结果如表3所示。

    表3 (多特征消歧准确率)

    特征短文本中文本长文本
    文本相似度0.65020.76540.7587
    文本相似度+实体类型0.72880.81980.8156
    文本相似度+PageRank0.75060.86990.8621
    文本相似度+实体类型+PageRank0.78480.87340.8699
    文本相似度+实体类型+PageRank+空实体0.79280.87340.8699

    通过表3可以发现,实体类型特征和PageRank特征均可有效提高三种长度文本的消歧性能;NIL特征的对短文本中的空实体识别有一定效果,但未能提升中、长文本的消歧性能。

    在第一轮消歧的基础上,本研究采用3.3.3节提出的方法对消歧结果进行了优化,尝试利用消歧文本中实体间的关联进一步提升消歧准确率。再次进行5折交叉验证后得到的结果如表4所示。

    表4 (第二轮消歧优化提升率)

    特征短文本中文本长文本
    第一轮消歧结果0.79280.87340.8699
    第二轮消歧优化结果0.80600.87970.8963
    提升率1.66%0.72%3.03%

    4显示,短、中、长文本的消歧准确率分别提升了1.66%、0.72%和3.03%,说明通过第二轮的消歧结果优化在长文本中能够较显著地提升消歧性能,对中、短文本的消歧性能亦有一定提升作用。

    需要说明的是,上述实验仅测试的是实体链接中最后实体消歧步骤的准确率。完整的实体链接流程需要经历指称识别、候选实体生成和实体消歧三个阶段,前两个阶段存在的漏检或误检亦会对最后的命名实体链接结果产生影响,因此命名实体的查全率是更能反映命名实体链接性能的综合性指标。下一节将对整个命名实体链接系统的查全率进行对比测试。

  • 4.4 命名实体链接对比实验

    4.4

    基于本文所提出的命名实体链接框架,我们开发出了一套名为CHANNEL(Chinese Humanities Named Entity Linking)的命名实体链接原型系(图4)。该系统支持“标准”和“进阶”两种消歧模式:前者使用前述4个特征进行第一阶段消歧;后者采用完整的两阶段实体消歧策略。本研究选择复旦大学“知识工场”发布的“中文实体识别与链接服务作为对比系统,该系统是目前中文领域少数提供公开服务的命名实体链接系统之一,支持对中文短文本和长文本的指称识别和实体链接。

    脚注
    http://nel.dhgraph.com
    脚注
    http://kw.fudan.edu.cn
    图4                            进行比对的两个命名实体链接系统

    图4 进行比对的两个命名实体链接系统

    注:a. CHANNEL系统 b. 复旦大学“知识工场”中文实体识别与链接服务

    本研究通过人工方式对测试语料进行标注,从中逐一识别出命名实体指称及实体类型,共得到106个人物实体、22个组织实体、83个地名实体和54个作品实体。目前不同命名实体链接系统对于命名实体的界定并不一致,如一些系统仅将实例(instance)视为实体,而部分系统将概念也视为实体。尽管实体界定的标准不一,但通常都将人名、机构名、地名(含国家和历史政权名)和作品名定义为命名实体。因此,为了保证测试标准的一致性,本研究仅对上述四类实体在两系统中的实体链接性能予以测试。需要说明的是:①本研究在指称识别时采取就长原则,即使一个长指称可拆分为若干个较短指称,仍将长指称整体视为一个指称,如“上海文艺出版社”中的“上海”不被视为独立指称;②为了便于统计,将一个文本中多次出现的同一指称视为一个指称进行计量;③文本中常使用代词指代已提及的命名实体,不将此类代词视为实体指称。在标注完实体类型后,我们在百度百科中查询各指称的正确匹配实体;若百科中不存在与之相关的匹配实体,则将其含义设置为NIL。本研究以上述实体的查全率作为衡量命名实体链接系统效果的测试指标,其计算公式为:

    Recall=|E1G1|+|E2G2|M
    (4)

    式中,|M|代表文本中通过人工识别到的指称数量,E1G1分别为人工和系统从文本中识别到的匹配实体集合,E2G2分别为人工和系统从文本中识别到的空实体集合。

    两个实体链接系统针对不同类型实体的消歧查全率,以及查全率的宏平均和微平均值如表5所示。由表5可以发现,CHANNEL的实体链接效果总体优于对比系统,特别是对人名和作品名的消歧效果较好。部分原因是我们通过规则识别出所有书名号中的实体,而非单纯依赖于命名实体识别,同时引入了人名扩展机制,且第二阶段消歧对人物和作品实体的消歧准确率有一定提升作用。通过对CHANNEL的错误结果进行了分析,发现主要原因有三:一是命名实体识别未能识别出部分实体指称,如“殷”、“邺”等单字指称;二是对于空实体的识别效果不佳,经人工判断测试语料中有21个指称的正确义项为NIL,但系统仅识别出其中的9对,正确率为42.9%;三是无法正确分辨出部分词条类型与词条内容近似的实体,如小说与其改编的同名电影。

    表5 两个命名实体链接系统针对不同类型实体的消歧查全率

    实体类型CHANNEL一阶段消歧CHANNEL两阶段消歧FUDAN
    人名(PER)0.79250.84910.7925
    机构(ORG)0.71430.71430.7619
    地名(GEO)0.72620.72620.6429
    作品(WORK)0.72220.81480.5370
    宏平均(Macro-avg)0.73880.77610.6836
    微平均(Micro-avg)0.75090.79250.6906
  • 5 总结与展望

    5

    在本文中,我们设计了一种面向中文文本的多特征融合命名实体链接方法,并在中文人文文本中验证了该方法的有效性。本研究的主要贡献在于:①在命名实体消歧的排序学习中融合了单实体消歧特征和多实体联合消歧特征,并通过实验对中文环境下的多特征消歧性能进行了特征叠加测试;②通过实验发现不同文本相似度特征在不同文本长度下的消歧性能存在较显著的差异,进而针对不同长度文本采用不同的消歧特征组合;③提出了一种两阶段式的消歧策略,通过第二阶段消歧对首次消歧结果进行优化,以提升消歧性能;④基于上述命名实体链接策略构建了具有实用价值的中文命名实体链接原型系统。对比实验表明,本文所提出的命名实体链接方法在中文人名、地名、作品名的消歧场景中超过了目前主流系统的水平。在本研究中,对于空实体识别问题暂未能得到很好解决。下一步工作将尝试通过设置启发式规则生成空实体特征值,而非单纯利用阈值筛选低相关性实体作为空实体。此外,还将尝试引入指代消解机制,更好的实现对文本中代词指称的实体链接,并进一步探索以命名实体链接为基础的知识图谱构建技术。

  • 参考文献

    • 1

      Nouvel D, Ehrmann M, Rosset S. Named entities for computational linguistics[M]. New York: John Wiley & Sons, Inc., 2016: 153-156.

    • 2

      Hughes K, Nothman J, Curran J R. Trading accuracy for faster named entity linking[C]// Proceedings of the Australasian Language Technology Association Workshop. Penrith: Western Sydney University, 2014: 32-40.

    • 3

      Zhang W, Su J, Tan C L, et al. Entity linking leveraging: automatically generated annotation[C]// Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2010: 1290-1298.

    • 4

      Anastácio I, Martins B, Calado P. Supervised learning for linking named entities to knowledge base entries[C]// Proceedings of TAC. Gaithersburg: NIST, 2011: 1-12.

    • 5

      McNamee P, Mayfield J, Lawrie D, et al. Cross-language entity linking[C]// Proceedings of the 5th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2011: 255-263.

    • 6

      Francis-Landau M, Durrett G, Klein D. Capturing semantic similarity for entity linking with convolutional neural networks[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2016: 1256-1261.

    • 7

      Sun Y, Lin L, Tang D, et al. Modeling mention, context and entity with neural networks for entity disambiguation[C]// Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence. California: IJCAI, 2015: 1333-1339.

    • 8

      Han X, Sun L, Zhao J. Collective entity linking in web text: a graph-based method[C]// Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2011: 765-774.

    • 9

      Hoffart J, Yosef M A, Bordino I, et al. Robust disambiguation of named entities in text[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2011: 782-792.

    • 10

      Frontini F, Brando C, Ganascia J G. Semantic Web based named entity linking for digital humanities and heritage texts[C]// Proceedings of the First International Workshop Semantic Web for Scientific Heritage at the 12th ESWC 2015 Conference. Berlin: Springer, 2015: 77-88.

    • 11

      Guo Y, Che W, Liu T, et al. A graph-based method for entity linking[C]// Proceedings of 5th International Joint Conference on NLP. California: IJCAI, 2011: 1010-1018.

    • 12

      Guo Z, Barbosa D. Robust entity linking via random walks[C]// Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. New York: ACM Press, 2014: 499-508.

    • 13

      Rao D, McNamee P, Dredze M. Entity linking: Finding extracted entities in a knowledge base[M]// Multi-source, Multilingual Information Extraction and Summarization. Berlin: Springer, 2013: 93-115.

    • 14

      Che W, Li Z, Liu T. LTP: A Chinese language technology platform[C]// Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2010: 13-16.

    • 15

      黄惠贤, 赵泽轩. 二十五史人名大辞典电子版[EB/OL]. [2018-03-10]. http://mall.cnki.net/reference/detail_R200610137.html.

    • 16

      史为乐, 邓自欣, 朱玲玲. 中国历史地名大辞典电子版[EB/OL]. [2018-03-10]. http://mall.cnki.net/reference/detail_R200606116.html.

    • 17

      HIT-SCIR. LTP词性标注集[EB/OL]. [2018-02-05]. http://ltp.readthedocs.io/zh_CN/latest/appendix.html.

    • 18

      百度百科. 百科词条数统计[EB/OL]. [2018-01-05]. https://baike.baidu.com.

    • 19

      Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL]. [2018-03-15]. https://arxiv.org/pdf/1301.3781.pdf.

    • 20

      Le Q, Mikolov T. Distributed representations of sentences and documents[C]// Proceedings of the 31st International Conference on Machine Learning. New York: ACM Press, 2014: 1188-1196.

    • 21

      Xing C, Wang D, Zhang X, et al. Document classification with distributions of word vectors[C]// Proceedings of 2014 Annual Summit and Conference Asia-Pacific Signal and Information Processing Association. Piscataway: IEEE, 2014: 1-5.

    • 22

      Ou S, Kim H. Unsupervised citation sentence identification based on similarity measurement[C]// Proceedings of 2018 International Conference on Information. Berlin: Springer, 2018: 384-394.

    • 23

      Blei D, Lafferty J. Dynamic topic models[C]// Proceedings of the 23rd International Conference on Machine Learning. New York: ACM Press, 2006: 113-120.

    • 24

      Hoffman M, Bach F R, Blei D M. Online learning for Latent Dirichlet Allocation[C]// Proceedings of Conference on Neural Information Processing Systems. New York: Curran Associates, 2010: 856-864.

    • 25

      Joulin A, Grave E, Bojanowski P, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2017: 427-431.

    • 26

      Boldi P, Santini M, Vigna S. PageRank as a function of the damping factor[C]// Proceedings of the 14th International Conference on World Wide Web. New York: ACM Press, 2005: 557-566.

    • 27

      McNamee P, Dredze M, Gerber A, et al. HLTCOE approaches to knowledge base population[C]// Proceedings of the 2nd Text Analysis Conference. Gaithersburg: National Institute of Standards and Technology, 2009.

    • 28

      Li H. A short introduction to learning to rank[J]. IEICE Transactions on Information and Systems, 2011, 94(10): 1854-1862.

    • 29

      Cao Y, Xu J, Liu T Y, et al. Adapting ranking SVM to document retrieval[C]// Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2006: 186-193.

    • 30

      Joachims T. SVM-rank: Support Vector Machine for ranking[EB/OL]. [2018-04-03]. https://www.cs.cornell.edu/people/tj/svm_ light/svm_rank.html.

    • 31

      Witten I H, Frank E, Hall M A, et al. Data mining: Practical machine learning tools and techniques[M]. Burlington: Morgan Kaufmann Publishers, 2011: 154-155.

    • 32

      复旦大学计算机信息与技术系国际数据库中心NLP小组. 文本分类语料库[EB/OL]. [2018-04-12]. http://www.nlpir.org/?action-viewnews-itemid-103.

林泽斐

机 构:

1. 南京大学信息管理学院,南京 210093

2. 福建师范大学社会发展学院,福州 350007

Affiliation:

1. School of Information Management, Nanjing University, Nanjing 210093

2. College of Social Development, Fujian Normal University, Fuzhou 350007

作者简介:林泽斐,男,1983年生,博士研究生,讲师,主要研究方向为语义网、自然语言处理、数字人文

欧石燕

机 构:南京大学信息管理学院,南京 210093

Affiliation:School of Information Management, Nanjing University, Nanjing 210093

邮 箱:oushiyan@nju.edu.cn

作者简介:欧石燕,女,1971年生,博士,教授,博士生导师,主要研究方向为语义网、自然语言处理、文本挖掘,E-mail:oushiyan@nju.edu.cn。

魏瑞斌

角 色:责任编辑

Role:Executive editor

20180682多特征融合的中文命名实体链接方法研究 欧石燕 魏瑞斌(new)/alternativeImage/c7d594e6-1329-49f6-b834-5425cd7b6e26-F001.jpg
20180682多特征融合的中文命名实体链接方法研究 欧石燕 魏瑞斌(new)/alternativeImage/c7d594e6-1329-49f6-b834-5425cd7b6e26-F002.jpg
20180682多特征融合的中文命名实体链接方法研究 欧石燕 魏瑞斌(new)/alternativeImage/c7d594e6-1329-49f6-b834-5425cd7b6e26-F003.jpg
实体指称候选实体(词条)
孙文孙中山(中国近代伟大的民主革命先行者)
孙文(浦东新区宣桥镇党委副书记、镇长)
……
孙科孙科(民国时期著名政治人物)
孙科(中国内地男演员)
……
特征短文本中文本长文本
基于向量空间模型(VSM)0.59850.76550.7296
基于LDA主题模型0.62450.71240.6609
基于词嵌入word2vec[avg]0.59850.74040.6438
word2vec[tf-idf]0.64680.75660.6567
doc2vec0.43120.72120.6995
特征短文本中文本长文本
文本相似度0.65020.76540.7587
文本相似度+实体类型0.72880.81980.8156
文本相似度+PageRank0.75060.86990.8621
文本相似度+实体类型+PageRank0.78480.87340.8699
文本相似度+实体类型+PageRank+空实体0.79280.87340.8699
特征短文本中文本长文本
第一轮消歧结果0.79280.87340.8699
第二轮消歧优化结果0.80600.87970.8963
提升率1.66%0.72%3.03%
20180682多特征融合的中文命名实体链接方法研究 欧石燕 魏瑞斌(new)/alternativeImage/c7d594e6-1329-49f6-b834-5425cd7b6e26-F004.jpg
实体类型CHANNEL一阶段消歧CHANNEL两阶段消歧FUDAN
人名(PER)0.79250.84910.7925
机构(ORG)0.71430.71430.7619
地名(GEO)0.72620.72620.6429
作品(WORK)0.72220.81480.5370
宏平均(Macro-avg)0.73880.77610.6836
微平均(Micro-avg)0.75090.79250.6906

图1 命名实体链接实例

图2 命名实体链接的流程

图3 百度百科的规范名称及其义项实例

表1 “指称-候选实体”映射表实例

表2 单项文本相似度特征消歧准确率

表3 (多特征消歧准确率)

表4 (第二轮消歧优化提升率)

图4 进行比对的两个命名实体链接系统

表5 两个命名实体链接系统针对不同类型实体的消歧查全率

image /

无注解

无注解

无注解

无注解

无注解

无注解

无注解

a. CHANNEL系统 b. 复旦大学“知识工场”中文实体识别与链接服务

无注解

  • 参考文献

    • 1

      Nouvel D, Ehrmann M, Rosset S. Named entities for computational linguistics[M]. New York: John Wiley & Sons, Inc., 2016: 153-156.

    • 2

      Hughes K, Nothman J, Curran J R. Trading accuracy for faster named entity linking[C]// Proceedings of the Australasian Language Technology Association Workshop. Penrith: Western Sydney University, 2014: 32-40.

    • 3

      Zhang W, Su J, Tan C L, et al. Entity linking leveraging: automatically generated annotation[C]// Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2010: 1290-1298.

    • 4

      Anastácio I, Martins B, Calado P. Supervised learning for linking named entities to knowledge base entries[C]// Proceedings of TAC. Gaithersburg: NIST, 2011: 1-12.

    • 5

      McNamee P, Mayfield J, Lawrie D, et al. Cross-language entity linking[C]// Proceedings of the 5th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2011: 255-263.

    • 6

      Francis-Landau M, Durrett G, Klein D. Capturing semantic similarity for entity linking with convolutional neural networks[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2016: 1256-1261.

    • 7

      Sun Y, Lin L, Tang D, et al. Modeling mention, context and entity with neural networks for entity disambiguation[C]// Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence. California: IJCAI, 2015: 1333-1339.

    • 8

      Han X, Sun L, Zhao J. Collective entity linking in web text: a graph-based method[C]// Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2011: 765-774.

    • 9

      Hoffart J, Yosef M A, Bordino I, et al. Robust disambiguation of named entities in text[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2011: 782-792.

    • 10

      Frontini F, Brando C, Ganascia J G. Semantic Web based named entity linking for digital humanities and heritage texts[C]// Proceedings of the First International Workshop Semantic Web for Scientific Heritage at the 12th ESWC 2015 Conference. Berlin: Springer, 2015: 77-88.

    • 11

      Guo Y, Che W, Liu T, et al. A graph-based method for entity linking[C]// Proceedings of 5th International Joint Conference on NLP. California: IJCAI, 2011: 1010-1018.

    • 12

      Guo Z, Barbosa D. Robust entity linking via random walks[C]// Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. New York: ACM Press, 2014: 499-508.

    • 13

      Rao D, McNamee P, Dredze M. Entity linking: Finding extracted entities in a knowledge base[M]// Multi-source, Multilingual Information Extraction and Summarization. Berlin: Springer, 2013: 93-115.

    • 14

      Che W, Li Z, Liu T. LTP: A Chinese language technology platform[C]// Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2010: 13-16.

    • 15

      黄惠贤, 赵泽轩. 二十五史人名大辞典电子版[EB/OL]. [2018-03-10]. http://mall.cnki.net/reference/detail_R200610137.html.

    • 16

      史为乐, 邓自欣, 朱玲玲. 中国历史地名大辞典电子版[EB/OL]. [2018-03-10]. http://mall.cnki.net/reference/detail_R200606116.html.

    • 17

      HIT-SCIR. LTP词性标注集[EB/OL]. [2018-02-05]. http://ltp.readthedocs.io/zh_CN/latest/appendix.html.

    • 18

      百度百科. 百科词条数统计[EB/OL]. [2018-01-05]. https://baike.baidu.com.

    • 19

      Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL]. [2018-03-15]. https://arxiv.org/pdf/1301.3781.pdf.

    • 20

      Le Q, Mikolov T. Distributed representations of sentences and documents[C]// Proceedings of the 31st International Conference on Machine Learning. New York: ACM Press, 2014: 1188-1196.

    • 21

      Xing C, Wang D, Zhang X, et al. Document classification with distributions of word vectors[C]// Proceedings of 2014 Annual Summit and Conference Asia-Pacific Signal and Information Processing Association. Piscataway: IEEE, 2014: 1-5.

    • 22

      Ou S, Kim H. Unsupervised citation sentence identification based on similarity measurement[C]// Proceedings of 2018 International Conference on Information. Berlin: Springer, 2018: 384-394.

    • 23

      Blei D, Lafferty J. Dynamic topic models[C]// Proceedings of the 23rd International Conference on Machine Learning. New York: ACM Press, 2006: 113-120.

    • 24

      Hoffman M, Bach F R, Blei D M. Online learning for Latent Dirichlet Allocation[C]// Proceedings of Conference on Neural Information Processing Systems. New York: Curran Associates, 2010: 856-864.

    • 25

      Joulin A, Grave E, Bojanowski P, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2017: 427-431.

    • 26

      Boldi P, Santini M, Vigna S. PageRank as a function of the damping factor[C]// Proceedings of the 14th International Conference on World Wide Web. New York: ACM Press, 2005: 557-566.

    • 27

      McNamee P, Dredze M, Gerber A, et al. HLTCOE approaches to knowledge base population[C]// Proceedings of the 2nd Text Analysis Conference. Gaithersburg: National Institute of Standards and Technology, 2009.

    • 28

      Li H. A short introduction to learning to rank[J]. IEICE Transactions on Information and Systems, 2011, 94(10): 1854-1862.

    • 29

      Cao Y, Xu J, Liu T Y, et al. Adapting ranking SVM to document retrieval[C]// Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2006: 186-193.

    • 30

      Joachims T. SVM-rank: Support Vector Machine for ranking[EB/OL]. [2018-04-03]. https://www.cs.cornell.edu/people/tj/svm_ light/svm_rank.html.

    • 31

      Witten I H, Frank E, Hall M A, et al. Data mining: Practical machine learning tools and techniques[M]. Burlington: Morgan Kaufmann Publishers, 2011: 154-155.

    • 32

      复旦大学计算机信息与技术系国际数据库中心NLP小组. 文本分类语料库[EB/OL]. [2018-04-12]. http://www.nlpir.org/?action-viewnews-itemid-103.