使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于公式化表达脱敏与边界识别加强的学术论文研究问题与方法识别研究

  • 张颖怡 1
  • 章成志 2
1. 苏州大学社会学院档案与电子政务系,苏州 215123; 2. 南京理工大学经济管理学院信息管理系,南京 210094

最近更新:2024-07-15

DOI: 10.3772/j.issn.1000-0135.2024.06.007

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

研究问题和方法是学术论文中的重要组成部分,其在学术论文组织、管理与检索以及科研成果评价中具有重要意义。为缓解研究问题与方法识别中存在的公式化表达依赖和词语边界识别错误等问题,本文提出一种联合公式化表达脱敏和边界识别加强的模型。具体地,公式化表达脱敏使用数据增强方法实现,边界识别加强使用指针网络与序列标注模型实现。随着学术论文的开放获取,学术论文全文被研究者用于实体识别任务中。为证明使用学术论文全文的必要性,本文人工构建了自然语言处理领域的摘要和全文标注数据集,同时设计了数值和内容指标,用于分析两类数据集中的问题和方法识别结果以及问题与方法关系对抽取结果的差异。十折交叉实验结果表明,本文模型的宏平均F1值优于SciBERT-BiLSTM-CRF基线模型3.69个百分点且存在显著性差异。根据摘要与全文实体识别和关系对抽取结果的对比,发现摘要中包含的问题与方法实体的表意较宽泛,全文中具有更多描述模型设计和训练细节的实体和关系对。

0 引 言

科学研究是一个从提出问题到设计方法、使用方法以解决问题的实践活[

1]。研究问题和方法是科学研究中的重要组成部[2]。科研工作者的研究成果通常以学术论文、专著、专利或报告等学术文献形式进行交流与传播。学术论文是学术文献的主要形式,其中蕴含的问题和方法可应用于学术论文检[3-4]、学术论文新颖度分[2]、技术前沿分[5]以及交叉学科测[6]等任务中。准确且全面的问题与方法识别是上述应用的前提。同时,随着学术论文的开放获取,学术论文全文被研究者用于实体识别任务[7-10]。与学术论文摘要的内容噪声小、数据处理较简单等特点相比,学术论文全文存在内容噪声大、数据处理困难等问[11-12]。因此,需分析学术论文全文在实体识别任务中的优势,为学术论文全文在实体识别任务中的价值提供证明。基于以上需求,本文具有两个目标。第一,提出新的学术论文问题与方法识别模型,以提升问题与方法识别的性能;第二,对比分析学术论文摘要和全文数据集中识别的问题与方法的差异。

当前,SciBERT-BiLSTM-CRF(以下简称为“序列标注模型”)被广泛用于学术论文实体识别任[

13-15]。本文使用该模型进行问题和方法识别,并发现识别结果中存在两类错误,分别是“公式化表达依赖”和“词语边界识别错误”。表1给出了两类错误的案例。其一,在样本1中序列标注模型将“for”前和“propose”后的普通词“learning the contexts”识别为方法。“for”和“propose”是包含问题和方法实体的句子中常用的词语,其被视为公式化表达(formulaic expression)。公式化表达是人类记忆中存储的词串,其在学术论文中被反复使用,可传达学术论文中句子的意图与功[16]。现有研究将公式化表达作为一种特[17],然而,如样本1所示,实体识别模型容易将公式化表达前后的普通词识别为问题和方法,即模型的“公式化表达依赖”。其二,如样本2和样本3所示,“词语边界识别错误”有两个类型,分别是模型识别了组成实体的一部分词语和模型识别的词语超出了实体本身。

表1  学术论文问题与方法识别错误案例
样本序号学术论文句子人工标注的方法词序列标注模型识别的方法词
1 We propose that learning the contexts for the application of these linguistic operations can be viewed as per-operation classification problems. Null learning the contexts
2 In this paper, we explore a new theory of discourse structure that stresses the role of purpose and processing in discourse. theory of discourse structure structure
3 combining speech recognition and natural language processing to achieve speech understanding. speech recognition speech recognition and

注:  下划线代表人工标注方法词,粗体代表句子中的公式化表达;Null表示结果为空。

为解决“公式化表达依赖”和“词语边界识别错误”问题,本文分别提出基于公式化表达脱敏的数据增强方法和结合边界识别加强的序列标注模型,并将两类模型进行联合。数据增强是一种通过构建人造数据来增加原始训练数据集规模和减少模型对训练集中高频特征依赖的方[

18-19]。在本文中,数据增强方法被用于减少模型对训练集中公式化表达特征的依赖。为验证模型性能,本文构建摘要和全文问题与方法人工标注数据集。十折交叉验证发现,所提出的两类模型的宏平均F1值优于序列标注模型等基线模型,且具有显著性差异。

在学术论文摘要和全文的实体识别结果的对比分析中,已有研究以生物医学为研究领域展开了基因和蛋白质等实体的对[

11,20]。当前,缺少研究来对比摘要与全文中问题和方法两类实体的识别结果。本文以自然语言处理领域为例,选择Annual Meeting of the Association for Computational Linguistics(ACL会议)1979—2020年的6749篇论文作为研究对象,使用提出的模型从摘要和全文中识别问题与方法及其关系对,并设计数值指标和内容指标进行识别结果的对比分析。

1 相关研究概述

本节首先总结已有数据增强方法,其次总结现有考虑了边界加强的实体识别模型,最后梳理当前摘要与全文的实体识别结果的对比研究。

1.1 学术论文实体识别模型研究概述

学术论文实体识别方法包括3类,分别是基于规则的方法、基于传统机器学习的方法和基于深度学习的方法。基于规则的方法使用人工定义的规则匹配问题和方法。基于传统机器学习的方法将实体识别看作分类或序列标注任[

4,21]。近年来,深度学习方法在实体识别中取得了较好性[22-23]。学者们从嵌入层、特征学习层和模型结构展开模型设计与优化。在嵌入层设计中,已有研究一般使用word2vec(word to vector)或GloVe(global vectors for word representation)等方法学习词语的向量表[24]。部分研究使用字向量来表示词[25-26]。例如,Hou[25]使用CNN(convolutional neural network)和BiLSTM(bidirectional long short-term memory)模块将字向量转化成词向量。为优化词语的向量表示,现有研究引入了BERT(bidirectional encoder representations from transformers)和SciBERT等预训练语言模[27-29]。与SciBERT这一计算机科学和生物医学领域的预训练语言模型不同,Shen[30]在BERT的基础上,训练了一个社会科学领域的预训练语言模型SciBERT。在特征学习层设计中,大部分研究使用“BiLSTM+CRF”这一序列标注结[24,31]。为优化特征学习层,Hou[25]引入自注意力机制以更好学习词语间的语义关系。在模型结构优化中,已有研究使用联合训练方[32-33],例如,Luan[34]在同一个模型中进行实体识别和实体间关系抽取。Ma[35]使用seq2seq模型将实体识别视为文本生成任务。该模型的输入为提示句子(包含实体类型和定义信息)和学术论文摘要,输出为实体列表。当前,GPT-3.5等大规模预训练语言模型(以下简称“大语言模型”)的提出吸引了学者的目光。这些学者从实体识别工具、伪标签生成工具和训练数据生成工具等视角设计方法,将大语言模型用于学术论文实体识别任[36-37]。综上所述,已有学术论文问题和方法识别相关研究忽略了“公式化表达依赖”和“词语边界识别错误”这两类错误。因此,本文梳理了现有适用于实体识别的数据增强方法和边界加强模型。

1.1.1 适用于实体识别的数据增强方法概述

适用于实体识别的数据增强方法可分为3类,分别是实体替换、上下文替换和训练数据生成。实体替换是指将文本中的实体词替换为其他实体词。例如,Dai[

38]提出一种基于实体替换的数据增强方法,该方法基于训练数据集构建实体词词典,并从词典中选择实体词替换文本中的原实体。上下文替换是指替换文本中除实体词外的内容。例如,Li[39]提出一个基于MASS(masked sequence to sequence)预训练语言模型的数据增强方法,该方法使用训练集训练生成式模型,然后遮盖句子中实体词的上下文并使用生成式模型预测被遮盖的内容,从而改变上下文。训练数据生成是指利用生成式模型生成包含实体的新句子。例如,Ding[40]使用训练数据集训练生成式模型,然后使用训练得到的模型生成带有实体的新句子。在生成式模型选择中,GPT-3.5等大语言模型由于具有强大的文本生成能力而受到学者们的青睐。例如,Ding[36]和张颖怡[37]分别使用GPT-3和GPT-3.5生成实体词和包含实体词的文本。

1.1.2 适用于实体识别的边界加强模型概述

为缓解实体识别任务中的词语边界识别错误,Zheng[

41]率先提出一种边界感知模型,该模型具有两个步骤:第一,使用BiLSTM和softmax进行词语边界预测;第二,使用线性层对识别的词语进行类别预测。该模型的词语边界预测模块的原理与序列标注模型相似,即为每个词语赋予一个标签。近年来,指针网络(pointer networks)被用于词语边界识别。指针网络是由Vinyals[42]于2015年提出的神经网络模型,使用生成式结构计算文本中每个词语的重要性得分,得分较高的词语被视为词语边界。基于指针网络,Li[43]设计了一个结合GloVe词向量的生成式信息抽取模型。该模型直接使用指针网络进行词语边界识别,并根据词语边界获取目标词语。Yan[44]将Li[43]提出的模型中的GloVe词向量替换为BART(bidirectional and auto-regressive transformers)预训练语言模型。

1.2  学术论文摘要和全文实体识别结果对比研究概述

本节主要梳理生物关系对发现、关键词抽取和主题识别等任务中学术论文摘要和全文的对比分析研究。

1.2.1 生物关系对发现任务

Westergaard[

11]基于MEDLINE、PMC和TDM数据集采集1500万篇生物医学领域的学术论文,并使用召回率和准确率等指标比较摘要和全文中生物关系对的识别性能;分析结果表明,基于全文的关系对识别性能优于摘要的性能。Samuel[45]采集PMC和DOAJ数据集中21338篇生物医学领域的学术论文,并从中抽取蛋白质关系对;该研究设计数值指标对比从摘要和全文中抽取的关系对数量,分析结果证明,全文中能够获取更多的蛋白质关系对。

1.2.2 关键词抽取任务

Shah[

20]以Nature Genetics数据集中104篇基因学领域的学术论文为数据来源,分析关键词在各章节的分布;该研究设计内容指标来分析摘要或全文中抽取的关键词的内容差异,分析结果表明,全文的“方法”章节中包含了摘要中缺少的关键词类型,如“技术”和“药品”等。

1.2.3 主题识别任务

Syed[

46]使用从期刊Canadian Journal of FisheriesAquatic Sciences中获取的4417篇学术论文以及从12本期刊中获取的15004篇学术论文,从中抽取主题;研究结果表明,全文中产生的主题比摘要中产生的主题具有更高的连贯性。

1.3 现有相关研究工作总结

首先,已有基于实体替换和上下文替换的数据增强方法随机选择被替换的实体和上下文。这两类方法无法识别文本中的公式化表达。已有基于训练数据生成的数据增强方法生成的句子中仍包含公式化表达。因此,本文设计基于公式化表达脱敏的数据增强方法,以缓解模型对文本中的公式化表达的依赖。其次,为缓解实体边界识别错误,现有研究分别设计基于BiLSTM的序列标注模型和基于指针网络的生成式模型。序列标注模型可以学习文本中词语间以及标注结果中标签间的依赖,生成式模型可以学习词语作为实体边界的概率。本文尝试将两类模型相结合,以进一步提升模型的边界识别能力。最后,现有摘要和全文对比研究集中于生物医学领域,例如,基因和蛋白质实体的抽取结果对比。随着GPT-3.5等大语言模型的出现,自然语言处理领域受到社会广泛关注。因此,不同于已有研究,本文选择自然语言处理作为研究领域,并对比该领域的学术论文摘要和全文中抽取得到的问题与方法实体。

2 研究方法

研究框架如图1所示。第一,在问题发现模块中,分析序列标注模型中实体识别的错误类型;第二,在模型提出模块中,提出基于公式化表达脱敏的数据增强方法和结合边界识别加强的序列标注模型,并将两类模型相结合;第三,在数据集标注与修正模块中,人工构建实体标注数据集,并使用基于十折交叉验证的错误修正方法减少标注错误;第四,在模型验证模块中,基于实体标注数据集进行模型的性能分析与对比;第五,在词语识别结果分析模块中,收集ACL会议论文摘要和全文数据集,使用性能最优模型从数据集中识别问题与方法实体,并设计数值和内容指标,用于分析摘要和全文中识别的实体的差异。

fig

图1  研究框架

2.1 学术论文问题与方法实体识别模型

本节介绍两类学术论文问题与方法实体识别模型的改进策略,分别是基于公式化表达脱敏的数据增强模型和结合边界识别加强的序列标注模型。

2.1.1 基于公式化表达脱敏的数据增强模型

需要强调的是,增强后的句子质量需进行判断以减少文本数据改变而引入的噪声。下文分别介绍数据增强方法和句子质量判断方法。

(1)公式化表达选择策略

该数据增强方法分为4个步骤。第一,句子的依存树解析。该步骤使用Stanford CoreNLP中的依存分析模块得到训练集中每个句子的依存树。第二,问题和方法实体的依存子树解析。该步骤构建句子中问题和方法的依存子树。第三,公式化表达词典构建。该步骤选择问题和方法依存子树的父节点以及父节点与该子树相连接的介词作为公式化表达词来构建公式化表达词典。第四,词语替换。该步骤按比例随机从句子中选择存在于公式化表达词典的词语进行替换,本文统一替换为标记“_”。词语替换时需要避开句子中的问题和方法实体。本文的公式化表达选择的方法受Dang[

47]研究的启发。

图2为公式化表达选择的案例,该案例的原句是“We present a text mining method for finding synonymous expressions.”其中,text mining method是方法实体,finding synonymous expressions是问题实体。首先,该句子被解析为依存树,如图2右侧所示;其次,问题和方法实体被解析为依存子树,如图2左侧所示;最后,通过图2可知,问题和方法依存子树的父节点分别是method和present,问题依存子树的根节点和其父节点的连接介词是for。由于method是实体的一部分,只有present和for这两个词语被加入公式化表达词典。

fig

图2  基于公式化表达脱敏的数据增强方法的公式化表达选择策略

(2)句子质量判别方法

使用Zeng[

48]提出的数据增强文本质量判断方法。如图3所示,增强后的句子质量判别分为两个步骤。第一,模型训练。该阶段使用训练数据集训练得到词语识别模型,选择SciBERT-BiLSTM-CRF模型用于训练。第二,质量判断。该阶段使用训练得到的模型在增强后的句子中识别问题和方法。若模型能够正确识别句子中的问题和方法实体,则将该句子加入训练数据集。

fig

图3  数据增强方法中的词语质量判断器

2.1.2 结合边界识别加强的序列标注模型

该模型将序列标注模块与指针网络生成式模块相结合后,得到结合边界识别加强的序列标注模型。该模型的指针网络生成式模块用于提升模型的词语边界识别能力,序列标注模块用于控制词语标签顺序的合理性。图4展示了模型的各个子模块,包括指针网络模块和序列预测模块。同时,本节介绍了模型训练过程中的损失函数模块。

fig

图4  边界识别加强的序列标注模型

(1)指针网络模块

指针网络模块用于预测一个句子中问题实体或方法实体的开始位置和结束位置。以问题实体为例,为了预测一个句子中问题实体的开始位置和结束位置,指针网络生成两个权重向量,分别是开始位置向量和结束位置向量。开始位置向量和结束位置向量中的每个值代表一个单词是开始位置和结束位置的概率。下文介绍这两个位置向量的生成过程。

其一,问题实体开始位置的预测。假设存在词序列Di,s={Di,s,1,Di,s,2,,Di,s,w,,Di,s,n},其中,Di,s,w表示文档Di中第s个句子中的第w个词。首先,Di,s经过预训练语言模型后转变为句子中每个词的向量表示vi,s。其次,vi,s被输入BiLSTM编码器,得到编码器最后一层中每个时间步的输出ei,s和各层中最后一个时间步的输出hi,sci,s。再其次,hi,sci,s被输入LSTM(long short-term memory)解码器,得到解码器隐状态di,s1。最后,di,s1和BiLSTM层的输出ei,s被一起输入注意力机制模块,即

ui,sbegin=vTtanh(W1ei,s+W2di,s1) (1)

其中,vW1W2代表可学习参数;ui,sbegin代表对于解码器隐状态di,s1而言,句子Di,s中每个单词的重要性。ui,sbegin可使用softmax层进行归一化得到的权重向量ai,sbeginai,sbegin中的最大值为问题实体的开始位置。图4中标注的abegin的注意力值的最大箭头指向的位置,即问题实体的开始位置。

其二,问题实体结束词位置的预测。首先,将得到的权重向量ai,sbegin和BiLSTM层的输出ei,s相乘,得到新的解码器隐状态di,s2,即

di,s2=j=1nai,sbeginei,s (2)

其次,将di,s2和BiLSTM层的输出ei,s一起输入注意力机制模块。注意力机制的操作与开始位置预测中相同。最后,归一化后的权重向量ai,send中的最大值位置为句子中问题实体的结束位置。图4aend对应的注意力值的最大箭头指向的位置,即结束位置。

(2)序列预测模块

在该模块中,首先,选择多个权重向量每个维度的最大值组成新的权重向量ai,s。其次,将ai,s和BiLSTM的输出ei,s相乘得到句子中每个单词新的向量表示ri,s={ri,s,1,ri,s,2,,ri,s,w,,ri,s,n}。再其次,使用两个add & norm层和一个feed forword层对ri,s进行优化。最后,将优化后的ri,s输入条件随机场(conditional random field,CRF)中进行标签预测,得到每个词语的标签y={yi,s,1,yi,s,2,,yi,s,w,,yi,s,n}。CRF可为预测的标签添加约束,来保证标签前后顺序符合常理。

(3)损失函数模块

设计3个损失函数L1L2L3,分别代表序列预测模块、问题实体指针网络和方法实体指针网络的损失函数。这3个损失函数被赋予不同的权重λ1λ2λ3,并加总得到总损失函数值。序列预测和指针网络模块均使用交叉熵作为损失函数。

2.2 问题与方法实体人工标注数据集构建

本节主要介绍了两种实验数据集、问题和方法的定义以及实验数据集的标注与错误修正流程。

2.2.1 数据集选择

选择两个自然语言处理领域的摘要数据集和全文数据集用于人工标注。第一,摘要数据集使用Luan[

34]公开的SciERC数据集,共500篇人工智能领域12种会议的论文摘要。除自然语言处理领域会议的论文摘要,该数据集还包含机器学习、计算视觉等会议的论文摘要。本文从中选择305篇与自然语言处理会议相关的摘要。第二,全文数据集使用ACL ARC语料开放的ACL会议1979—2015年的4641篇论文全。ACL是人工智能领域下自然语言处理方向的顶级国际学术会议。中国计算机学会(China Computer Federation,CCF)发布的《中国计算机学会推荐国际学术会议和期刊目录》中将ACL会议列为A类会议。该会议发表的论文能够代表自然语言处理方向的最新发展趋势。随机抽取该会议各年的两篇论文构建全文数据集,共74篇论文全文。

2.2.2 问题与方法定义

问题和方法定义的解释和文献来源如表2所示。在问题定义中,根据理论和文献调研从3个角度来定义问题实体,分别是困难、研究任务以及障碍或差距。在方法实体定义中,方法包括模型、工具、语料、评价指标、操作、其他和研究方法等。表2给出了各类定义对应的例子。

表2  研究问题和方法实体定义及文献来源
类型解释文献依据
问题 困难

科学中未能解释的现象或未解决的难题。

例子:The performance of middle-paused punctuation prediction is fairly low between all methods, which shows predicting middle-paused punctuations is a difficult task.

[4]
研究任务

作者旨在进行的探索工作。

例子:This paper presents a new approach to statistical sentence generation in which alternative phrases are represented as packed sets of trees, or forests, and then ranked statistically to choose the best one.

[3-4,23,34]
障碍/差距

已有的或提出的方法与理想的差距。

例子:The conceptual retrieval systems, though quite effective, are not yet mature enough to be considered in serious information retrieval applications, the major problems being their extreme inefficiency and the need for manual encoding of domain knowledge (Mauldin, 1991).

[4,49]
方法 模型/系统/框架

模型、系统和框架等。这类研究方法词语常常带有固定的后缀,如algorithm、system、approach、model、framework等。

例子:In this paper, we describe the pronominal anaphora resolution module of Lucy, a portable English understanding system.

[23,29,50-51]
工具/程序库

已实现的技术和库的名称,如Pytorch等。

例子:STTK, a statistical machine translation toolkit, will be introduced and used to build a working translation system.

数据集/语料

数据或数据产品,如Yelp dataset等。

例子:Our training data of transition-based dependency trees are converted from phrasal structure trees in English Web Treebank (LDC2012T13) and the English portion of OntoNotes 4.0 (LDC2011T03) by the Stanford Conversion toolkit (Marneffe et al., 2006).

评价指标

评价指标工具,如准确率等。

例子:BLEU is based on n-gram precision, and since each synchronous constituent in the tree adds a new 4-gram to the translation at the point where its children are concatenated, the additional pass approximately maximizes BLEU.

操作

为解决问题所执行的具体做法,该类往往以动名词短语的形式出现。

例子:In order to understand the described world, the authors try to reconstruct the geometric model of the global scene from the scenic descriptions drawing a space.

其他

不包括在以上类别中的方法,如position information(位置信息)等模型特征。

例子:For example, our extraposition model presented above depends upon the value of the verb-position feature, which is predicted upstream in the pipeline.

研究方法

一般的、较宽泛的方法,如实验法、建模法和问卷调查法等。

例子:The machine learning approach also facilitates adaptation of the system to a new domain or language.

[52]

注:  下划线表示句子中的研究问题和研究方法实体。

2.2.3 数据标注流程

(1)标注规范设计

实验数据集的标注规范根据2.2.2节中问题和方法的定义进行设计。除了定义上的限定,还需考虑其他情况,例如,是否需标注定冠词、是否需标注括号中的内容等。ACL RD-TEC数据标注规

被用来明确这些情况,例如,该规范中规定不能将定冠词标注为词语的一部分,也规定当一个词语后的括号中跟着简写时,应标注整个序列。

(2)数据标注和一致性计算

词语标注基于问题与方法定义和ACL RD-TEC数据标注规范进行。在正式标注前,招募2名研究方向为文本挖掘与自然语言处理的标注人员,包括1位硕士在读人员和1位博士在读人员。2名标注人员独立标注从摘要数据集中随机选择的30篇摘要,标注结束后使用F1[

53]计算标注一致性。由于F1值是82.14%且满足一致性要求,后续标注工作由2名标注人员中的博士在读人员独立进行。

(3)标注错误发现和修正

标注人员在标注中不可避免会发生错误。为提高标注数据集的质量,本文使用基于CrossWeigh[

54]的词语标注错误修正方法。该方法分为3个步骤。第一,错误发现。该步骤使用SciBERT-BiLSTM-CRF模型进行十折交叉验证,并挑选测试结果中与人工标注不一致的词语。第二,错误分析。该步骤招募一位标注人员判断两类错误类型。第一类错误类型是词语标注正确但模型识别错误(预测错误),第二类错误类型是词语标注错误(标注错误)。错误统计数据如表3所示。第三,错误修正。在该步骤中,对于第一类错误类型不进行处理,对于第二类错误类型则修正该词语的标注。错误修正后的人工标注数据集统计信息如表4所示。

表3  实体标注错误和预测错误的数量分布情况
数据集实体类型
问题方法
标注错误预测错误标注错误预测错误
数量百分比(%)数量百分比(%)数量百分比(%)数量百分比(%)
摘要标注数据集 52 12.01 381 87.99 26 4.97 497 95.03
全文标注数据集 185 11.46 1430 88.54 214 8.87 2198 91.13
表4  人工标注数据集中实体统计信息
数据集类型
问题方法
总数篇均数量总数篇均数量
摘要标注数据集 1214 3.98 1725 5.66
全文标注数据集 4284 57.89 6914 93.43

3 实验与结果分析

为验证本文提出模型的有效性,选择多类基线模型用于性能对比。3.1节介绍基线模型,3.2节和3.3节分别介绍各类模型的参数设置和性能评价指标,3.4节展示两个实验数据集上的实验结果。

3.1 问题与方法实体识别基线模型选择

3.1.1 基于公式化表达脱敏的数据增强方法的基线模型

(1)词典-实体替[

38]。该方法有3个步骤:第一,候选实体词典构建;第二,被替换实体选择;第三,实体替换。

(2)MASS-上下文替[

39]。该方法基于MASS预训练语言模型,包括两个步骤:第一,将文本中除实体外的词语遮盖,并训练MASS模型;第二,使用训练得到的MASS模型对文本中被遮盖的上下文内容进行预测。

(3)MASS-实体替换。该方法是对MASS-上下文替换的修改。与MASS-上下文替换不同,该模型将句子中的实体进行遮盖并预测。

(4)DAGA(data augmentation with a generation approach)-训练数据生[

40]。该方法有两个步骤:第一,使用训练数据集训练生成式模型;第二,使用生成式模型生成带有实体标签的文本。

(5)ChatGPT-训练数据生[

36-37]。该方法有两个步骤:第一,使用ChatGPT生成领域方法实体和问题实体;第二,使用ChatGPT生成包含实体的文本。

3.1.2 结合边界识别加强的序列标注模型的基线模型

(1)word2vec-BiLSTM。在该模型中,word2-vec用于词语的语义表示,BiLSTM用于编码,softmax用于词语的标签预测。

(2)word2vec-边界感知模[

41]。该模型分为两个步骤:第一,使用word2vec、BiLSTM和softmax进行词语边界的预测;第二,使用线性层对识别得到的词语进行类别预测。该模型与word2vec-BiLSTM的对比可以证明边界感知模型在问题和方法实体识别上是否有效。

(3)char-边界感知模[

41]。该模型在word2vec-边界感知模型的基础上,附加使用字(char)向量进行语义表示。

(4)SciBERT-BiLSTM-CRF[

13]。在该模型中,SciBERT用于将词语转化为向量,BiLSTM用于特征学习,CRF用于序列预测。

(5)BART[

44]。该模型由BART预训练语言模型和指针网络模型构成。

(6)seq2seq[

35]。该模型使用基于T5预训练语言模型的“编码器-解码器”生成式结构。模型的输入由“提问”和“待抽取文本”组成,模型的输出是实体列表。

(7)ChatGPT-prompt。该模型是基于ChatGPT的提示学习模型,其将文本与提示信息输入ChatGPT大语言模型中,从而进行实体识别。提示信息的设计参考文献[

36]。

3.2 实验参数设置

(1)预训练语言模型选择。使用SciBERT预训练语言模型,版本为Transformers开源包4.22.2中的scibert_scivocab_uncased。

(2)基于word2vec的模型的参数设置。摘要和全文数据集的训练轮数(epoch)分别为20和10,批数量(batch size)为32,学习率为0.005,BiLSTM神经元数量为200个。

(3)基于SciBERT的模型的参数设置。该模型的epoch和batch size与基于word2vec的模型相同。该模型的学习率为3e-5,最大句子长度限定为512,BiLSTM的神经元数量为150个。在结合边界识别加强的序列标注模型中,损失函数的权重λ1λ2λ3分别设置为0.4、0.3和0.3。实验中使用十折交叉验证方法。

(4)数据增强方法参数设置。基于实体替换的数据增强方法中的被替换词语数量设置为1,基于公式化表达脱敏的数据增强方法中的最大被替换词语比例设置为0.2。

(5)ChatGPT版本选择。ChatGPT版本选择GPT-3.5-turbo,即ChatGPT中使用的大语言模型。使用OpenAI API调用该模

3.3 结果评价方法

模型性能的评测指标使用准确率P值、召回率R值、F1值及F1宏平均。F1宏平均(macro-F1)是对所有F1值的算数平均。假设存在类C,定义属于类C的样本被正确分类到类C的样本数为TP,不属于类C的样本被错误分类到类C的样本数为FN,属于类别C的样本被错误分类到其他类的样本数为TN,则P值、R值和F1值的计算公式分别为

P=TPTP+FN (3)
R=TPTP+TN (4)
F1=2×P×RP+R (5)

3.4 实验结果

本节首先分析基于公式化表达脱敏的数据增强方法在实体识别任务中的作用;其次,分析结合边界识别加强的序列标注模型在实体识别任务上的性能;再其次,联合两类模型并分析联合后模型的性能;最后,分析模型在其他领域数据集上的性能。

3.4.1 基于公式化表达脱敏的数据增强模型的性能分析

表5表6是摘要和全文数据集上基于公式化表达脱敏的数据增强模型的结果和基线模型的结果的对比。

表5  摘要数据集上基于公式化表达脱敏的数据增强模型和基线模型的比较(%
模型指标
问题方法macro
PRF1PRF1PRF1
SciBERT-BiLSTM-CRF 65.14 73.00 68.69 61.92 72.38 66.67 63.11 72.65 67.68
词典-实体替换 68.43 72.99 70.56 70.68 69.26 69.84 69.66 70.82 70.19
MASS-上下文替换 65.39 75.16 69.82 65.70 72.92 69.03 65.54 74.04 69.43
MASS-实体替换 65.36 72.95 68.85 66.68 70.15 68.23 66.02 71.55 68.54
DAGA-训练数据生成 66.59 74.51 70.22 61.47 73.66 66.87 64.03 74.08 68.54
ChatGPT-训练数据生成 64.88 73.41 68.78 62.16 73.31 67.25 63.52 73.36 68.02
公式化表达脱敏 68.17 74.66 71.12 67.25 73.45 70.15 67.71 74.06 70.64

注:  粗体表示对应指标上模型的最优结果。

表6  全文数据集上基于公式化表达脱敏的数据增强模型和基线模型的比较(%
模型指标
问题方法macro
PRF1PRF1PRF1
SciBERT-BiLSTM-CRF 63.14 72.26 67.32 67.23 71.98 69.47 65.18 72.12 68.39
词典-实体替换 70.90 68.10 69.37 73.64 66.99 70.08 72.27 67.54 69.72
MASS-上下文替换 67.80 68.02 67.86 72.78 66.22 69.31 70.29 67.12 68.58
MASS-实体替换 68.41 67.23 67.74 71.84 67.21 69.36 70.13 67.22 68.55
DAGA-训练数据生成 62.52 74.68 67.99 63.52 74.91 68.65 61.52 74.46 67.33
ChatGPT-训练数据生成 64.18 71.50 67.55 67.88 71.42 69.55 66.03 71.46 68.55
公式化表达脱敏 64.77 73.69 68.83 67.22 73.98 70.43 66.66 73.83 69.99

注:  粗体表示对应指标上模型的最优结果。

根据表5表6可以得到如下结论。第一,MASS-上下文替换的性能优于MASS-实体替换的性能。两个数据集中,MASS-上下文替换的宏平均F1值分别优于MASS-实体替换0.89和0.03个百分点,表明在学术论文实体识别任务中,替换上下文优于替换实体的数据增强策略。第二,基于训练数据生成的数据增强方法的性能低于基于实体替换和上下文替换的方法。在两个数据集中,DAGA-训练数据生成和ChatGPT-训练数据生成的宏平均F1值低于其他类型的数据增强方法。本文分析生成的文本来解释这一现象。分析发现,生成的文本中包含多个问题和方法实体,但训练数据生成方法未将其中一部分实体赋予实体标签,从而在模型训练中引入了错误。第三,基于公式化表达脱敏的数据增强方法取得了最优性能。在摘要数据集和全文数据集中,基于公式化表达脱敏的数据增强方法的宏平均F1值分别高于SciBERT-BiLSTM-CRF模型2.96和1.60个百分点;该模型也高于其他数据增强方法。

3.4.2 结合边界识别加强的序列标注模型的性能分析

表7表8分别是结合边界识别加强的序列标注模型和各基线模型在摘要和全文实体识别任务上的性能。

表7  摘要数据集上结合边界识别加强的序列标注模型和基线模型的比较(%
模型指标
问题方法macro
PRF1PRF1PRF1
word2vec-BiLSTM 49.73 49.22 49.31 53.99 55.56 54.61 51.94 52.87 51.96
word2vec-边界感知 49.37 47.94 48.57 48.16 56.13 51.69 48.77 52.03 50.13
char-边界感知 51.73 49.55 50.49 49.31 57.84 52.93 50.52 53.70 51.71
SciBERT-BiLSTM-CRF 65.14 73.00 68.69 61.92 72.38 66.67 63.11 72.65 67.68
BART 67.72 70.25 68.91 64.99 70.00 67.26 66.35 70.12 68.08
seq2seq 54.33 62.57 58.14 48.26 54.09 50.94 51.30 58.33 54.54
ChatGPT-prompt 21.24 11.13 14.58 26.88 25.85 26.25 24.06 18.49 20.41
边界识别加强 64.08 76.11 69.47 63.92 72.38 67.60 64.00 74.24 68.54

注:  粗体表示对应指标上模型的最优结果。

表8  全文数据集上结合边界识别加强的序列标注模型和基线模型的比较(%
模型指标
问题方法macro
PRF1PRF1PRF1
word2vec-BiLSTM 53.24 54.43 53.74 56.88 55.57 56.18 55.40 55.12 54.96
word2vec-边界感知 53.93 52.30 53.00 59.12 56.41 57.66 56.52 54.36 55.33
char-边界感知 53.47 55.58 54.37 56.71 57.89 57.27 55.09 56.74 55.82
SciBERT-BiLSTM-CRF 63.14 72.26 67.32 67.23 71.98 69.47 65.18 72.12 68.39
BART 63.56 74.37 68.49 63.65 74.30 68.51 63.61 74.34 68.50
seq2seq 57.35 78.69 66.31 45.98 65.93 54.16 51.66 72.31 60.24
ChatGPT-prompt 13.92 12.92 13.39 18.11 32.81 23.33 16.02 22.87 18.36
边界识别加强 63.63 73.72 68.21 67.96 71.79 69.73 65.79 72.75 68.97

注:  粗体表示对应指标上模型的最优结果。

表7表8可得到如下结论。第一,指针网络能够提升问题与方法实体识别任务的性能。在摘要和全文数据集中,BART模型的宏平均F1值高于其他基线模型。例如,在全文数据集中该模型的宏平均F1值是68.50%,高于SciBERT-BiLSTM-CRF模型0.11个百分点。由于BART是基于指针网络的生成式模型,这一结果证明指针网络可以提升实体识别任务的性能。第二,边界感知模型未能有效提升问题与方法实体识别任务的性能。在摘要数据集中,基于word2vec的边界感知模型的宏平均F1值为50.13%,比基于word2vec的BiLSTM模型的F1值低了1.83个百分点,这说明边界感知模型不适合问题和方法词抽取任务。第三,抽取式模型的性能优于生成式模型。例如,SciBERT-BiLSTM-CRF和本文提出的结合边界识别加强的序列标注模型的宏平均F1值高于seq2seq和ChatGPT-prompt。对实体生成结果进行分析可以发现,生成式模型在长度较短实体的识别上性能较优,在生成长度较长的实体时容易出现词语边界错误等问题。由于部分学术论文对问题和方法的名称的描述较详细,在学术论文中存在一部分长度较长的问题和方法词。第四,结合边界识别加强的序列标注模型取得了最优性能。两个数据集中结合边界识别加强的序列标注模型的宏平均F1值分别高于SciBERT-BiLSTM-CRF模型0.86和0.58个百分点,高于BART模型0.46和0.47个百分点。以上结果说明,将指针网络与序列标注模型结合能够获得比仅使用指针网络更好的性能。

3.4.3 联合模型的性能分析

根据3.4.1节的结果分析可得,基于词典-实体替换的数据增强方法和基于公式化表达脱敏的数据增强方法在实体识别任务上的性能较高。因此,本文选择这两类数据增强方法与结合边界识别加强的序列标注模型相联合。联合模型分析结果如表9表10所示。其中,“公式化表达脱敏”代表基于公式化表达脱敏的数据增强模型,“边界识别加强”代表结合边界识别加强的序列标注模型,“边界识别加强+词典-实体替换”代表联合基于词典-实体替换的数据增强方法和结合边界识别加强的序列标注模型,以此类推。从表9表10可得如下结论。第一,联合模型的性能优于单一模型的性能。在摘要和全文数据集中,联合模型的宏平均F1值分别高于单一的数据增强方法和结合边界识别加强的序列标注模型,这表明将两类方法相结合是有效的。第二,联合基于公式化表达脱敏的数据增强和结合边界识别加强的序列标注模型性能最优。在两个数据集中,该模型的宏平均F1值分别优于基于公式化表达脱敏的数据增强方法0.73和0.70个百分点,优于结合边界识别加强的序列标注模型2.83和1.72个百分点。同时,该联合模型的宏平均F1值分别优于SciBERT-BiLSTM-CRF模型3.69和2.30个百分点,且具有显著性差异。

表9  摘要数据集上联合模型和基线模型的比较(%
模型指标
问题方法macro
PRF1PRF1PRF1
词典-实体替换 68.43 72.99 70.56 70.68 69.26 69.84 69.66 70.82 70.19
公式化表达脱敏 68.17 74.66 71.12 67.25 73.45 70.15 67.71 74.06 70.64
边界识别加强 64.08 76.11 69.47 63.92 72.38 67.60 64.00 74.24 68.54
边界识别加强+词典-实体替换 68.68 74.74 71.50 69.77 71.89 70.75 69.22 73.32 71.13**
边界识别加强+公式化表达脱敏 68.48 77.06 72.48 67.64 73.19 70.26 68.06 75.12 71.37**

注:  粗体表示对应指标上模型的最优结果。**表示与SciBERT-BiLSTM-CRF模型具有显著性差异,且P<0.01。

表10  全文数据集上联合模型和基线模型的比较(%
模型指标
问题方法macro
PRF1PRF1PRF1
词典-实体替换 70.90 68.10 69.37 73.64 66.99 70.08 72.27 67.54 69.72
公式化表达脱敏 64.77 73.69 68.83 67.22 73.98 70.43 66.66 73.83 69.99
边界识别加强 63.63 73.72 68.21 67.96 71.79 69.73 65.79 72.75 68.97
边界识别加强+词典-实体替换 71.83 67.80 69.69 74.11 67.50 70.60 72.97 67.65 70.15*
边界识别加强+公式化表达脱敏 68.42 71.81 70.01 70.97 71.83 71.37 69.70 71.82 70.69**

注:  粗体表示对应指标上模型的最优结果。*和**表示与SciBERT-BiLSTM-CRF模型具有显著性差异,且*表示P<0.05,**表示P<0.01。

3.4.4 本文模型在其他领域数据集上的性能分析

为验证本文提出的模型在其他领域的学术论文实体识别任务上的可用性,选择Brack[

27]构建的STM(science, technology, and medicine)数据集用于分析。该数据集包括10个领域的110篇学术论文摘要,分别是天文学、农学、生物学、化学、计算机科学、地球科学、工学、材料科学、数学和医学。每个领域中包含11篇学术论文。同时,该数据集标注了7类实体,分别是process(过程)、task(任务)、material(材料)、method(方法)、data(数据)、object(主题)和result(结果)。由于该数据集中任务、主题、方法和结果实体数量占比较少,如在农学和天文学等领域的数据集中缺少“任务”标注,实验中选择材料、过程和数据3类实体进行标注。

为将基于公式化表达脱敏的数据增强方法用于该数据集,需要从该数据集中抽取公式化表达。2.1.1节中的公式化表达选择策略被用来抽取与过程、数据和材料相关的公式化表达。表11展示了农学、地球科学和数学3个领域的公式化表达。

表11  农学、地球科学和数学领域的5个公式化表达脱敏抽取结果
实体类型领域
农学地球科学数学
过程 research; model; in; induce; focus release; analyse; play; dominate; review construction; consider; extension; calculation; approach
数据 increase; concentration; at; level; measure show; illustrate; evaluate; explain; from prove; construction; show; use; result
材料 use; establish; input; system; of activity; record; correlation; set; associate sequence; group; surface; set; closure

为将结合边界识别加强的序列标注模型用于该数据集,需要改变该模型中的指针网络模块的输入。2.1.2节中使用了两个指针网络模块分别用于发现问题实体和方法实体的边界,但STM数据集需识别3类实体。本实验使用其中一个指针网络模块来发现过程这一类实体的边界,使用另外一个指针网络模块来发现材料和数据这两类实体的边界。除了改变指针网络模块的输入,还可以增加指针网络模块的数量使模型适应多类实体。

表12展示了基线模型、基于公式化表达脱敏的数据增强方法、结合边界识别加强的序列标注模型以及联合模型在STM数据集上的实验结果。从表12可得如下结论。第一,基于公式化表达脱敏的数据增强方法和结合边界识别加强的序列标注模型在10个领域的学术论文中的宏平均F1值均高于基线模型。第二,在过程、数据和材料3类不同于问题和方法的实体的识别上,本文模型的宏平均F1值优于基线模型。第三,联合模型在10个领域学术论文的实体识别任务中的宏平均F1值高于单个模型。

表12  STM数据集中10个领域上的模型性能(%
领域模型实体类型
过程数据材料macro
F1F1F1PRF1
天文学 SciBERT-BiLSTM-CRF 8.58 44.14 42.90 28.07 46.44 31.87
公式化表达脱敏 7.71 49.27 49.48 32.02 46.40 35.48
边界识别加强 7.44 54.96 61.79 38.72 50.27 41.40
边界识别加强+公式化表达脱敏 8.81 54.30 62.91 39.55 53.51 42.01
农学 SciBERT-BiLSTM-CRF 12.63 28.84 32.69 20.63 41.90 24.72
公式化表达脱敏 12.73 27.48 41.49 23.77 45.66 27.24
边界识别加强 18.71 33.97 32.62 24.07 41.81 28.44
边界识别加强+公式化表达脱敏 17.58 34.27 42.01 27.18 42.38 31.29
生物学 SciBERT-BiLSTM-CRF 18.74 30.31 47.00 27.61 45.97 32.02
公式化表达脱敏 16.60 29.28 56.88 29.76 47.11 34.25
边界识别加强 15.45 33.00 64.19 33.52 48.81 37.55
边界识别加强+公式化表达脱敏 15.38 37.57 64.32 35.38 50.43 39.09
化学 SciBERT-BiLSTM-CRF 9.84 27.08 42.51 22.81 40.30 26.47
公式化表达脱敏 8.53 29.70 45.56 24.81 41.04 27.93
边界识别加强 10.02 29.30 42.09 23.32 41.64 27.14
边界识别加强+公式化表达脱敏 10.25 34.24 48.99 27.83 44.58 31.16
计算机科学 SciBERT-BiLSTM-CRF 12.85 38.61 26.15 22.36 42.27 25.87
公式化表达脱敏 12.99 44.14 26.78 24.73 44.83 27.97
边界识别加强 13.22 46.00 27.98 24.95 45.82 29.07
边界识别加强+公式化表达脱敏 13.66 47.51 34.10 27.90 48.11 31.76
地球科学 SciBERT-BiLSTM-CRF 7.89 37.08 47.31 27.97 39.97 30.76
公式化表达脱敏 7.05 36.90 56.71 31.55 39.72 33.55
边界识别加强 6.00 37.01 56.54 30.66 40.46 33.19
边界识别加强+公式化表达脱敏 8.01 39.45 56.44 32.09 45.31 34.63
工学 SciBERT-BiLSTM-CRF 15.41 50.08 64.37 40.10 55.60 43.29
公式化表达脱敏 12.67 55.56 64.27 42.02 54.46 44.16
边界识别加强 14.97 56.49 64.35 42.84 60.11 45.27
边界识别加强+公式化表达脱敏 14.35 57.41 66.19 43.21 62.13 45.98
材料科学 SciBERT-BiLSTM-CRF 7.72 42.91 56.77 32.04 50.42 35.80
公式化表达脱敏 8.49 48.44 62.35 35.99 54.91 39.76
边界识别加强 10.37 51.14 60.86 37.17 56.31 40.79
边界识别加强+公式化表达脱敏 9.98 52.25 69.45 40.64 58.47 43.89
数学 SciBERT-BiLSTM-CRF 1.25 28.25 15.46 12.81 21.25 14.99
公式化表达脱敏 4.28 25.78 17.16 13.34 28.71 15.74
边界识别加强 2.31 40.45 15.07 16.45 33.65 19.28
边界识别加强+公式化表达脱敏 2.62 38.01 17.32 18.20 24.39 19.32
医学 SciBERT-BiLSTM-CRF 16.29 32.42 15.81 19.72 25.50 21.51
公式化表达脱敏 28.99 26.47 12.46 21.58 25.18 22.64
边界识别加强 5.07 37.92 40.41 26.46 31.16 27.80
边界识别加强+公式化表达脱敏 14.84 38.27 38.17 28.71 33.96 30.43

注:   粗体表示对应指标上模型的最优结果。

4 摘要和全文的问题与方法实体识别结果对比分析

本节通过对比摘要和全文的问题与方法实体的抽取结果来为面向学术论文全文的实体识别的价值提供证明。

4.1 数据准备与实体词识别

采用ACL会议1979—2020年的学术论文摘要和全文作为数据集。其中,1979—2015年的论文由ACL Antology开源,2016—2020年的论文为课题组自行收集,共计7347篇论文。由于PDF解析错误导致部分论文缺少摘要,将这部分论文剔除,筛选后共有6749篇论文。论文分为摘要数据和全文数据,摘要数据包括标题和摘要,全文数据包括标题、摘要和正文。

首先,为获取摘要和全文中的问题与方法实体,使用联合模型进行实体识别,共获得297464个问题词和315640个方法词。其次,为提升识别结果的查全率,使用词语映射方式发现文本中未被模型识别的实体;为提高识别结果的查准率,使用低频实体过滤(频次小于2)与人工审核相结合的方式过滤实体。最后,由于不同实体存在表达不同但语义相同的情况,使用语义相似度计算与人工判断相结合的词语消歧方法整合含义相同的词语;其中,语义相似度计算使用word2vec词向量模型。共得到4306类问题实体和16565类方法实体。

4.2 问题与方法关系对识别

问题与方法关系对识别分为3个步骤。第一,关系抽取。使用张颖[

55]提出的结合SciBERT交叉编码器和Transformer的关系对抽取方法从句子中抽取存在使用关系的问题和方法对。从摘要中抽取3757个关系对,从全文中抽取94780个关系对。第二,关系过滤。使用基于箱线图的异常值发现方[56],经过滤,摘要中剩余3141个关系对,全文中剩余81189个关系对。第三,关系消歧。将关系对中的问题实体和方法实体进行消歧,最终分别从摘要和全文中获取了3059个关系对与43885个关系对。

4.3 分析指标设计

本节设计两类分析指标,分别是数值指标与内容指标。其中,数值指标包括实体数量指标和关系对数量指标,内容指标包括高频实体指标和高频关系对指标。实体数量指标和关系对数量指标分别是指各篇论文包含的消歧后实体和关系对的数量平均值。高频实体指标和高频关系对指标是指被提及频次为Top N的实体和关系对。在提及频次计算中,使用消歧后的实体进行统计且仅统计提及的论文数,不考虑一篇论文中的多次提及。

4.4 问题和方法实体识别结果对比分析

已有研究指出,自然语言处理领域的发展包括语义时期(1979—1996年)、传统机器学习时期(1997—2013年)和深度学习时期(2014年至今[

57]。因此,本文围绕这3个时期进行实体识别结果分析。3个时期的论文数量分别为511篇、2878篇和3360篇。

4.4.1 数值指标分析

(1)实体数量指标分析

根据表13可得到两点差异。第一,全文中的实体数量大于摘要中的实体数量;第二,随着时间推移,全文中实体数量的增长速度大于摘要。例如,全文中深度学习时期的问题词是语义时期的2.44倍,而摘要中深度学习时期的问题词是语义时期的1.39倍。

表13  3个时间段中摘要和全文数据集中平均实体数量
词语类型数据集
语义时期传统机器学习时期深度学习时期
摘要全文摘要全文摘要全文
问题词 类型指标 1.53 6.12 1.94 11.36 2.12 14.96
方法词 类型指标 3.18 24.83 3.85 39.39 4.61 54.47

图5可得如下结论。第一,全文对应的小提琴图的最高点到最低点的距离大于摘要中的距离,表明不同学术论文全文中实体的数量差异较大,而不同学术论文摘要中实体的数量差异较小。第二,随着时间推进,全文中问题和方法实体的小提琴图的较宽部分对应的词语数量逐步增大,方法实体对应的增长幅度大于问题幅度。然而,在摘要中,无论语义时期、传统机器学习时期还是深度学习时期,问题实体和方法实体的小提琴图的较宽部分对应的词语数量变化幅度都较小。

fig

图5  3个时间段中摘要和全文数据集中每篇论文的实体数量分布

横轴上的0、1和2分别代表语义时期、传统机器学习时期和深度学习时期。

后续的内容指标分析结果可以解释该现象。第一,摘要中主要包括表意宽泛的问题和方法(模型或工具),3个时期的学术论文均会在摘要中提及这篇论文需要解决的问题和使用的方法,所以3个时期的摘要中实体数量变化幅度较小。第二,全文中主要包含较细节的实体,传统机器学习时期特别是深度学习时期的论文中的问题趋向于复杂,方法(模型)的组成模块增加,所以全文中的实体数量增长幅度较大。

(2)关系对数量指标分析

表14可得如下结论。第一,随着时间推进,摘要和全文数据集中的关系对数量增加。以全文数据集为例,深度学习时期和语义时期平均关系对数量分别是10.41和2.56,深度学习时期的平均关系对数量比语义时期增长了3.07倍。第二,摘要中关系对数量增长幅度小于全文的增长幅度。例如,摘要数据集中深度学习时期的平均关系对数量比语义时期增长了1.25倍,小于全文的增长幅度(3.07倍)。

表14  3个时间段中摘要和全文数据集中平均关系对数量
关系类型数据集
语义时期传统机器学习时期深度学习时期
摘要全文摘要全文摘要全文
平均关系对数量 0.24 2.56 0.46 6.93 0.54 10.41

图6可得如下结论。第一,随着时间推进,摘要和全文中小提琴图在0位置上的宽度变小,全文中的变化幅度较明显。该现象表明,随时间推移,“使用”关系对数量为0的学术论文数量减少。第二,在传统机器学习时期和深度学习时期全文中小提琴图在0位置上的宽度较小,而摘要中小提琴图在0位置上的宽度较大。该现象表明,在这两个时期全文中抽取得到了较多的问题与方法“使用”关系对。第三,语义时期的“使用”关系对数量为0的学术论文数量显著大于其他两个时期。这是由于在语义时期下,ACL会议论文更多涉及语言学相关研究,而其他两个时期的论文更多涉及人工智能相关研究。

fig

图6  3个时间段中摘要和全文数据集中每篇论文的关系对数量分布

横轴上的0、1和2分别代表语义时期、传统机器学习时期和深度学习时期。

4.4.2 内容指标分析

(1)高频实体指标分析

第一,分析摘要和全文中高频问题实体的差异。如表15所示,语义时期的全文中特有的问题词包括syntactic representation(句法表示)和knowledge representation(知识表示)。传统机器学习时期的全文中特有的问题词包括named entity recognition(命名实体识别)和data sparsity(数据稀疏)。深度学习时期的全文中特有的问题词包括learning model parameter(学习模型参数)和feature learning(特征学习)。综上可知,全文中的问题词包括模型训练细节和与障碍/差距相关的内容。

表15  摘要和全文中数量排名Top 10的问题词
数据集语义时期传统机器学习时期深度学习时期
词语数量词语数量词语数量
摘要 parsing task 54 natural language processing 178 natural language processing 351
natural language processing 33 parsing task 138 machine translation task 150
machine translation task 17 machine translation task 129 named entity recognition 115
semantic understanding 16 statistical machine translation task 117 question answering 103
semantic representation 9 classification task 72 classification task 102
computational linguistics task 8 part of speech tagging 57 sentiment classification 97
natural language generation 7 information retrieval task 50 parsing task 77
resolve syntactic ambiguity 6 speech recognition task 48 neural machine translation task 74
natural language understanding 6 information extraction task 46 learning word representation 66
speech recognition task 5 word alignment task 43 text classification task 57
全文 parsing task 207 natural language processing 1313 natural language processing 2180
natural language processing 147 machine translation task 845 machine translation task 1128
machine translation task 75 parsing task 821 classification task 1097
computational linguistics task 72 classification task 788 named entity recognition 843
classification task 71 computational linguistics task 480 question answering 683
semantic representation 58 named entity recognition 463 learning word representation 662
information retrieval task 54 information retrieval task 451 parsing task 576
semantic understanding 47 statistical machine translation task 391 sentiment classification 527
syntactic representation 47 part of speech tagging 390 learning model parameter 487
knowledge representation 46 data sparsity 361 feature learning 454

注:  粗体表示各时期摘要和全文中特有的高频词语。

第二,分析摘要和全文中高频方法实体的差异。如表16所示,语义时期的全文中特有的方法词包括accuracy measure(精确率指标)和lexical entry(词语条目)。传统机器学习时期的全文中特有的方法词包括complexity metric(复杂度指标)和supervised learning method(监督学习方法)。深度学习时期的全文中特有的方法词包括loss function(损失函数)、learning rate strategy(学习率策略)、F1 score metric(F1指标)和encoding method(编码方法)等。由于“损失函数”和“学习率策略”是神经网络模型的组成部分,与摘要相比,全文中的方法实体包含更多模型的细节,以及与评测指标和数据相关的内容。

表16  摘要和全文中数量排名Top 10的方法词
数据集语义时期传统机器学习时期深度学习时期
词语数量词语数量词语数量
摘要 parsing method 67 machine translation approach 280 neural network model 432
computation method 35 parsing method 184 embedding technique 262
machine translation approach 22 classification method 129 machine translation approach 222
grammar based approach 18 clustering method 109 classification method 123
natural language processing method 17 bilingual parallel corpus 103 parsing method 122
parse tree 14 part of speech tagging 92 BERT 115
complexity metric 12 accuracy measure 88 word embedding method 114
statistical approach 12 machine learning model 74 attention mechanism 111
computational linguistic approach 12 F1 score metric 71 generation approach 105
part of speech tagging 11 generation approach 66 accuracy measure 102
全文 parsing method 213 part of speech tagging 1175 embedding technique 1966
computation method 128 classification method 919 neural network model 1947
machine translation approach 124 accuracy measure 899 loss function 1276
complexity metric 122 parsing method 872 classification method 1146
computational linguistic approach 101 machine translation approach 868 word embedding method 1110
part of speech tagging 99 clustering method 656 accuracy measure 1100
grammar based approach 95 machine learning model 592 learning rate strategy 996
parse tree 87 F1 score metric 571 LSTM-based system 994
accuracy measure 84 complexity metric 567 F1 score metric 978
lexical entry 83 supervised learning method 505 encoding method 964

注:  粗体表示各时期摘要和全文中特有的高频词语。

(2)高频关系对指标分析

由于篇幅限制,本节仅讨论频次排名前5位的问题与方法“使用”关系对。表17展示了摘要和全文数据集中的“使用”关系。由于语义时期的摘要数据中存在大量数量为1的关系对,本节不比较语义时期摘要和全文中关系对的异同。

表17  摘要中数量排名Top 5的问题与方法实体对
数据集语义时期传统机器学习时期深度学习时期
词语数量词语数量词语数量
摘要 natural language processing & computation method 2 statistical machine translation & machine translation approach 7 natural language processing & neural network model 8
parsing task & parsing method 2 statistical machine translation & decoder 5 natural language processing & deep learning approach 7
natural language processing & semantic lexicon 1 statistical machine translation & open source toolkit 3 natural language processing & word embedding method 6
parsing task & distributional method 1 machine translation task & discriminative algorithm 3 Chinese word segmentation & neural network model 5
classification task & logical analysis 1 parsing task & parsing method 3 question answering & knowledge base 5
全文 parsing task & parsing method 20 machine translation task & machine translation approach 57 natural language processing & neural network model 125
parsing task & lr parsing 6 word alignment problem & giza + + toolkit 54 avoid over- fitting & dropout rate 50
parsing task & generalized lr parsing 5 parsing task & parsing method 51 natural language processing & deep learning approach 49
natural language processing & parsing method 5 classification task & classification method 43 natural language processing & word embedding method 43
machine translation task & machine translation approach 4 classification task & SVM algorithm 34 learning word representation & embedding technique 43

注:  粗体表示各时期摘要和全文中特有的高频关系对,&前后分别是问题实体和方法实体。

表17可以得到如下分析结果。第一,在传统机器学习时期,全文关系对的问题实体使用giza + + toolkit(giza++工具)和svm algorithm(svm算法)等具体的工具或算法,而摘要中以宽泛的工具或算法为主,如open source toolkit(开源工具)和discriminative algorithm(判别式算法)。第二,在深度学习时期,全文中高频关系对的问题实体和方法实体包括模型的设计细节和模型参数的设置,而摘要中仍以宽泛的工具或算法为主。例如,全文中出现dropout rate(丢弃率)神经网络参数和learning word representation(学习词语表示)模型设计时需考虑的子问题,摘要中出现knowledge base(知识库)等工具,以及Chinese word segmentation(中文分词)和question answering(问答)等任务。

5 结论与展望

本文有两个主要目的。第一,提升学术论文摘要和全文中问题与方法实体识别的性能;第二,分析、对比摘要和全文中识别得到的实体。为提升实体识别性能,本文提出基于公式化表达脱敏的数据增强方法和结合边界识别加强的序列标注模型,分别用于缓解公式化表达依赖和词语边界识别错误。两个自然语言处理领域上实验数据集上的十折交叉验证结果表明,两类模型均能提升实体识别任务上的宏平均F1值。一个多领域实验数据集上的十折交叉验证结果证明本文提出的两类模型适用于不同领域中不同类型实体的识别。为对比摘要和全文中识别得到的实体,采用性能最优模型识别1979—2020年的ACL会议论文摘要和全文中的问题与方法以及问题与方法关系对。分析结果显示:第一,全文中的实体数量和关系对数量大于摘要;第二,与摘要相比,全文中的问题和方法实体更多包括模型训练过程以及与评测指标和数据相关的内容;第三,与摘要相比,全文中的关系对更多包括模型设计的细节和模型的参数设置等内容。

本文具有四个方面的贡献。第一,发现了学术论文实体识别任务中存在“公式化表达依赖”和“实体边界识别错误”。这两类错误的发现可为未来的模型优化工作提供思路。第二,本文提出的模型可用于其他领域的学术论文多类型实体识别任务,从而提升不同领域学术论文实体识别任务的性能。第三,构建的两个数据集可用于后续学术论文问题和方法实体识别研究。例如,可以使用迁移学习等策略将数据集引入其他领域的实体识别任务。第四,证明了学术论文全文中包含更多描述细节的问题和方法及其关系对,可为后续学术论文信息抽取与挖掘研究中目标文本的选择提供依据。

本文仍存在不足之处。第一,在问题和方法的定义中从不同的角度进行了细粒度定义,如问题定义中包括任务和障碍/差距等类型,但在实体识别中未对问题和方法进行细分。第二,在摘要和全文的问题与方法关系对抽取结果分析中仅考虑了“使用”这一关系类型,除了问题和方法间的“使用”关系外,问题间和方法间还存在“上下位”与“整体部分”等关系。未来研究将在实体识别任务中对问题和方法按细分类型进行识别,将从学术论文中抽取问题间、方法间以及问题与方法间的多种关系类型并进行系统分析。

参 考 文 献

1

李丹. 科学研究活动中的知识管理研究[D]. 武汉: 武汉大学, 2005. [百度学术] 

2

Luo Z R, Lu W, He J G, et al. Combination of research questions and methods: a new measurement of scientific novelty[J]. Journal of Informetrics, 2022, 16(2): 101282. [百度学术] 

3

Heffernan K, Teufel S. Identifying problems and solutions in scientific text[J]. Scientometrics, 2018, 116(2): 1367-1382. [百度学术] 

4

Kovačević A, Konjović Z, Milosavljević B, et al. Mining methodologies from NLP publications: a case study in automatic terminology recognition[J]. Computer Speech & Language, 2012, 26(2): 105-126. [百度学术] 

5

伊惠芳. 基于问题-解决方案(P-S)的技术机会发现研究[D]. 北京: 中国科学院大学(中国科学院文献情报中心), 2022. [百度学术] 

6

马费成, 张帅. 我国图书情报领域新兴交叉学科发展探析[J]. 中国图书馆学报, 2023, 49(2): 4-14. [百度学术] 

7

章成志, 张颖怡. 基于学术论文全文的研究方法实体自动识别研究[J]. 情报学报, 2020, 39(6): 589-600. [百度学术] 

8

张颖怡, 章成志. 基于学术论文全文的研究方法句自动抽取研究[J]. 情报学报, 2020, 39(6): 640-650. [百度学术] 

9

王玉琢, 章成志. 考虑全文本内容的算法学术影响力分析研究[J]. 图书情报工作, 2017, 61(23): 6-14. [百度学术] 

10

章成志, 丁睿祎, 王玉琢. 基于学术论文全文内容的算法使用行为及其影响力研究[J]. 情报学报, 2018, 37(12): 1175-1187. [百度学术] 

11

Westergaard D, Stærfeldt H H, Tønsberg C, et al. A comprehensive and quantitative comparison of text-mining in 15 million full-text articles versus their corresponding abstracts[J]. PLoS Computational Biology, 2018, 14(2): e1005962. [百度学术] 

12

Lin J. Is searching full text more effective than searching abstracts?[J]. BMC Bioinformatics, 2009, 10(1): Article No.46. [百度学术] 

13

Yang H C, Aguirre C, Hsu W. PIEKM: ML-based procedural information extraction and knowledge management system for materials science literature[C]// Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing: System Demonstrations. Stroudsburg: Association for Computational Linguistics, 2022: 57-62. [百度学术] 

14

Yang H C, Hsu W. Named entity recognition from synthesis procedural text in materials science domain with attention-based approach[C]// Proceedings of the Workshop on Scientific Document Understanding. CEUR-WS.org, 2021: paper15. [百度学术] 

15

Zhang H H, Ren F L. BERTatDE at SemEval-2020 task 6: extracting term-definition Pairs in free text using pre-trained model[C]// Proceedings of the Fourteenth Workshop on Semantic Evaluation. Stroudsburg: International Committee for Computational Linguistics, 2020: 690-696. [百度学术] 

16

Wray A. Formulaic sequences in second language teaching: principle and practice[J]. Applied Linguistics, 2000, 21(4): 463-489. [百度学术] 

17

Liakata M, Teufel S, Siddharthan A, et al. Corpora for the conceptualisation and zoning of scientific papers[C]// Proceedings of the 7th International Conference on Language Resources and Evaluation. Paris: European Language Resources Association, 2010: 2054-2061. [百度学术] 

18

Shorten C, Khoshgoftaar T M, Furht B. Text data augmentation for deep learning[J]. Journal of Big Data, 2021, 8(1): Article No.101. [百度学术] 

19

Shakeel M H, Karim A, Khan I. A multi-cascaded model with data augmentation for enhanced paraphrase detection in short texts[J]. Information Processing & Management, 2020, 57(3): 102204. [百度学术] 

20

Shah P K, Perez-Iratxeta C, Bork P, et al. Information extraction from full text scientific articles: Where are the keywords?[J]. BMC Bioinformatics, 2003, 4(1): Article No.20. [百度学术] 

21

Zadeh B Q, Handschuh S. Investigating context parameters in technology term recognition[C]// Proceedings of the COLING Workshop on Synchronic and Diachronic Approaches to Analyzing Technical Language. Stroudsburg & Dublin: Association for Computational Linguistics and Dublin City University, 2014: 1-10. [百度学术] 

22

Augenstein I, Das M, Riedel S, et al. SemEval 2017 task 10: ScienceIE - extracting keyphrases and relations from scientific publications[C]// Proceedings of the 11th International Workshop on Semantic Evaluation. Stroudsburg: Association for Computational Linguistics, 2017: 546-555. [百度学术] 

23

Zhang C Z, Mayr P, Lu W, et al. Guest editorial: Extraction and evaluation of knowledge entities in the age of artificial intelligence[J]. Aslib Journal of Information Management, 2023, 75(3): 433-437. [百度学术] 

24

Hong Z, Tchoua R, Chard K, et al. SciNER: extracting named entities from scientific literature[C]// Proceedings of the 20th International Conference on Computational Science. Cham: Springer, 2020: 308-321. [百度学术] 

25

Hou L L, Zhang J, Wu O, et al. Method and dataset entity mining in scientific literature: a CNN + BiLSTM model with self-attention[J]. Knowledge-Based Systems, 2022, 235: 107621. [百度学术] 

26

Kumar A, Starly B. “FabNER”: information extraction from manufacturing process science domain literature using named entity recognition[J]. Journal of Intelligent Manufacturing, 2022, 33(8): 2393-2407. [百度学术] 

27

Brack A, D’Souza J, Hoppe A, et al. Domain-independent extraction of scientific concepts from research articles[C]// Proceedings of the European Conference on Advances in Information Retrieval. Cham: Springer, 2020: 251-266. [百度学术] 

28

Beltagy I, Lo K, Cohan A. SciBERT: a pretrained language model for scientific text[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2019: 3615-3620. [百度学术] 

29

Färber M, Albers A, Schüber F. Identifying used methods and datasets in scientific publications[C]// Proceedings of the Workshop on Scientific Document Understanding. CEUR-WS.org, 2021: paper19. [百度学术] 

30

Shen S, Liu J F, Lin L T, et al. SciBERT: a pre-trained language model for social science texts[J]. Scientometrics, 2023, 128(2): 1241-1263. [百度学术] 

31

Puccetti G, Giordano V, Spada I, et al. Technology identification from patent texts: a novel named entity recognition method[J]. Technological Forecasting and Social Change, 2023, 186: 122160. [百度学术] 

32

Li R, Li D, Yang J X, et al. Joint extraction of entities and relations via an entity correlated attention neural model[J]. Information Sciences, 2021, 581: 179-193. [百度学术] 

33

Wu H Y, Huang J. Joint entity and relation extraction network with enhanced explicit and implicit semantic information[J]. Applied Sciences, 2022, 12(12): 6231. [百度学术] 

34

Luan Y, He L H, Ostendorf M, et al. Multi-task identification of entities, relations, and coreference for scientific knowledge graph construction[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2018: 3219-3232. [百度学术] 

35

Ma Y Q, Liu J W, Lu W, et al. From “what” to “how”: extracting the procedural scientific information toward the metric-optimization in AI[J]. Information Processing & Management, 2023, 60(3): 103315. [百度学术] 

36

Ding B S, Qin C W, Liu L L, et al. Is GPT-3 a good data annotator?[C]// Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2023: 11173-11195. [百度学术] 

37

张颖怡, 章成志, 周毅, . 基于ChatGPT的多视角学术论文实体识别: 性能测评与可用性研究[J]. 数据分析与知识发现, 2023, 7(9): 12-24. [百度学术] 

38

Dai X, Adel H. An analysis of simple data augmentation for named entity recognition[C]// Proceedings of the 28th International Conference on Computational Linguistics. International Committee on Computational Linguistics, 2020: 3861-3867. [百度学术] 

39

Li K, Chen C B, Quan X J, et al. Conditional augmentation for aspect term extraction via masked sequence-to-sequence generation[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2020: 7056-7066. [百度学术] 

40

Ding B S, Liu L L, Bing L D, et al. DAGA: data augmentation with a generation approach for low-resource tagging tasks[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2020: 6045-6057. [百度学术] 

41

Zheng C M, Cai Y, Xu J Y, et al. A boundary-aware neural model for nested named entity recognition[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2019: 357-366. [百度学术] 

42

Vinyals O, Fortunato M, Jaitly N. Pointer networks[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 2692-2700. [百度学术] 

43

Li J, Ye D H, Shang S. Adversarial transfer for named entity boundary detection with pointer networks[C]// Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2019: 5053-5059. [百度学术] 

44

Yan H, Gui T, Dai J Q, et al. A unified generative framework for various NER subtasks[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2021: 5808-5822. [百度学术] 

45

Samuel J, Yuan X H, Yuan X J, et al. Mining online full-text literature for novel protein interaction discovery[C]// Proceedings of the 2010 IEEE International Conference on Bioinformatics and Biomedicine Workshops. Piscataway: IEEE, 2010: 277-282. [百度学术] 

46

Syed S, Spruit M. Full-text or abstract? Examining topic coherence scores using latent dirichlet allocation[C]// Proceedings of the 2017 IEEE International Conference on Data Science and Advanced Analytics. Piscataway: IEEE, 2017: 165-174. [百度学术] 

47

Dang V B, Aizawa A. Multi-class named entity recognition via bootstrapping with dependency tree-based patterns[C]// Proceedings of the 12th Pacific-Asia Conference on Knowledge Discovery and Data Mining. Heidelberg: Springer, 2008: 76-87. [百度学术] 

48

Zeng X J, Li Y L, Zhai Y C, et al. Counterfactual generator: a weakly-supervised method for named entity recognition[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2020: 7270-7280. [百度学术] 

49

Toulmin S. Human understanding[M]. Princeton: Princeton University Press, 1977. [百度学术] 

50

Houngbo H, Mercer R E. Method mention extraction from scientific research papers[C]// Proceedings of COLING 2012. The COLING 2012 Organizing Committee, 2012: 1211-1222. [百度学术] 

51

Gupta S, Manning C D. Analyzing the dynamics of research by extracting key aspects of scientific papers[C]// Proceedings of the 5th International Joint Conference on Natural Language Processing. Asian Federation of Natural Language Processing, 2011: 1-9. [百度学术] 

52

Chu H T, Ke Q. Research methods: What’s in the name?[J]. Library & Information Science Research, 2017, 39(4): 284-294. [百度学术] 

53

Qasemizadeh B, Schumann A K. The ACL RD-TEC 2.0: a language resource for evaluating term extraction and entity recognition methods[C]// Proceedings of the Tenth International Conference on Language Resources and Evaluation. Paris: European Language Resources Association, 2016:1862-1868. [百度学术] 

54

Wang Z H, Shang J B, Liu L Y, et al. CrossWeigh: training named entity tagger from imperfect annotations[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2019: 5154-5163. [百度学术] 

55

张颖怡. 学术论文中“问题-方法”关系抽取研究[D]. 南京: 南京理工大学, 2022. [百度学术] 

56

孙向东, 刘拥军, 陈雯雯, . 箱线图法在动物卫生数据异常值检验中的运用[J]. 中国动物检疫, 2010, 27(7): 66-68. [百度学术] 

57

Wang Y Z, Zhang C Z. Using the full-text content of academic articles to identify and evaluate algorithm entities in the domain of natural language processing[J]. Journal of Informetrics, 2020, 14(4): 101091. [百度学术]