en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
黄玲, 姜小兰. 我国科技期刊摘要存在的问题及原因浅析[J]. 长江科学院院报, 2014, 31(7): 114-118.
参考文献 2
张郁佳. 中英语言学学术期刊摘要的元功能分析[J]. 黑龙江生态工程职业学院学报, 2017, 30(4): 148-150.
参考文献 3
高建群, 吴玲, 施业. 学术论文摘要的规范表达[J]. 东南大学学报(哲学社会科学版), 2003(2): 114-117.
参考文献 4
SilvaJ, CoheurL, MendesA C, et al. From symbolic to sub-symbolic information in question classification[J]. Artificial Intelligence Review, 2011, 35(2): 137-154.
参考文献 5
CuiL, ZhangD, LiuS, et al. Learning topic representation for SMT with neural networks[C]//Proceedings of Conference of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2014: 133-143.
参考文献 6
WangD, NybergE. A long short-term memory model for answer sentence selection in question answering[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2015: 707-712.
参考文献 7
郑秋生, 翟琳琳. 基于改进Rocchio算法的短文本自动分类研究[J]. 中原工学院学报, 2013, 24(1): 70-73.
参考文献 8
林小俊, 张猛, 暴筱, 等. 基于概念网络的短文本分类方法[J]. 计算机工程, 2010, 36(21): 4-6.
参考文献 9
孙建旺, 吕学强, 张雷瀚. 基于语义与最大匹配度的短文本分类研究[J]. 计算机工程与设计, 2013, 34(10): 3613-3618.
参考文献 10
张群, 王红军, 王伦文. 词向量与LDA相融合的短文本分类方法[J]. 现代图书情报技术, 2016(12): 27-35.
参考文献 11
李湘东, 曹环, 丁丛, 等. 利用《知网》和领域关键词集扩展方法的短文本分类研究[J]. 现代图书情报技术, 2015(2): 31-38.
参考文献 12
ZhouC, SunC, LiuZ, et al. A c-LSTM neural network for text classification[J]. arXiv Preprint arXiv: 1511.08630, 2015.
参考文献 13
DongL, WeiF, ZhouM, et al. Question answering over freebase with multi-column convolutional neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2015: 260-269.
参考文献 14
QuY, LiuJ, KangL, et al. Question answering over freebase via attentive RNN with similarity matrix based CNN[J]. arXiv: 1804.03317, 2018.
参考文献 15
ZhangD, WangD. Relation classification via recurrent neural network[J]. arXiv Preprint arXiv: 1508.01006, 2015.
参考文献 16
JiW. Structure regularized bidirectional recurrent convolutional neural network for relation classification[J]. arXiv Preprint arXiv: 1711.02509, 2017.
参考文献 17
孙晓, 彭晓琪, 胡敏, 等. 基于多维扩展特征与深度学习的微博短文本情感分析[J]. 电子与信息学报, 2017, 39(9): 2048-2055.
参考文献 18
殷亚博, 杨文忠, 杨慧婷, 等. 基于卷积神经网络和KNN的短文本分类算法研究[J]. 计算机工程, 2018, 44(7): 193-198.
参考文献 19
彭玉青, 宋初柏, 闫倩, 等. 基于VDCNN和LSTM混合模型的中文文本分类研究[J]. 计算机工程, 2017, 43(11): 123-130.
参考文献 20
薛涛, 王雅玲, 穆楠. 基于词义消歧的卷积神经网络文本分类模型[J]. 计算机应用研究, 2018, 35(10): 1-8.
参考文献 21
陆伟, 黄永, 程齐凯. 学术文本的结构功能识别——功能框架及基于章节标题的识别[J]. 情报学报, 2014, 33(9): 979-985.
参考文献 22
黄永, 陆伟, 程齐凯. 学术文本的结构功能识别——基于章节内容的识别[J]. 情报学报, 2016, 35(3): 293-300.
参考文献 23
黄永, 陆伟, 程齐凯, 等. 学术文本的结构功能识别——基于段落的识别[J]. 情报学报, 2016, 35(5): 530-538.
参考文献 24
王立非, 刘霞. 英语学术论文摘要语步结构自动识别模型的构建[J]. 外语电化教学, 2017(2): 45-50, 64.
参考文献 25
PhamT H, Le-HongP. End-to-end recurrent neural network models for vietnamese named entity recognition: Word-level vs. character-level[C]// Proceedings of the 15th International Conference of the Pacific Association for Computational Linguistics. Springer, 2017: 46-53.
参考文献 26
HochreiterS, SchmidhubeR J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
参考文献 27
CrossJ, HuangL. Incremental parsing with minimal features using bi-directional LSTM[J]. arXiv Preprint arXiv: 1606.06406, 2016.
参考文献 28
HearstM A, DumaisS T, OsunaE, et al. Support vector machines[J]. IEEE Intelligent Systems and Their applications, 1998, 13(4): 18-28.
参考文献 29
LaffertyJ, McCallumA, PereiraF. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the Eighteenth International Conference on Machine Learning, 2001: 282-289.
参考文献 30
HuangZ, XuW, YuK. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv Preprint arXiv: 1508.01991, 2015.
目录 contents

    摘要

    学术文献摘要的各个结构都具有特定的功能,但是目前对学术文献摘要结构功能自动识别的研究相对较少,且存在方法较为传统、识别效果不显著的问题。以摘要文本中的字为基本语义单位,本文以基于具有序列属性的LSTM-CRF模型的深度学习方法,利用摘要中所有字所包含的语义信息,构建了期刊论文摘要结构功能自动识别模型,并与具有非序列属性的SVM模型与具有序列属性的RNN模型、CRF模型和LSTM模型进行了多个角度地对比。本文提出的模型在摘要结构功能识别的准确率、召回率和F值上均取得显著效果,F值最高达到85.47%。与RNN模型、CRF模型、LSTM模型和SVM模型相比,LSTM-CRF的平均整体性能分别提升了33.63%、39.13%、32.81%和38.33%。

    Abstract

    The structure of each academic-literature abstract has a specific function. However, there are relatively few studies on the automatic recognition of the structural abilities of academic abstracts at present; furthermore, these studies have some problems, such as methods that are too traditional, as well as insignificant recognition. Based on the deep learning method of the LSTM-CRF model with sequence properties, this paper constructed an automatic structure recognition model that uses the semantic information contained in all characters in the abstract, and compared the result with SVM models without sequence properties, RNN, CRF and LSTM with sequence properties in multiple angles by taking the character as the basic semantic unit. The model proposed in this paper achieved remarkable results in accuracy, recall, and F-value in structure recognition, with the highest F-value reaching 85.47%. Compared with the models of RNN, LSTM, CRF, and SVM, its performance is enhanced by 33.63%, 32.81%, 39.13%, and 38.33%, respectively.

  • 1 引 言

    1

    国家标准《文摘编写规则》(GB 6447-86)对摘要的定义为:“以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文[1]。摘要作为文献的开头和内容的提炼,在内容和格式上都有着严格的要求。它包含论文最重要的信息,呈现出具体的规律和突出的特[2],即便不看全文就可以知道文献的中心内容。摘要的规范性和严密性等特点,主要是通过摘要结构进行体现的。摘要结构功能是摘要的每个结构部分在学术论文的内容层次上的功能作用。摘要之所以能够体现全文内容,展现文献的逻辑结构,是因为摘要的诸如“目的”、“方法”、“结果”等各个结构部分能够体现出很强的目的性和功能性。所以,通过查阅文献的摘要,科研人员即可快速、准确地了解该文献的基本内容,从而确定是否需要阅读全[3]。然而,目前在学术研究的过程中,往往面临以下两个方面的问题:

    (1)在学术文献的检索过程中,近乎所有市面上的电子期刊数据库,在基于摘要检索的层面上,仅提供对于整段摘要的检索途径,也就是说,无法对摘要中的诸如“目的”、“方法”等的结构功能进行单独检索。

    (2)在进行相关研究的查证与分析时,科技人员大多采用传统的人工查阅摘要的方法来选取文献,即通过阅读整段摘要来获取所需信息。如果仅需要获取摘要中特定的某个结构功能的信息,则需要通过人工的方式从整段摘要中提取出所需的功能结构,无法通过自动化的手段对摘要的结构功能进行拆分。

    为了更加高效和快捷地获取摘要中的语义内容并实现对相应信息的精准检索,基于相应带结构功能标记的摘要文本,在CRF、SVM、RNN、LSTM和LSTM-CRF等模型的基础上,利用摘要文本中所有字包含的语义信息,本文进行了一系列的摘要结构功能自动识别模型构建实验,并经过对比和分析确定了最优的摘要结构功能自动识别模型。本文后续的内容结构安排如下:第2节对相关的研究进行了综述;第3节对数据源和模型进行介绍;第4节进行基于LSTM-CRF模型的摘要结构功能自动识别模型的构建,并与基于CRF模型、SVM模型、RNN模型和LSTM模型的效果进行了对比分析;第5节对基于深度学习的摘要结构功能自动识别的整体情况进行总结,并提出下一步的工作。

  • 2 相关研究状况

    2

    针对本文的研究内容,结合已有的相关研究,本文主要从短文本自动分类、深度学习的相应探究和篇章结构分类这三个方面整理、总结和分析了已有的相关研究。事实上,由于摘要的文本长度相对比较短、字数少,文本的向量相对比较稀疏,对期刊论文的摘要结构功能自动识别,实际上是属于短文本自动分类的范畴。传统的自动分类方法如K近邻算法(K-NN)、朴素贝叶斯(NB)、决策树(DT)、简单向量距离(Rocchio)、支持向量机(SVM)等,在长文本分类方面取得了令人满意的效果,但是在短文本分类的应用中具有一定的局限性。短文本分类的相关代表性研究有:结合问句这一短文本分类的需求,Silva[4]对词汇和语义特征进行了组合并根据其在语料中的重要程度进行加权,并基于利用线性核(linear SVM)进行了分类实验。基于神经网络,Cui[5]通过词袋和依存句法树提取相应的特征知识,针对具体的分类任务,在融入对核函数值进行调整的改进模型基础上,对短文本分类进行了多个角度的探究。基于长短时记忆神经网络(LSTM),Wang[6]充分利用问句和答案句之间的语义特征知识,从分类的角度探讨了如何对短文本句子进行选择。郑秋生[7]使用Rocchio算法来对短文本进行分类,在实施分类过程中,改进了训练集和分类算法,使得分类效果更好。林小俊[8]针对档案领域的短文本分类,提出一种基于概念网络的自动分类方法,将短文本转化为资源描述框架表示的结构化概念网络,定义概念网络间的语义相似度,从而有效改善档案的自动分类性能。孙建旺[9]提出了基于语义与最大匹配度的短文本分类方法,基于语义与最大匹配度的方法计算短文本相似度,应用K-NN算法进行短文本分类,从而解决了基于VSM方法在进行短文本分类时存在的数据稀疏问题。张群[10]从“词”粒度及“文本”粒度层面同时对短文本进行精细语义建模,设计一种基于词向量与LDA主题模型相融合的短文本分类方法。李湘东[11]提出一种基于知网(HowNet)领域关键词集扩展的短文本分类方法,按照特征词和隐含主题两种特征粒度,分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。借助知网(HowNet)计算待分类文本与各领域关键词集的语义相似度。与LDA模型和VSM的短文本分类算法相比,Micro_F1值都具有一定的提高。

    深度学习技术最先在图像处理和语音识别中发挥了重要的作用。近年来,随着深度学习技术的发展,一些研究者开始将深度学习技术应用到自然语言处理中。针对情感和文本分类的具体任务,Zhou[12]基于CNN获取语料中的句子特征,并把这一特征有机的融入LSTM神经网络模型当中,获得了较好的分类效果。结合领域化的知识库,Dong[13]针对问答系统中的问句这一短文本分类问题,利用多柱卷积神经网(muti-column)构建了相应的分类模型,整体上效果非常突出,利用同样的研究策略,在Freebase这一知识库的基础上,Qu[14]针对问句分类的问题,构建了强化RNN分类模型,也达到了非常不错的效果。针对句子当中词汇分类的问题,Zhang[15]结合深度卷积信念网提出了深度融合词汇与句子之间多维特征的分类模型,在这一理念下,Ji[16]针对关系分类这一研究任务,提出了通过融入实体特征知识进而构建SR-BRCNN分类模型的设想并进行了相应的验证。孙晓[17]提出了一种基于深度信念网络(DBN)和多维扩展特征的模型,实现了对中文微博短文本的情感分类,获得了比SVM和NB等浅层分类系统更优的结果。殷亚博[18]提出了一种基于卷积神经网络的KNN短文本分类算法CKNN,解决了传统基于TF-IDF的KNN分类算法在短文本分类时出现特征维度过高和数据稀疏的问题。彭玉青[19]提出一种超深卷积神经网络(VDCNN)与长短记忆网络(LSTM)相结合的混合模型,有效地提升了在Sogou语料库和复旦大学中文语料库中文本分类的精确率。薛涛[20]提 出一种词义消歧的卷积神经网络文本分类模型WSDCNN,使用BLSTM建得到词义消歧后的文档特征图并利用CNN提取特征,实验结果在文档级数据集上优于先前最好的方法。

    目前,关于学术论文的章节结构功能自动识别研究已经得到了一定的关注。陆伟和黄永等从基于章节标[21]、基于章节内容和标[22]、基于段[23]这三个层次对学术文本的结构功能进行了识别,提出了从章节结构信息角度来进行学术文本研究的新方法。但是对学术文献摘要结构功能自动识别的研究相对较少。王立非[24]利用语料库和自然语言处理方法,提取有效语步预测特征,通过条件随机场获得摘要语步结构自动识别模型,突破了长久以来依赖于人工的语步分析法。为了解决传统短文本分类方法在分类时出现数据稀疏、分类效果和准确率较差的问题,以字为基本语义单位,结合图书情报领域已经添加了结构功能标记的摘要文本,充分利用摘要文本中每一个字所包含的语义信息,本文提出了一种基于深度学习系列模型的摘要结构功能自动识别方法,在实验中取得了相对不错的识别效果,在一定程度上也说明了序列属性的深度学习模型在摘要结构功能拆分上具有较强的适应性。

  • 3 数据源和模型简介

    3
  • 3.1 数据来源简介

    3.1

    通过对大量期刊的摘要文本结构与表达形式的调研,本文发现《图书情报工作》、《情报杂志》、《情报探索》、《数据分析与知识发现》(原《现代图书情报技术》)、《情报科学》、《情报理论与实践》、《现代情报》和《农业图书情报学刊》共8种情报领域的期刊,对摘要进行了结构功能的标记,具体被标记为【目的】、【方法】、【结果】和【局限】等。为了获取包含有规范化标注的期刊论文摘要,本文总结了如表1的“摘要结构功能检索关键词集”,每次检索从P、M、C、L检索关键词集中各取出一个词,通过排列组合各结构功能对应的检索关键词,从中国知网(CNKI)下载了2014—2017年的图书情报学领域带有结构功能标记的摘要,经过去重和清理共得到了4976条包含任一上述标记内容的摘要记录,而所有摘要共由1383328个字构成。由于摘要中对不同的功能标记有一些差异,因此基于功能标记的词汇,整理了四类主要的功能,主要包括了“目的、方法、结果和局限”这四类,表1给出了结构功能的类别及所涉及的标记词汇。

    表1 摘要结构功能类别及标记词汇

    标记功能类别类别标记所使用的词汇
    P目的目的,意义
    M方法方法,过程,手段,内容
    C结果结果,结论
    L局限局限
  • 3.2 模型简介

    3.2

    根据构建摘要结构功能自动识别模型的需要,本文主要对具有线性序列属性的循环神经网络(RNN)模型、长期短期记忆网络(LSTM)模型和LSTM-CRF模型等深度学习模型进行了简介,同时为了验证所构建深度学习模型的性能,也对条件随机场(CRF)模型和支持向量机(SVM)模型的原理进行了介绍。

  • 1) LSTM模型

    1)

    在摘要结构功能自动识别模型构建的实验当中,循环神经网络(Recurrent Neural Network,RNN[25]是最先被选用的深度学习模型,因为该模型具有较强的序列标记属性,并通过把神经网络中的隐藏层进行有效的关联,解决了前馈神经网络(Feed Forward Neural Network)在输入上存在的反馈机制问题,这一点对于摘要结构功能识别这一典型的短文本序列探究任务来说特别地重要和关键。在具体实现上,RNN通过把输入集{x0,x1,,xt,xt+1}视作一个单一的输入向量进行处理,并同时在返回结果中融入另一个另外向量的序列输入集{y0,y1,,yt,yt+1...}。隐藏层和输出层在RNN模型中的具体计算公式为:

    ht=f(Uxt+Wht-1)
    (1)
    yt=g(Vht)
    (2)

    式中,t表示某一特定的时刻,而xhy分别表示输入层、隐藏层和输出层,h为隐藏层,y为输出层,UWV分别代表了对应的权值。在上述两个公式中,fg是两个函数的表示形式,前者代表非线性激活函数sigmoid,后者表示softmax激活函数。为了确保从深度学习的角度对摘要结构功能的划分进行客观和一致的对比,对于RNN模型的参数设置本文重新选取与LSTM一致的参数。由于RNN仅仅是进行性能的对比,根据适应RNN模型性能的参数性能,具体选取和设置的模型参数如下。在摘要结构功能识别的实验中,根据总体语料的规模,迭代次数设置为100,而隐藏单元数则设定为150。考虑到RNN为单向神经网络在学习率的设置上则设定为0.006,而dropout为0.2,其主要的作用是在一个梯度步长中移除从神经网络层中随机选择的固定数量的单元。梯度夹子则根据具体的性能设定为5,梯度夹子主要是有助于确保摘要结构功能识别中数值的稳定性以及防止梯度爆炸。本文所有深度学习的实验均是基于摘要文本当中所有的字进行的,没有对摘要中的任何字使用任何算法进行去除、筛选和加权处理。在上述所设定的不同参数基础上,基于摘要全文本构建了RNN系列深度学习模型。

    在对摘要结构功能进行识别的具体任务上,从原理上来说RNN模型可以从摘要的训练数据当中学习结构功能的长距离依赖关系特征,但在具体实验的性能上表现并不好,因为在时间序列训练较长的任务当中,随着摘要结构功能数据训练深度的加深,RNN模型会导致梯度消失和梯度爆炸问题的出现。基于记忆单元(Memory Cell,MC),长期短期记忆网络(Long Short-Term Memory,LSTM[26]通过有机协调输入控制门(input gate,IG)、输出控制门(output gate, OG)和遗忘门(forget gate,FG)这三个门实现了对长距离训练信息的有效处理,从而解决了RNN模型自身所存在的问题。在整个LSTM模型当中,LSTM记忆单元是关键构成部分,具体计算公式为:

    it=σ(Wiht-1+Uixt+bi)
    (3)
    ft=σ(Wfht-1+Ufxt+bf)
    (4)
    ot=σ(Woht-1+Uoxt+bo)
    (5)
    ct=ftct-1+ittanh(Wcht-1+Ucxt+bc)
    (6)
    ht=ottanh(ct)
    (7)

    在摘要结构功能识别的具体实验中,σ表示所选取的激活函数,具体为sigmoid函数。itftot则分别代表当前数据训练t时刻的IG、OG和FG,而ct则表示对应当前时刻三个门下的MC。U表示实现输入序列和三个控制门之间的连接权重矩阵值,相应的b则是对应的偏置向量。在摘要结构功能识别的实验过程中,字是本文训练深度学习模型的最小单位。为了能够充分利用字前面序列和字后序列两个序列方向上的语义信息,本文具体使用双向LSTM(Bi-LSTM[27]模型来训练摘要结构自动识别的模型,因为该模型是由正向和逆向两个LSTM组合的模型,能够充分学习所训练序列数据当中的隐藏特征知识。如无特殊说明,下面的基于LSTM的序列化标注方法,均使用了Bi-LSTM,为了称谓方便,本文对Bi-LSTM仍然称为LSTM。

    在具体的LSTM实验过程中,针对摘要文本中的所有字,通过采用小批量随机梯度下降法进行反向梯度传递,根据摘要总文本的数量设置批量为15~64,初始的学习率为1.0,在第6轮迭代时,开始按0.6的速度减少学习率,并确定有效的初始学习率为0.6~0.001。摘要结构功能划分的字模型的步数相对比较大,本文将字反向传递的最大步数设为57,初始化所有的参数为-0.1~0.1的随机分布。为了防止梯度过大,本文使用梯度夹子技术并设置为5,为了减轻过拟合现象,我们使用了dropout技术,并设置为0.8~0.5。在后续的LSTM-CRF模型实验中,LSTM模型部分所使用参数与上述参数一致。

  • 2) 支持向量机模型

    2)

    支持向量机(Support Vector Machine,SVM[28]是有监督机器学习中支持向量计算的分类器,其核心思想是通过构造分割面将数据进行两类或者多类的分类。支持向量机在自然语言分类领域有着广泛应用,将文本中的字频作为特征属性输入SVM,这意味着把文本看作是一个词袋,对于词袋中的每个单词都存在一个特征,特征值就是这个词出现的频率,再将词频向量化就可以使用SVM分类,其基本理念可由图1表示。

    图1                            支持向量机的基本理念

    图1 支持向量机的基本理念

    从摘要进行自动划分的研究任务上来看,按照目的、方法、结果和局限四种构成功能对摘要进行划分是非常适用于支持向量机这一机器学习模型的,并且是多分类的探究任务。基于摘要文本中包含的所有字,在具体实验的过程中,所使用的核函数为linear,具体代价函数C的值设置为0.8。同时,为了适当改进SVM的整体性能,把gamma设定为20,度设定为9。

  • 3) CRF模型

    3)

    在与序列标注相关的问题上,条件随机[29]是一种非常有效的机器学习模型。在所提供的一组需要标记的待观察序列的前提下,其中心思想体现为计算整个观察序列状态标记的联合条件概率分布的无向图模型,在相应的序列标记的语料上其训练目标是使得条件概率最大化。在使用条件随机场模型对摘要进行结构功能划分的主旨理念是把类别判定的问题转化为序列标注的问题。设x={x1,x2,…,xn–1,xn}表示被观察到的输入摘要的数据序列,如本文实验所使用的所有摘要文本中的字;y={y1,y2,…,yn–1,yn}表示有限状态集合,其中每个状态对应于一个摘要结构功能的待标注的标记。在给定输入的摘要序列x的条件下,对于参数λ={λ1,λ2,…,λn–1,λn}的线性链CRFs的状态序列y的条件概率为:

    p(x|x,λ)=1zxexpi=1njλjfj(yi-1,yi,x,i)
    (8)
    zx=yexpi=1njλjfj(yi-1,yi,x,i)
    (9)

    式中,zx为归一化因子,表示所有可能的摘要文本的状态序列的得分,确保所有可能状态序列的条件概率之和为1。fj(yi-1,yi,x,i)是特征函数,一般被表示为二值表征函数;λj是基于条件随机场模型对所训练摘要数据进行训练之和获得的相应特征函数的权重。在所构建的汉语一元单字特征模板基础上,以摘要中的所有汉字为输入单位。基于上述模型训练的具体参数,本文构建了面向摘要结构功能划分的机器学习模型。在上述条件随机场模型原理的基础上,根据所设定的一元单字特征模板的需要,结合摘要结构划分的语料规模和具体任务,LBFGS和FLOAT的参数选取一开始的默认值,即分别为10 k和0.0001。

  • 4) LSTM-CRF模型

    4)

    由于摘要结构功能自动识别模型的四个输出标签之间存在非常紧密的依赖关系,而这正是LSTM模型本身所具有的缺陷,特别是在小规模数据和数据标注质量较差的情况下这一缺陷表现的更加突出。为了解决这一问题,本文在摘要结构功能识别的实验中引入了LSTM-CRF模[30],因为这一模型不仅确保了LSTM能够从摘要序列的训练数据当中学习到充分的特征知识,而且通过CRF能够解决所输出的摘要四个类别之间存在的前后依赖关系这一问题。图2给出了基于LSTM-CRF模型的摘要结构功能自动识别的整体框架,该框架由五个部分构成,具体如下:第一部分为摘要文本的字输入,因为本文所进行的摘要结构功能自动识别是基于文本的所有字展开的,所以输入的最基本单位是字;第二部分为摘要字向量映射层,针对摘要文本当中的所有字实现字嵌入(embedding)操作,实现对摘要文本中所有字的低维度向量表示,进而增强摘要字之间的语义关联性;第三部分为双向长期短期记忆网络,这一部分主要通过正向和逆向的LSTM来实现对摘要文本中所蕴含特征的自动获取;第四部分为条件随机场模型,针对双向长期短期记忆网络所输出的摘要分类标签通过CRF进行优化;第五部分为摘要分类结果的输出,摘要结构功能的最优预测分类标签在这一层进行输出。

    图2                            LSTM-CRF模型的主要架构

    图2 LSTM-CRF模型的主要架构

  • 4 模型构建与性能对比

    4
  • 4.1 语料的预处理

    4.1

    根据对所抓取数据的整理,一篇期刊论文的摘要一般由四个结构功能部分组成:目的、方法、结果和局限。如图3所示,这四个结构功能被分别以【目的】、【方法】、【结果】和【局限】四个标签进行标注。虽然少数期刊论文还存在“文献范围”、“应用背景”等结构功能,同时也存在四个结构不全的情况,对于上述数据的情况,本研究将其列为不规范摘要并从数据集中删除。经过对摘要格式的分析,本文发现部分摘要存在格式不规范现象,即摘要未注明各部分的结构功能信息。除此以外,对摘要结构功能的标注还存在标注标准不统一的问题。例如,对于摘要中“结果”部分结构功能的标注,出现了【结果】、【结论】、【结果/结论】和【结果与建议】等多种标注方式。甚至还有少数摘要存在结构功能标注错误的现象。针对此类问题,基于表1中对摘要构成部分所使用的词汇的总结和归纳,并按照上文规定的标注标准,人工逐一地统一了结构功能的标签。最终,本文共得到3526份带有完整的“目的、方法、结果和局限”四类结构功能的摘要记录,具体样例如图3所示。

    图3                            规范的摘要结构功能样例图

    图3 规范的摘要结构功能样例图

    对摘要中各结构功能的内容,也就是各个结构功能标签所对应的描述性文本,本文定义了12位标记集进行标注,以便于进行模型训练,具体标记如表2所示。

    表2 摘要结构功能识别标记集情况

    标记标记的含义
    B-md目的初始字
    I-md目的中间字
    E-md目的末尾字
    B-ff方法初始字
    I-ff方法中间字
    E-ff方法末尾字
    B-jg结果初始字
    I-jg结果中间字
    E-jg结果末尾字
    B-jx局限初始字
    I-jx局限中间字
    E-jx局限末尾字

    其中,“目的”、“方法”、“结果”和“局限”四个结构功能内容分别用{md, ff, jg, jx}这四个标记来进行标注,对于每个结构功能内容标记,又分别加上{B-, I-, E-}前缀来表示该结构功能内容的初始字、中间字和末尾字。例如,B-md表示结构功能内容“目的”的初始字,I-md为“目的”的中间字,E-md为“目的”的末尾字。本文通过编写Python程序,结合语料中结构功能已经标注好的“【】”标记,自动对数据集中所有摘要结构功能内容进行标注。

  • 4.2 模型评价指标

    4.2

    在本文中,摘要结构功能自动识别的实验主要是通过把分类的问题转化为线性序列标注的问题进行的,因而对于CRF、RNN、LSTM和LSTM-CRF等模型性能的判定是通过准确率、召回率和调和平均这三个指标展开的,具体指标计算如下。

    P=AA+B×100%
    (10)
    R=AA+C×100%
    (11)
    F=2×P×RP+R×100%
    (12)

    式中,A表示正确识别摘要结构功能个数,B表示错误识别摘要结构功能个数,C表示未识别出来的摘要结构功能个数。基于自然语言处理研究中对线性序列模型性能评价的一般标准,在对RNN模型、CRF模型、LSTM模型和LSTM-CRF模型的评价过程中,没有使用正确率(accuracy)这一指标,因为相对精准率来说,这一指标在评价的颗粒度上过于粗糙。

    为了系统地验证基于深度学习系列模型的整体性能,本文也在同样规模的语料上构建了基于SVM的摘要结构功能自动识别模型。但这一识别模型是按照SVM的训练和测试要求进行的,即把同样规模的语料根据分类而不是序列标注的理念,按照目的、方法、结果、局限四个类别构建训练和测试数据集,因此在评价基于SVM所构建的模型性能上是遵循分类的评价指标体系进行的,在本文中主要采用了宏平均(macro-averaging)这一指标体系。在具体实验过程中,没有基于任何的统计算法筛选特征字,而是完全使用摘要文本当中的所有字展开实验。为了更加直接而宏观的呈现SVM的分类结果,本文主要是通过宏平均值这一个指标与上述四个评价线性模型的调和平均值进行对比,具体计算公式为:

    F=i=1nFin
    (13)

    通过对每一类判定的准确类别、错误类别和未判定类别的计算,得到每一个类的判全率和判准率,而宏平均值则是对所有类的判全率和判准率求平均值。

  • 4.3 摘要结构功能识别的效果分析

    4.3

    本文基于上文中标注的摘要全文本语料,使用LSTM-CRF模型进行摘要结构功能识别。在具体的实验中使用十折交叉验证的方法来测试所构建模型的性能,将数据集按照9∶1的比例分为训练语料和测试语料。为了更好地检测LSTM-CRF模型的性能,本文设置了对照实验,主要涵盖了RNN识别结果的实验、CRF识别结果的实验、SVM模型的分类结果实验和使用不加CRF层的LSTM模型的实验。为了排除非相关因素的干扰,LSTM-CRF、CRF、RNN和LSTM实验均使用十折交叉验证的方法分别进行了10组训练和测试。四个模型的每一折验证实验所使用的训练语料和测试语料相同,同时为了更加直接和简洁地呈现实验结果,本文只在表3中展示出了四个模型的最高值、最低值和平均值。在同样规模的语料上,SVM的实验也是在9∶1的训练和测试语料上进行的,与上述四个模型一样也进行了十折交叉验证,具体宏平均值的最高值、最低值和平均值的结果如表3所示。基于五个模型的实验均是在内存为8G的Linux系统上进行的,采用的编程语言是Python,使用型号为Quadro K1200的GPU进行加速模型训练过程。

    表3 五个模型下的摘要结构功能识别性能比较%

    序号LSTM-CRFRNNLSTMCRFSVM
    PRFPRFPRFPRF宏平均值
    最高值85.4785.4785.4761.2560.0060.6256.5475.9164.8148.1245.1946.6148.58
    最低值85.1485.2985.2143.1543.4543.3029.8873.9542.5645.4442.7044.0343.81
    平均值84.4184.5784.4950.9750.7550.8640.2774.4851.6846.7344.0745.3646.16

    在以字为单位的深度学习模型和非线性的支持向量机模型对摘要进行结构功能划分的实验结果中,LSTM-CRF模型在整体性能上远超出支持向量机模型,在平均值上高出38.33%。这一实验结果说明了LSTM-CRF模型能够利用摘要当中的字的特征,并把这一特征与摘要结构功能划分进行有机的融合。

    通过对比线性序列模型CRF与深度学习和CRF的组合模型LSTM-CRF之间的性能,基于一元特征模板这种与深度学习模型一样不加任何特征的实验,CRF模型是其他单一模型中整体性能最差的模型。在整体性能上,LSTM-CRF的平均F值比CRF高出了39.13%。从具体实验上可以看出,LSTM-CRF较好地克服了CRF在召回率上比较弱的这一缺陷,从整体上提升了针对学术摘要进行结构功能自动划分的性能,也从侧面在一定程度上说明了深度学习模型的优越性。

    通过具体的实验比较LSTM-CRF和RNN这两个模型的整体性能发现,LSTM-CRF在整体性能上比RNN这一深度学习模型要优越很多,调和平均值高出33.63%,但相对另外两个非深度学习模型来说,具有一定的优势,特别是在深度学习同一参数体系下。这一实验在一定程度上表明LSTM-CRF比RNN更易于学习到字与字之间的长期依赖关系,特别是在摘要划分这一线性序列比较长的组合上表现得更加充分。

    在对比实验中,基于不加CRF层的LSTM模型识别效果则不尽人意。除了平均召回率达到了74.48%以外,平均识别准确率仅为40.27%,还没有达到LSTM-CRF模型的一半。最低准确率仅为29.88%。最低F值为44.04%,最高F值仅达到64.81%,平均F值只有51.68%,与LSTM-CRF模型的平均F值也存在较大差距。这说明了仅使用LSTM模型是无法准确识别摘要的结构功能。由于深度学习模型在进行训练时具有较强的数据表达能力,对数据量的要求非常高,而本研究使用的数据集并非大规模数据,这导致了不加CRF层的LSTM模型在进行摘要结构功能识别时,难以形成对整个数据的描述从而出现过拟合现象,导致识别效果不佳。而加上了CRF层以后,LSTM-CRF模型将LSTM输出的相互独立的标签优化为最佳标签序列,从而提高了深度学习模型的性能。

    而基于LSTM-CRF模型的摘要结构功能识别取得了较好的效果。各组的准确率和召回率达到了83%以上,平均准确率和召回率均超过了84%,最佳准确率和召回率均为85.47%。LSTM-CRF模型的最低F值为83.51%,最高F值为85.47%,平均F值达到了84.49%。这表明基于LSTM-CRF模型的摘要结构功能识别是完全可行的。

    为了进一步分析深度学习模型的具体性能,表4选取了LSTM-CRF模型和LSTM模型中各自F值最高的一组模型,展示了每个摘要结构功能标记具体的识别情况。LSTM-CRF模型的各个标记识别的F值均超过了82%,最高F值“方法”结构功能识别达到了89.63%。在数据集规模较小的情况下,LSTM-CRF模型对“方法”结构功能的识别准确率就已经达到了92.05%,这体现出了LSTM-CRF模型在摘要结构功能识别方面存在的巨大潜力。从表4可以看出LSTM模型的摘要结构功能识别效果较差,“局限”结构功能识别的F值最低,为47.27%,“方法”结构功能识别的F值最高,但是也仅仅达到了72.77%。通过对两种结构功能文本长度的分析,本文发现“局限”结构功能的平均文本长度为43.12字,而“方法”结构功能的平均文本长度达到了91.04字。由于LSTM模型在对长远的上下文信息进行捕获时具有较强的能力,所以对于平均文本长度更长的“方法”功能结构识别取得了更高的F值。另一方面,由于LSTM模型输出的是相互独立的标签,这使得当输出标签之间存在较强的依赖关系时,LSTM模型的性能将会受到影响。而LSTM-CRF模型在加入了CRF层之后,通过CRF层考虑输出独立标签之间前后的依赖关系,从而使得摘要结构功能识别性能得到大幅提升。

    表4 LSTM-CRF模型和LSTM模型性能最佳模型各标记识别情况%

    类别标记LSTM-CRF模型LSTM模型
    准确率召回率F准确率召回率F
    目的md79.8486.09%82.8550.7473.5460.05
    方法ff92.0587.33%89.6362.9686.2272.77
    结果jg84.7983.29%84.0457.8371.8564.08
    局限jx86.4984.2185.3341.2755.3247.27

    通过对实验结果进行各个角度地对比和分析,具体的实验数据表明LSTM-CRF模型在摘要结构功能自动识别上具有较为突出的性能优势,而导致该模型性能较为突出的原因具体如下。一方面从训练语料的数据源来说,虽然整个数据量仅达到百万级规模,但在把分类问题转化为序列标注的问题之后,摘要中所有的字符均与判定类别有关,并且整个训练单位的长度相对实体识别、术语抽取的训练单位来说跨度较大,这就导致了能够充分发挥深度学习模型和条件随机场模型各自的优势,从而提升了所构建摘要结构功能自动识别模型的整体性能。另一方面从模型本身来说,基于LSTM模型所构建的摘要结构功能自动分类模型的输出标签之间是前后密切联系在一起的、具有极强的依赖关系,即所有的输出部分均应标注目的、方法、结果、局限四种类别当中的一个,但LSTM模型在输出这一密切联系在一起的类别判定结果的时候会有较大的不准确性,而LSTM-CRF模型恰好解决了LSTM本身所具有的这一固有缺陷,这也是本文所构建的基于LSTM-CRF的摘要结构功能自动识别模型整体性能较为突出的原因之一。

    5展示了各组模型训练和测试耗时。LSTM-CRF模型每次训练大约需要4.5个小时,每次测试需要约2分钟的时间。与其他模型的训练和测试耗时相比,LSTM-CRF模型的平均训练耗时比LSTM模型、RNN模型、CRF模型和SVM模型多约10000秒、13000秒、14000秒和15000秒,平均测试耗时大约是LSTM模型、RNN模型、CRF模型和SVM模型测试耗时的1.9倍、2.6倍、370倍和6倍。由于深度学习模型的大规模计算复杂度,模型训练消耗较长时间在所难免。但是本研究的主要目的是摘要结构功能识别的性能而非训练耗时的长短,并且随着数据规模的增大,LSTM-CRF模型的理论识别效果会更加优异,所以选用LSTM-CRF模型进行摘要结构功能自动识别是非常合适的。

    表5 LSTM-CRF模型和LSTM模型训练和测试耗时 秒

    序号LSTM-CRF模型LSTM模型RNN模型CRF模型SVM模型
    训练测试训练测试训练测试训练测试训练测试
    115865.32126.045896.7177.861484.3731.661832.860.33484.9819.69
    216204.32123.825856.1162.442079.1729.371799.310.36485.5019.68
    315987.67126.735823.4062.653075.8631.751886.550.29483.0020.78
    416354.05124.825939.9370.654070.4531.071913.300.29494.9522.30
    515735.05124.805875.2775.794036.7431.211845.450.36516.3221.08
    615906.97123.516070.3862.272043.2930.981818.490.31501.8219.65
    716039.39125.215774.9863.293316.8828.461873.160.32538.8520.43
    816478.71125.935725.2863.352074.7029.211756.770.32491.7219.90
    915952.36126.415905.2355.221955.9729.051833.290.33525.5921.39
    1016144.78125.585926.6362.534646.6833.171860.610.35507.8721.49
    平均16066.86125.295879.3965.612878.4148.321841.980.33503.0620.64
    表5                    LSTM-CRF模型和LSTM模型训练和测试耗时 秒
  • 5 总 结

    5

    本文针对学术文献摘要结构的特点,基于具有序列属性的LSTM-CRF这一深度学习模型,提出了一种摘要结构功能自动识别的方法。该方法与基于LSTM、CRF、RNN和SVM的模型相比识别效果具有显著的提升,在摘要结构功能识别方面取得了令人满意的表现。本研究的意义和价值主要体现在三个方面。首先,针对汉语学术文献的摘要全文本数据,通过多个机器学习模型的实验验证,本文证明了在简单的字这一层级上,序列属性的深度学习是相对非常有效的一种机器学习方法,这为后续类似的汉语短文本的结构划分和类别判定提供了直接而有效的可资借鉴的经验。其次,本文所自动划分的摘要不同的结构组成部分一方面为实现深度的学术文献语义检索提供了最直接的数据源,另一方面也为重新基于摘要进行知识组织奠定了坚实的数据基础。最后,基于所划分的摘要不同结构功能的数据,不仅可以从微观的角度系统而全面的了解摘要内部的构成状况,而且从宏观的角度对于指导学术论文的撰写者进行科学而有针对性地撰写摘要具有极为重要的现实意义。

    由于本研究的数据集规模相对较小,无法完全展现LSTM-CRF模型的性能,根据深度学习系列模型在其他大规模数据上所呈现出来的整体性能来看,在更大规模的摘要数据上,LSTM-CRF模型的性能还有一定提升的空间。因此,在未来的研究工作中,一方面将在更大规模的数据集上进行模型训练,从而获取性能更高的面向摘要结构功能划分的序列深度学习模型,另一方面将进一步探索其他新的序列深度学习模型在摘要结构功能识别上的性能,并同时验证强化学习和迁移学习在摘要结构功能识别上的性能。

  • 参考文献

    • 1

      黄玲, 姜小兰. 我国科技期刊摘要存在的问题及原因浅析[J]. 长江科学院院报, 2014, 31(7): 114-118.

    • 2

      张郁佳. 中英语言学学术期刊摘要的元功能分析[J]. 黑龙江生态工程职业学院学报, 2017, 30(4): 148-150.

    • 3

      高建群, 吴玲, 施业. 学术论文摘要的规范表达[J]. 东南大学学报(哲学社会科学版), 2003(2): 114-117.

    • 4

      Silva J, Coheur L, Mendes A C, et al. From symbolic to sub-symbolic information in question classification[J]. Artificial Intelligence Review, 2011, 35(2): 137-154.

    • 5

      Cui L, Zhang D, Liu S, et al. Learning topic representation for SMT with neural networks[C]//Proceedings of Conference of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2014: 133-143.

    • 6

      Wang D, Nyberg E. A long short-term memory model for answer sentence selection in question answering[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2015: 707-712.

    • 7

      郑秋生, 翟琳琳. 基于改进Rocchio算法的短文本自动分类研究[J]. 中原工学院学报, 2013, 24(1): 70-73.

    • 8

      林小俊, 张猛, 暴筱, 等. 基于概念网络的短文本分类方法[J]. 计算机工程, 2010, 36(21): 4-6.

    • 9

      孙建旺, 吕学强, 张雷瀚. 基于语义与最大匹配度的短文本分类研究[J]. 计算机工程与设计, 2013, 34(10): 3613-3618.

    • 10

      张群, 王红军, 王伦文. 词向量与LDA相融合的短文本分类方法[J]. 现代图书情报技术, 2016(12): 27-35.

    • 11

      李湘东, 曹环, 丁丛, 等. 利用《知网》和领域关键词集扩展方法的短文本分类研究[J]. 现代图书情报技术, 2015(2): 31-38.

    • 12

      Zhou C, Sun C, Liu Z, et al. A c-LSTM neural network for text classification[J]. arXiv Preprint arXiv: 1511.08630, 2015.

    • 13

      Dong L, Wei F, Zhou M, et al. Question answering over freebase with multi-column convolutional neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2015: 260-269.

    • 14

      Qu Y, Liu J, Kang L, et al. Question answering over freebase via attentive RNN with similarity matrix based CNN[J]. arXiv: 1804.03317, 2018.

    • 15

      Zhang D, Wang D. Relation classification via recurrent neural network[J]. arXiv Preprint arXiv: 1508.01006, 2015.

    • 16

      Ji W. Structure regularized bidirectional recurrent convolutional neural network for relation classification[J]. arXiv Preprint arXiv: 1711.02509, 2017.

    • 17

      孙晓, 彭晓琪, 胡敏, 等. 基于多维扩展特征与深度学习的微博短文本情感分析[J]. 电子与信息学报, 2017, 39(9): 2048-2055.

    • 18

      殷亚博, 杨文忠, 杨慧婷, 等. 基于卷积神经网络和KNN的短文本分类算法研究[J]. 计算机工程, 2018, 44(7): 193-198.

    • 19

      彭玉青, 宋初柏, 闫倩, 等. 基于VDCNN和LSTM混合模型的中文文本分类研究[J]. 计算机工程, 2017, 43(11): 123-130.

    • 20

      薛涛, 王雅玲, 穆楠. 基于词义消歧的卷积神经网络文本分类模型[J]. 计算机应用研究, 2018, 35(10): 1-8.

    • 21

      陆伟, 黄永, 程齐凯. 学术文本的结构功能识别——功能框架及基于章节标题的识别[J]. 情报学报, 2014, 33(9): 979-985.

    • 22

      黄永, 陆伟, 程齐凯. 学术文本的结构功能识别——基于章节内容的识别[J]. 情报学报, 2016, 35(3): 293-300.

    • 23

      黄永, 陆伟, 程齐凯, 等. 学术文本的结构功能识别——基于段落的识别[J]. 情报学报, 2016, 35(5): 530-538.

    • 24

      王立非, 刘霞. 英语学术论文摘要语步结构自动识别模型的构建[J]. 外语电化教学, 2017(2): 45-50, 64.

    • 25

      Pham T H, Le-Hong P. End-to-end recurrent neural network models for vietnamese named entity recognition: Word-level vs. character-level[C]// Proceedings of the 15th International Conference of the Pacific Association for Computational Linguistics. Springer, 2017: 46-53.

    • 26

      Hochreiter S, Schmidhube R J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

    • 27

      Cross J, Huang L. Incremental parsing with minimal features using bi-directional LSTM[J]. arXiv Preprint arXiv: 1606.06406, 2016.

    • 28

      Hearst M A, Dumais S T, Osuna E, et al. Support vector machines[J]. IEEE Intelligent Systems and Their applications, 1998, 13(4): 18-28.

    • 29

      Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the Eighteenth International Conference on Machine Learning, 2001: 282-289.

    • 30

      Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv Preprint arXiv: 1508.01991, 2015.

沈思

机 构:南京理工大学经济管理学院,南京 210094

Affiliation:School of Economics & Management, Nanjing University of Science and Technology, Nanjing 210094

邮 箱:12015178@njust.edu.cn

作者简介:沈思,女,1983年生,博士,讲师,硕士生导师,研究领域为机器学习、信息检索,E-mail:12015178@njust.edu.cn

胡昊天

机 构:南京农业大学信息科技学院,南京 210095

Affiliation:College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095

作者简介:胡昊天,男,1997年生,本科生,研究领域为自然语言处理

叶文豪

机 构:南京农业大学信息科技学院,南京 210095

Affiliation:College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095

作者简介:叶文豪,男,1994年生,硕士研究生,研究领域为文本挖掘

王东波

机 构:南京农业大学信息科技学院,南京 210095

Affiliation:College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095

作者简介:王东波,男,1981年生,博士,副教授,硕士生导师,研究领域为自然语言处理与文本挖掘、信息计量。

车 尧

角 色:责任编辑

Role:Executive editor

标记功能类别类别标记所使用的词汇
P目的目的,意义
M方法方法,过程,手段,内容
C结果结果,结论
L局限局限
20170252 基于深度学习的摘要结构功能自动识别研究 沈 思 2017.12.15 车尧/alternativeImage/63a3348d-92ba-4b99-bb15-46aa5e41030e-F001.jpg
20170252 基于深度学习的摘要结构功能自动识别研究 沈 思 2017.12.15 车尧/alternativeImage/63a3348d-92ba-4b99-bb15-46aa5e41030e-F002.jpg
20170252 基于深度学习的摘要结构功能自动识别研究 沈 思 2017.12.15 车尧/alternativeImage/63a3348d-92ba-4b99-bb15-46aa5e41030e-F003.jpg
标记标记的含义
B-md目的初始字
I-md目的中间字
E-md目的末尾字
B-ff方法初始字
I-ff方法中间字
E-ff方法末尾字
B-jg结果初始字
I-jg结果中间字
E-jg结果末尾字
B-jx局限初始字
I-jx局限中间字
E-jx局限末尾字
序号LSTM-CRFRNNLSTMCRFSVM
PRFPRFPRFPRF宏平均值
最高值85.4785.4785.4761.2560.0060.6256.5475.9164.8148.1245.1946.6148.58
最低值85.1485.2985.2143.1543.4543.3029.8873.9542.5645.4442.7044.0343.81
平均值84.4184.5784.4950.9750.7550.8640.2774.4851.6846.7344.0745.3646.16
类别标记LSTM-CRF模型LSTM模型
准确率召回率F准确率召回率F
目的md79.8486.09%82.8550.7473.5460.05
方法ff92.0587.33%89.6362.9686.2272.77
结果jg84.7983.29%84.0457.8371.8564.08
局限jx86.4984.2185.3341.2755.3247.27
序号LSTM-CRF模型LSTM模型RNN模型CRF模型SVM模型
训练测试训练测试训练测试训练测试训练测试
115865.32126.045896.7177.861484.3731.661832.860.33484.9819.69
216204.32123.825856.1162.442079.1729.371799.310.36485.5019.68
315987.67126.735823.4062.653075.8631.751886.550.29483.0020.78
416354.05124.825939.9370.654070.4531.071913.300.29494.9522.30
515735.05124.805875.2775.794036.7431.211845.450.36516.3221.08
615906.97123.516070.3862.272043.2930.981818.490.31501.8219.65
716039.39125.215774.9863.293316.8828.461873.160.32538.8520.43
816478.71125.935725.2863.352074.7029.211756.770.32491.7219.90
915952.36126.415905.2355.221955.9729.051833.290.33525.5921.39
1016144.78125.585926.6362.534646.6833.171860.610.35507.8721.49
平均16066.86125.295879.3965.612878.4148.321841.980.33503.0620.64

表1 摘要结构功能类别及标记词汇

图1 支持向量机的基本理念

图2 LSTM-CRF模型的主要架构

图3 规范的摘要结构功能样例图

表2 摘要结构功能识别标记集情况

表3 五个模型下的摘要结构功能识别性能比较%

表4 LSTM-CRF模型和LSTM模型性能最佳模型各标记识别情况%

表5 LSTM-CRF模型和LSTM模型训练和测试耗时 秒

image /

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

  • 参考文献

    • 1

      黄玲, 姜小兰. 我国科技期刊摘要存在的问题及原因浅析[J]. 长江科学院院报, 2014, 31(7): 114-118.

    • 2

      张郁佳. 中英语言学学术期刊摘要的元功能分析[J]. 黑龙江生态工程职业学院学报, 2017, 30(4): 148-150.

    • 3

      高建群, 吴玲, 施业. 学术论文摘要的规范表达[J]. 东南大学学报(哲学社会科学版), 2003(2): 114-117.

    • 4

      Silva J, Coheur L, Mendes A C, et al. From symbolic to sub-symbolic information in question classification[J]. Artificial Intelligence Review, 2011, 35(2): 137-154.

    • 5

      Cui L, Zhang D, Liu S, et al. Learning topic representation for SMT with neural networks[C]//Proceedings of Conference of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2014: 133-143.

    • 6

      Wang D, Nyberg E. A long short-term memory model for answer sentence selection in question answering[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2015: 707-712.

    • 7

      郑秋生, 翟琳琳. 基于改进Rocchio算法的短文本自动分类研究[J]. 中原工学院学报, 2013, 24(1): 70-73.

    • 8

      林小俊, 张猛, 暴筱, 等. 基于概念网络的短文本分类方法[J]. 计算机工程, 2010, 36(21): 4-6.

    • 9

      孙建旺, 吕学强, 张雷瀚. 基于语义与最大匹配度的短文本分类研究[J]. 计算机工程与设计, 2013, 34(10): 3613-3618.

    • 10

      张群, 王红军, 王伦文. 词向量与LDA相融合的短文本分类方法[J]. 现代图书情报技术, 2016(12): 27-35.

    • 11

      李湘东, 曹环, 丁丛, 等. 利用《知网》和领域关键词集扩展方法的短文本分类研究[J]. 现代图书情报技术, 2015(2): 31-38.

    • 12

      Zhou C, Sun C, Liu Z, et al. A c-LSTM neural network for text classification[J]. arXiv Preprint arXiv: 1511.08630, 2015.

    • 13

      Dong L, Wei F, Zhou M, et al. Question answering over freebase with multi-column convolutional neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2015: 260-269.

    • 14

      Qu Y, Liu J, Kang L, et al. Question answering over freebase via attentive RNN with similarity matrix based CNN[J]. arXiv: 1804.03317, 2018.

    • 15

      Zhang D, Wang D. Relation classification via recurrent neural network[J]. arXiv Preprint arXiv: 1508.01006, 2015.

    • 16

      Ji W. Structure regularized bidirectional recurrent convolutional neural network for relation classification[J]. arXiv Preprint arXiv: 1711.02509, 2017.

    • 17

      孙晓, 彭晓琪, 胡敏, 等. 基于多维扩展特征与深度学习的微博短文本情感分析[J]. 电子与信息学报, 2017, 39(9): 2048-2055.

    • 18

      殷亚博, 杨文忠, 杨慧婷, 等. 基于卷积神经网络和KNN的短文本分类算法研究[J]. 计算机工程, 2018, 44(7): 193-198.

    • 19

      彭玉青, 宋初柏, 闫倩, 等. 基于VDCNN和LSTM混合模型的中文文本分类研究[J]. 计算机工程, 2017, 43(11): 123-130.

    • 20

      薛涛, 王雅玲, 穆楠. 基于词义消歧的卷积神经网络文本分类模型[J]. 计算机应用研究, 2018, 35(10): 1-8.

    • 21

      陆伟, 黄永, 程齐凯. 学术文本的结构功能识别——功能框架及基于章节标题的识别[J]. 情报学报, 2014, 33(9): 979-985.

    • 22

      黄永, 陆伟, 程齐凯. 学术文本的结构功能识别——基于章节内容的识别[J]. 情报学报, 2016, 35(3): 293-300.

    • 23

      黄永, 陆伟, 程齐凯, 等. 学术文本的结构功能识别——基于段落的识别[J]. 情报学报, 2016, 35(5): 530-538.

    • 24

      王立非, 刘霞. 英语学术论文摘要语步结构自动识别模型的构建[J]. 外语电化教学, 2017(2): 45-50, 64.

    • 25

      Pham T H, Le-Hong P. End-to-end recurrent neural network models for vietnamese named entity recognition: Word-level vs. character-level[C]// Proceedings of the 15th International Conference of the Pacific Association for Computational Linguistics. Springer, 2017: 46-53.

    • 26

      Hochreiter S, Schmidhube R J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

    • 27

      Cross J, Huang L. Incremental parsing with minimal features using bi-directional LSTM[J]. arXiv Preprint arXiv: 1606.06406, 2016.

    • 28

      Hearst M A, Dumais S T, Osuna E, et al. Support vector machines[J]. IEEE Intelligent Systems and Their applications, 1998, 13(4): 18-28.

    • 29

      Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the Eighteenth International Conference on Machine Learning, 2001: 282-289.

    • 30

      Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv Preprint arXiv: 1508.01991, 2015.