不同特征下的学术文本结构功能自动识别研究
王东波1 , 高瑞卿1 , 叶文豪1 , 周鑫2 , 朱丹浩3
1. 南京农业大学信息科学技术学院,南京 210095; 2. 南京大学信息管理学院,南京 210093; 3. 南京大学计算机科学与技术系,南京 210093
Research on the Structure Recognition of Academic Texts Under Different Characteristics
Wang Dongbo1 , Gao Ruiqing1 , Ye Wenhao1 , Zhou Xin2 , Zhu Danhao3
1. College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095; 2. Department of Information Management, Nanjing University, Nanjing 210093; 3. Department of Computer Science and Technology, Nanjing University, Nanjing 210093
摘要 随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology (JASIST )上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。
关键词 :
文本分类 ,
条件随机场 ,
篇章结构 ,
深度学习
收稿日期: 2018-02-25
基金资助: 国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”(17ZDA291)
作者简介 : 王东波,男,1981年生,博士,副教授,硕士生导师,研究领域为自然语言处理与文本挖掘、信息计量,E-mail: db.wang@njau.edu.cn;高瑞卿,女,1997年生,本科生,研究领域为自然语言处理与文本挖掘;叶文豪,男,1994年生,硕士,研究领域为文本挖掘;周鑫,男,1989年生,博士研究生,研究领域为文献计量;朱丹浩,男,1986年生,博士研究生,研究领域为自然语言处理与机器学习。
引用本文:
王东波, 高瑞卿, 叶文豪, 周鑫, 朱丹浩. 不同特征下的学术文本结构功能自动识别研究[J]. 情报学报, 2018, 37(10): 997-1008.
Wang Dongbo, Gao Ruiqing, Ye Wenhao, Zhou Xin, Zhu Danhao. Research on the Structure Recognition of Academic Texts Under Different Characteristics. 情报学报, 2018, 37(10): 997-1008.
链接本文:
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2018.10.004 或 https://qbxb.istic.ac.cn/CN/Y2018/V37/I10/997
[1] 高时阔, 宇文高峰. 科技期刊学术论文文体结构特点分析[J]. 中国科技期刊研究, 2004, 15(1): 19-21. [2] 刘君君. 论社会科学学术论文的语篇结构[J]. 宜春学院学报, 2006, 28(1): 126-130. [3] 刘辉. 学术期刊论文方法部分体裁结构的比较研究[J]. 外语学刊, 2017(4): 6-12. [4] Zhu X, Turney P, Lemire D, et al.Measuring academic influence: Not all citations are equal[J]. Journal of the Association for Information Science and Technology, 2015, 66(2): 408-427. [5] 张玉芳, 莫凌琳, 熊忠阳, 等. 基于条件随机场的科研论文信息分层抽取[J]. 计算机应用研究, 2009, 26(10): 3690-3693. [6] 莫凌琳. 基于条件随机场的科研论文信息分层抽取研究[D]. 重庆: 重庆大学, 2009: 35-38. [7] 朱海军. 基于标题特征和词汇关联的文本结构分析[D]. 沈阳: 沈阳航空工业学院, 2008: 45-59. [8] Zhang X, Lecun Y.Text understanding from scratch[J]. Computer Science, 2015, 25(8): 84-92. [9] 王立非, 刘霞. 英语学术论文摘要语步结构自动识别模型的构建[J]. 外语电化教学, 2017(2): 45-50. [10] 类艳春. 基于篇章结构的抄袭论文识别系统的研究与实现[D]. 沈阳: 东北师范大学, 2009: 62-63. [11] 金博, 史彦军, 滕弘飞. 基于篇章结构相似度的复制检测算法[J]. 大连理工大学学报, 2007, 47(1): 125-130. [12] 王继成, 武港山, 周源远, 等. 一种篇章结构指导的中文Web文档自动摘要方法[J]. 计算机研究与发展, 2003, 40(3): 398-405. [13] 刘宝超. 学位论文规范性评估系统的设计与实现[D]. 延边: 延边大学, 2015: 74-78. [14] Tkaczyk D, Fedoryszak M, Dendek P J, et al.CERMINE: automatic extraction of structured metadata from scientific literature[J]. International Journal on Document Analysis and Recognition, 2015, 18(4): 317-335. [15] 陆伟, 黄永, 程齐凯, 等. 学术文本的结构功能识别——功能框架及基于章节标题的识别[J]. 情报学报, 2014, 33(9): 979-985. [16] 黄永, 陆伟, 程齐凯. 学术文本的结构功能识别——基于章节内容的识别[J]. 情报学报, 2016, 35(3): 293-300. [17] 黄永, 陆伟, 程齐凯, 等. 学术文本的结构功能识别——基于段落的识别[J]. 情报学报, 2016, 35(5): 530-538. [18] 黄永, 陆伟, 程齐凯, 等. 学术文本的结构功能识别——在学术搜索中的应用[J]. 情报学报, 2016, 35(4): 425-431. [19] 方龙, 李信, 黄永, 等. 学术文本的结构功能识别——在关键词自动抽取中的应用[J]. 情报学报, 2017, 36(6): 599-605. [20] Lafferty J D, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2001: 282-289. [21] Rumelhart D E, Hinton G E, Williams R J.Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536. [22] Werbos P J.Generalization of backpropagation with application to a recurrent gas market model[J]. Neural Networks, 1988, 1(4): 339-356. [23] Joachims T.Text categorization with Support Vector Machines: Learning with many relevant features[C]//European Conference on Machine Learning. Springer, Berlin, Heidelberg, 1998: 137-142. [24] Srivastava N, Hinton G, Krizhevsky A, et al.Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958. [25] Pascanu R, Mikolov T, Bengio Y.On the difficulty of training recurrent neural networks[C]//International Conference on Machine Learning, 2013: 1301-1310. [26] Le Q, Mikolov T.Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on Machine Learning, Beijing, China, 2014: 1180-1188.
[1]
吴雪华, 毛进, 陈思菁, 谢豪, 李纲. 突发事件应急行动支撑信息的自动识别与分类研究 [J]. 情报学报, 2021, 40(8): 817-830.
[2]
黄文彬, 王越千, 步一, 车尚锟. 学术论文子句语义类型自动标注技术研究 [J]. 情报学报, 2021, 40(6): 621-629.
[3]
章成志, 胡少虎, 张颖怡. 通用语料的眼动数据对微博关键词抽取的性能提升探究 [J]. 情报学报, 2021, 40(4): 375-386.
[4]
宋英华, 吕龙, 刘丹. 基于组合深度学习模型的突发事件新闻识别与分类研究 [J]. 情报学报, 2021, 40(2): 145-151.
[5]
余传明, 薛浩东, 江一帆. 基于深度交互的文本匹配模型研究 [J]. 情报学报, 2021, 40(10): 1015-1026.
[6]
程齐凯, 李鹏程, 张国标, 陆伟. 学术文本词汇功能识别——基于标题生成策略和注意力机制的问题方法抽取 [J]. 情报学报, 2021, 40(1): 43-52.
[7]
周海晨, 郑德俊, 郦天宇. 学术全文本的学术创新贡献识别探索 [J]. 情报学报, 2020, 39(8): 845-851.
[8]
王昊, 邓三鸿, 苏新宁, 官琴. 基于深度学习的情报学理论及方法术语识别研究 [J]. 情报学报, 2020, 39(8): 817-828.
[9]
章成志, 李卓, 储荷婷. 基于全文内容的学术论文研究方法自动分类研究 [J]. 情报学报, 2020, 39(8): 852-862.
[10]
曹高辉, 任卫强, 丁恒. 面向限定域的深度语义事件泛化研究 [J]. 情报学报, 2020, 39(8): 863-871.
[11]
章成志, 张颖怡. 基于学术论文全文的研究方法实体自动识别研究 [J]. 情报学报, 2020, 39(6): 589-600.
[12]
张颖怡, 章成志. 基于学术论文全文的研究方法句自动抽取研究 [J]. 情报学报, 2020, 39(6): 640-650.
[13]
余传明, 李浩男, 安璐. 基于深度学习的领域知识对齐模型研究:知识网络视角 [J]. 情报学报, 2020, 39(5): 521-533.
[14]
唐琳, 郭崇慧, 陈静锋, 孙磊磊. 基于中文学术文献的领域本体概念层次关系抽取研究 [J]. 情报学报, 2020, 39(4): 387-398.
[15]
余传明, 郑智梁, 朱星宇, 安璐. 面向查询的观点摘要模型研究:以Debatepedia 为数据源 [J]. 情报学报, 2020, 39(4): 374-386.