情报学报  2024, Vol. 43 Issue (6): 712-732    DOI: 10.3772/j.issn.1000-0135.2024.06.007
  情报技术与应用 本期目录 | 过刊浏览 | 高级检索 |
基于公式化表达脱敏与边界识别加强的学术论文研究问题与方法识别研究
张颖怡1, 章成志2
1.苏州大学社会学院档案与电子政务系,苏州 215123
2.南京理工大学经济管理学院信息管理系,南京 210094
Identification of Problem and Method in Scientific Papers Based on Formulaic Expression Desensitization and Enhanced Boundary Recognition
Zhang Yingyi1, Zhang Chengzhi2
1.Department of Archives and E-government, School of Social Science, Soochow University, Suzhou 215123
2.Department of Information Management, School of Economics and Management, Nanjing University of Science and Technology, Nanjing 210094
全文: PDF (2519 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 研究问题和方法是学术论文中的重要组成部分,其在学术论文组织、管理与检索以及科研成果评价中具有重要意义。为缓解研究问题与方法识别中存在的公式化表达依赖和词语边界识别错误等问题,本文提出一种联合公式化表达脱敏和边界识别加强的模型。具体地,公式化表达脱敏使用数据增强方法实现,边界识别加强使用指针网络与序列标注模型实现。随着学术论文的开放获取,学术论文全文被研究者用于实体识别任务中。为证明使用学术论文全文的必要性,本文人工构建了自然语言处理领域的摘要和全文标注数据集,同时设计了数值和内容指标,用于分析两类数据集中的问题和方法识别结果以及问题与方法关系对抽取结果的差异。十折交叉实验结果表明,本文模型的宏平均F1值优于SciBERT-BiLSTM-CRF基线模型3.69个百分点且存在显著性差异。根据摘要与全文实体识别和关系对抽取结果的对比,发现摘要中包含的问题与方法实体的表意较宽泛,全文中具有更多描述模型设计和训练细节的实体和关系对。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
张颖怡
章成志
关键词 知识实体识别研究问题和方法识别指针网络数据增强    
收稿日期: 2023-07-24     
基金资助:国家自然科学基金项目“基于学术文献全文内容的细粒度算法实体抽取与评估研究”(72074113)。
作者简介: 张颖怡,女,1992年生,博士,讲师,主要研究领域为学术文本挖掘与自然语言处理;章成志,通信作者,男,1977年生,博士,教授,博士生导师,主要研究领域为信息组织、信息检索、数据挖掘及自然语言处理,E-mail:zhangcz@njust.edu.cn;
引用本文:   
张颖怡, 章成志. 基于公式化表达脱敏与边界识别加强的学术论文研究问题与方法识别研究[J]. 情报学报, 2024, 43(6): 712-732.
Zhang Yingyi, Zhang Chengzhi. Identification of Problem and Method in Scientific Papers Based on Formulaic Expression Desensitization and Enhanced Boundary Recognition. 情报学报, 2024, 43(6): 712-732.
链接本文:  
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2024.06.007     或     https://qbxb.istic.ac.cn/CN/Y2024/V43/I6/712