学术全文本的学术创新贡献识别探索
周海晨, 郑德俊, 郦天宇
南京农业大学信息科技学院,南京 210095
Research on the Identification of Academic Innovation Contributions of Full Academic Texts
Zhou Haichen, Zheng Dejun, Li Tianyu
College of Information Science & Technology, Nanjing Agricultural University, Nanjing 210095
摘要 破除“SCI至上”,从学术全文本视角进行学术研究成果的创新点和贡献点自动识别,对于支持和完善同行评价和代表作评价有显著的数据支撑作用。本文提出一个深度学习与规则结合的学术创新贡献识别方法,首先标注学术文本中潜在创新贡献短语,其次构建以BERT为基础的自动识别模型,同时制定出细粒度的抽取规则,最后应用到大规模数据集的抽取当中。本文选取菊花领域的学术文本进行实证研究,成功由学术文本中自动识别并抽取出可以表征学术成果价值的学术创新点和贡献点。将多个学者的创新贡献用图谱等可视化方法进行综合展示可以成为后续研究的方向。
关键词 :
学术文本 ,
学术创新 ,
学术贡献 ,
自动识别 ,
深度学习
收稿日期: 2020-05-04
作者简介 : 周海晨,男,1993年生,博士研究生,主要研究领域为文本挖掘、知识抽取。郑德俊,男,1968年生,博士,教授,博士生导师,主要研究领域为信息计量分析与科研评价、知识服务与质量控制,E-mail:zdejun@njau.edu.cn。郦天宇,男,1996年生,硕士研究生,主要研究领域为文本挖掘、知识抽取。
1 Merton R K. The sociology of science: Theoretical and empirical investigations[M]. University of Chicago Press, 1979. 2 阎光才. 学术共同体内外的权力博弈与同行评议制度[J]. 北京大学教育评论, 2009, 7(1): 124-138, 191-192. 3 沈新尹. 引文计量与基础研究成果评价[J]. 科学学研究, 1995, 13(4): 74-76. 4 高一箴. 对SCI热的冷思考[J]. 情报科学, 2006, 24(1): 35-38. 5 Cole S, Rubin L, Cole J R. Peer review and the support of science[J]. Scientific American, 1977, 237(4): 34-41. 6 库恩. 科学革命的结构(选登)[J]. 李宝恒, 译. 自然辩证法通讯, 1980, 2(3): 71-77. 7 Hicks D, Wouters P, Waltman L, et al. Bibliometrics: The Leiden Manifesto for research metrics[J]. Nature, 2015, 520(7548): 429-431. 8 赵蓉英, 戴祎璠, 王旭. 基于LDA模型与ATM模型的学者影响力评价研究——以我国核物理学科为例[J]. 情报科学, 2019, 37(6): 3-9. 9 黄晨, 赵星, 卞杨奕, 等. 测量学术贡献的关键词分析法探析[J]. 中国图书馆学报, 2019, 45(6): 84-99. 10 温浩. 科技文摘创新点语义识别与分类方法研究[J]. 情报学报, 2019, 38(3): 249-256. 11 孙震, 冷伏海, 张晋辉. 基于知识元的科学计量方法及其实证研究[J]. 图书情报工作, 2017, 61(23): 89-99. 12 曲佳彬, 欧石燕. 关联数据可视化研究进展分析[J]. 图书与情报, 2018(4): 51-61. 13 余丽, 钱力, 付常雷, 等. 基于深度学习的文本中细粒度知识元抽取方法研究[J]. 数据分析与知识发现, 2019, 3(1): 38-45. 14 苏新宁, 王东波. 学术评价相关问题与思考[J]. 信息资源管理学报, 2018, 8(3): 4-11. 15 冯长根. 一种自然而然的科技成果评价方法值得国家推广[J]. 中国人大, 2017(7): 33-35. 16 章成志, 李铮. 基于学术论文全文的创新研究评价句抽取研究[J]. 数据分析与知识发现, 2019, 3(10): 12-19. 17 温有奎, 吴广印. 碎片化科研创新点动态挖掘研究[J]. 数字图书馆论坛, 2014(7): 25-32. 18 索传军, 盖双双, 周志超. 认知计算——单篇学术论文评价的新视角[J]. 中国图书馆学报, 2018, 44(1): 50-61. 19 刘益东. 设立战略家工作室, 创建世界一流思想库[J]. 科技创新导报, 2014, 11(14): 250-254. 20 刘益东. 开放式评价与学术市场: 彻底解放学者的创造力[J]. 北京师范大学学报(社会科学版), 2018(1): 17-26. 21 Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2019: 4171-4186. 22 卢珍红, 郑进烜, 桂敏, 等. 基于菊花为研究对象的近30年学术论文统计分析[J]. 江西农业学报, 2015, 27(6): 21-26. 23 叶继元. 学术“全评价”分析框架与创新质量评价的难点及其对策[J]. 河南大学学报(社会科学版), 2016, 56(5): 151-156.
[1]
章成志, 胡少虎, 张颖怡. 通用语料的眼动数据对微博关键词抽取的性能提升探究 [J]. 情报学报, 2021, 40(4): 375-386.
[2]
宋英华, 吕龙, 刘丹. 基于组合深度学习模型的突发事件新闻识别与分类研究 [J]. 情报学报, 2021, 40(2): 145-151.
[3]
姜艺, 黄永, 夏义堃, 李鹏程, 陆伟. 学术文本词汇功能识别——在关键词自动抽取中的应用 [J]. 情报学报, 2021, 40(2): 152-162.
[4]
余传明, 薛浩东, 江一帆. 基于深度交互的文本匹配模型研究 [J]. 情报学报, 2021, 40(10): 1015-1026.
[5]
程齐凯, 李鹏程, 张国标, 陆伟. 学术文本词汇功能识别——基于标题生成策略和注意力机制的问题方法抽取 [J]. 情报学报, 2021, 40(1): 43-52.
[6]
王昊, 邓三鸿, 苏新宁, 官琴. 基于深度学习的情报学理论及方法术语识别研究 [J]. 情报学报, 2020, 39(8): 817-828.
[7]
曹高辉, 任卫强, 丁恒. 面向限定域的深度语义事件泛化研究 [J]. 情报学报, 2020, 39(8): 863-871.
[8]
章成志, 张颖怡. 基于学术论文全文的研究方法实体自动识别研究 [J]. 情报学报, 2020, 39(6): 589-600.
[9]
张颖怡, 章成志. 基于学术论文全文的研究方法句自动抽取研究 [J]. 情报学报, 2020, 39(6): 640-650.
[10]
余传明, 李浩男, 安璐. 基于深度学习的领域知识对齐模型研究:知识网络视角 [J]. 情报学报, 2020, 39(5): 521-533.
[11]
唐琳, 郭崇慧, 陈静锋, 孙磊磊. 基于中文学术文献的领域本体概念层次关系抽取研究 [J]. 情报学报, 2020, 39(4): 387-398.
[12]
余传明, 郑智梁, 朱星宇, 安璐. 面向查询的观点摘要模型研究:以Debatepedia 为数据源 [J]. 情报学报, 2020, 39(4): 374-386.
[13]
赵洪. 生成式自动文摘的深度学习方法综述 [J]. 情报学报, 2020, 39(3): 330-344.
[14]
林德明, 王宇开, 丁堃. 基于语义识别的知识产权战略政策工具选择 [J]. 情报学报, 2020, 39(2): 178-185.
[15]
马超, 李纲, 陈思菁, 毛进, 张霁. 基于多模态数据语义融合的旅游在线评论有用性识别研究 [J]. 情报学报, 2020, 39(2): 199-207.