引书的自动识别及文献计量学分析
黄水清1,2 , 周好1,2 , 彭秋茹1,2 , 王东波1,2
1.南京农业大学信息科学技术学院,南京 210095 2.南京农业大学领域知识关联研究中心,南京 210095
Automatic Recognition and Bibliometric Analysis of Cited Books
Huang Shuiqing1,2 , Zhou Hao1,2 , Peng Qiuru1,2 , Wang Dongbo1,2
1.College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095 2.Research Center for Correlation of Domain Knowledge, Nanjing Agricultural University, Nanjing 210095
摘要 古籍文本中存在大量事实上的引文条目,即引书。目前,引文分析法多基于现代文本开展研究,学术界对古籍文本中的引用现象的关注较少。本文将引文分析法应用于古籍文本,计算和分析引书的引文指标,为古籍文本的引书计量学研究建立初步框架。本文选择《十三经注疏》中的《论语注疏》《毛诗正义》《春秋左传正义》三部典籍为研究对象,分别基于CRF(conditional random field)模型、Bi-LSTM(bidirectional long short-term memory)模型以及Bi-LSTM-CRF模型,从古籍文本中自动识别引书条目,并对比抽取性能,利用引文分析方法计算并分析了三部典籍中引书的各项引文计量指标,进而分析古籍文本之间的知识关联,探讨古人的引用行为。研究结果表明,机器学习模型应用于引书条目的自动识别整体效果良好,两种深度学习模型表现更佳,CRF模型存在明显差距。在两种深度学习模型中,Bi-LSTM-CRF模型性能略好。古籍文本之间的关联强度不一,引书的规模受多方因素影响,经部文献的被引次数占比最高,经部文献中的礼制类文献尤甚。此外,古人的引用行为也受成书目的、学者知识背景、引书文献获取难易程度等多重因素的影响。
关键词 :
引书 ,
CRF ,
LSTM ,
引文分析 ,
引用行为
收稿日期: 2020-07-08
基金资助: 国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(15ZDB127)。
作者简介 : 黄水清,男,1964年生,博士,教授,博士生导师,主要研究领域为自然语言处理与文本挖掘、信息计量,E-mail:sqhuang@njau.edu.cn;周好,女,1995年生,博士研究生,主要研究领域为自然语言处理与文本挖掘;彭秋茹,女,1990年生,博士,师资博士后,主要研究领域为信息计量;王东波,男,1981年生,博士,教授,博士生导师,主要研究领域为自然语言处理与文本挖掘、信息计;
引用本文:
黄水清, 周好, 彭秋茹, 王东波. 引书的自动识别及文献计量学分析[J]. 情报学报, 2021, 40(12): 1325-1337.
Huang Shuiqing, Zhou Hao, Peng Qiuru, Wang Dongbo. Automatic Recognition and Bibliometric Analysis of Cited Books. 情报学报, 2021, 40(12): 1325-1337.
链接本文:
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2021.12.010 或 https://qbxb.istic.ac.cn/CN/Y2021/V40/I12/1325
1 Garfiel E. Citation index for science[J]. Science, 1955, 122(3159): 108-111. 2 邵作运, 李秀霞. 引文分析法与内容分析法结合的文献知识发现方法综述[J]. 情报理论与实践, 2020, 43(3): 153-159. 3 李梦姣. 《文选》李善注引子部儒家类书录[D]. 郑州: 郑州大学, 2018. 4 张丽. 《分门古今类事》引书研究[D]. 长春: 东北师范大学, 2015. 5 李睿, 周维, 王雪. 引文生态视角下标准必要专利的引文特征研究[J]. 情报学报, 2018, 37(9): 882-889. 6 马创新. 注疏文献的结构化知识表示[D]. 南京: 南京师范大学, 2014. 7 马创新, 陈小荷. 基于引文分析的古籍文献影响力评估[J]. 大学图书馆学报, 2016, 34(1): 16-24. 8 周好. 引书的自动识别及分析——以《论语注疏》《毛诗正义》《春秋左传正义》为例[D]. 南京: 南京农业大学, 2019. 9 王东波, 胡昊天, 周鑫, 等. 基于深度学习的数据科学招聘实体自动抽取及分析研究[J]. 图书情报工作, 2018, 62(13): 64-73. 10 黄炜, 黄建桥, 李岳峰. 基于BiLSTM-CRF的涉恐信息实体识别模型研究[J]. 情报杂志, 2019, 38(12): 149-156. 11 李娜. 基于条件随机场的方志古籍别名自动抽取模型构建[J]. 中文信息学报, 2018, 32(11): 41-48, 61. 12 高甦, 金佩, 张德政. 基于深度学习的中医典籍命名实体识别研究[J]. 情报工程, 2019, 5(1): 113-123. 13 Bornmann L, Daniel H D. What do citation counts measure? A review of studies on citing behavior[J]. Journal of Documentation, 2008, 64(1): 45-80. 14 叶继元. 引文的本质及其学术评价功能辨析[J].中国图书馆学报, 2010, 36(1): 35-39. 15 章成志, 王玉琢, 卢超. 学术专著引用行为研究——基于引文内容特征分析的视角[J]. 情报学报, 2017, 36(3): 319-330. 16 邱均平, 陈晓宇, 何文静. 科研人员论文引用动机及相互影响关系研究[J]. 图书情报工作, 2015, 59(9): 36-44. 17 黄永年. 古文献学讲义[M]. 上海: 中西书局, 2014: 27-28. 18 刘姝. 《难经集注》的文献研究[D]. 济南: 山东中医药大学, 2006. 19 Appendix C: named entity task definition (v 2.1)[C]// Proceedings of the 6th Message Understanding Conference. Stroudsburg: Association for Computational Linguistics,1995: 317-332. 20 Huang Z H, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[OL]. (2015-08-09). http://export.arxiv.org/pdf/1508.01991. 21 赵军. 命名实体识别、排歧和跨语言关联[J]. 中文信息学报, 2009, 23(2): 3-17. 22 邱均平, 刘国徽. 国内耦合分析方法研究现状与展望[J]. 图书情报工作, 2014, 58(7): 131-136, 144. 23 Kessler M M. Bibliographic coupling between scientific papers[J]. American Documentation, 1963, 14(1): 10-25. 24 王力. 中国语言学史[M]. 太原: 山西人民出版社, 1981. 25 邱均平. 信息计量学(九)第九讲: 文献信息引证规律和引文分析法[J]. 情报理论与实践, 2001, 24(3): 236-240. 26 谢娟, 成颖, 孙建军, 等. 基于信息使用环境理论的引用行为研究: 参考文献分析的视角[J]. 中国图书馆学报, 2018, 44(5): 59-75. 27 Garfield E. Can citation indexing be automated[C]//Symposium Proceedings on Statistical Association Methods for Mechanized Documentation, 1965: 189-192. 28 曹顺庆, 王庆. 中国传统学术生成的奥秘: “依经立义”[J]. 中州学刊, 2012(5): 187-192. 29 金克木. 读《大学》[C]/ /王元化, 胡晓明, 傅杰. 释中国(第二卷)[M]. 上海: 上海文艺出版社, 1998(2): 1344.
[1]
夏红玉, 胡潜, 王忠义. 基于引文重要性的知识流动主路径分析 [J]. 情报学报, 2022, 41(5): 451-462.
[2]
许鑫, 叶丁菱. 多维影响力融合视域下的数据论文评价研究 [J]. 情报学报, 2022, 41(3): 275-286.
[3]
王昊, 邓三鸿, 苏新宁, 官琴. 基于深度学习的情报学理论及方法术语识别研究 [J]. 情报学报, 2020, 39(8): 817-828.
[4]
翟姗姗, 叶丁菱, 胡畔, 许鑫. 融合Altmetrics 与引文分析的数据论文学术影响力评价 [J]. 情报学报, 2020, 39(7): 710-718.
[5]
张琳, 刘冬东, 吕琦, 孙蓓蓓, 黄颖. 论文学科交叉测度研究:从全部引文到章节引文 [J]. 情报学报, 2020, 39(5): 492-499.
[6]
吴俊, 程垚, 郝瀚, 艾力亚尔·艾则孜, 刘菲雪, 苏亦坡. 基于BERT 嵌入BiLSTM-CRF 模型的中文专业术语抽取研究 [J]. 情报学报, 2020, 39(4): 409-418.
[7]
周建, 刘炎宝, 刘佳佳. 情感分析研究的知识结构及热点前沿探析 [J]. 情报学报, 2020, 39(1): 111-124.
[8]
刘向, 万小萍, 闫肖婷, 汪锦霞. 基于引文路径叠加网络的主路径分析 [J]. 情报学报, 2019, 38(8): 807-814.
[9]
郭世杰, 王学昭, 韩涛, 魏韧, 董璐, 李宜展, 李泽霞. 大科学装置“预期- 实际- 扩展应用”链式模型及其实证研究——以日本SACLA 装置为例 [J]. 情报学报, 2019, 38(11): 1187-1199.
[10]
沈思, 胡昊天, 叶文豪, 王东波. 基于全字语义的摘要结构功能自动识别研究 [J]. 情报学报, 2019, 38(1): 79-88.
[11]
赵洪, 王芳. 理论术语抽取的深度学习模型及自训练算法研究 [J]. 情报学报, 2018, 37(9): 923-938.
[12]
万小萍, 刘向, 闫肖婷, 汪锦霞. 基于关联分析的技术演进路径发现 [J]. 情报学报, 2018, 37(11): 1087-1094.