计算人文下的古籍引书研究及全文本知识库的构建
刘浏, 齐月, 刘雏菲, 李文祺, 王东波
南京农业大学信息管理学院,南京 210095
Research on Ancient Book Citations from the Perspective of Computational Humanities and the Construction of Full-Text Knowledge Base
Liu Liu, Qi Yue, Liu Chufei, Li Wenqi, Wang Dongbo
College of Information Management, Nanjing Agricultural University, Nanjing 210095
摘要 古籍引书是古籍计算人文研究的重要内容,是探寻传统文化传承脉络的重要方式。本文阐述了计算人文下古籍引书研究的内涵,描述了该研究视角下目录典籍、经学注疏、史书及诗词歌赋四类对象的引书和引典现象的异同,并以此为出发点,探讨了古籍引书全文本知识库构建的技术现状。本文围绕知识表示、知识标注、知识补全与消歧,描述了古籍引书全文本知识构建的框架流程,并就目录典籍、经学注疏、史书及诗词歌赋四类对象进行了引书知识库的构建尝试,分析了古籍引书知识库的应用前景。
关键词 :
古籍引书 ,
计算人文 ,
数字人文 ,
古文信息处理 ,
知识库
收稿日期: 2023-02-24
基金资助: 国家自然科学基金青年科学基金项目“基于深度学习的典籍引书知识图谱构建及应用研究”(72004095);国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(21&ZD331)。
作者简介 : 刘浏,男,1989年生,博士,副教授,硕士生导师,主要研究领域为计算人文、文本知识挖掘,E-mail:liuliu@njau.edu.cn;齐月,女,2000年生,硕士研究生,主要研究领域为计算人文;刘雏菲,女,1998年生,硕士研究生,主要研究领域为计算人文;李文祺,男,1998年生,硕士研究生,主要研究领域为计算人文;王东波,男,1981年生,博士,教授,博士生导师,主要研究领域为古籍智能信息处理、科技文本知识挖掘;
引用本文:
刘浏, 齐月, 刘雏菲, 李文祺, 王东波. 计算人文下的古籍引书研究及全文本知识库的构建[J]. 情报学报, 2023, 42(12): 1498-1512.
Liu Liu, Qi Yue, Liu Chufei, Li Wenqi, Wang Dongbo. Research on Ancient Book Citations from the Perspective of Computational Humanities and the Construction of Full-Text Knowledge Base. 情报学报, 2023, 42(12): 1498-1512.
链接本文:
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2023.12.009 或 https://qbxb.istic.ac.cn/CN/Y2023/V42/I12/1498
1 黄水清, 王晓光, 夏翠娟, 等. 推进新时代古籍工作, 加快创新智能化发展[J]. 农业图书情报学报, 2022, 34(5): 4-20. 2 马创新, 陈小荷. 基于引文分析的古籍文献影响力评估[J]. 大学图书馆学报, 2016, 34(1): 16-24. 3 黄水清, 周好, 彭秋茹, 等. 引书的自动识别及文献计量学分析[J]. 情报学报, 2021, 40(12): 1325-1337. 4 周好, 王东波, 黄水清. 古籍引书上下文自动识别研究——以注疏文献为例[J]. 情报理论与实践, 2021, 44(9): 169-175. 5 White H D. Citation analysis[M/OL]// Encyclopedia of Library and Information Science, Fourth Edition. Boca Raton: CRC Press, 2017. (2017-11-13) [2022-08-07]. https://www.routledgehandbooks.com/doi/10.1081/E-ELIS4-120053692. 6 黄水清, 刘浏, 王东波. 计算人文的发展及展望[J]. 科技情报研究, 2021, 3(4): 1-12. 7 顾炎武. 日知录卷二十[M]// 顾炎武全集. 上海: 上海古籍出版社, 2016: 792. 8 陈澧. 引书法示端溪书院诸生[M]// 文献学论著辑要. 北京: 中国人民大学出版社, 2011: 350. 9 黄水清, 王东波. 古文信息处理研究的现状及趋势[J]. 图书情报工作, 2017, 61(12): 43-49. 10 邓三鸿, 胡昊天, 王昊, 等. 古文自动处理研究现状与新时代发展趋势展望[J]. 科技情报研究, 2021, 3(1): 1-20. 11 王东波, 刘畅, 朱子赫, 等. SikuBERT与SikuRoBERTa: 面向数字人文的《四库全书》预训练模型构建及应用研究[J]. 图书馆论坛, 2022, 42(6): 31-43. 12 Berners-Lee T, Hendler J, Lassila O. The semantic web[J]. Scientific American, 2001, 284(5): 34-43. 13 Bizer C, Heath T, Berners-Lee T. Linked data-the story so far[J]. International Journal on Semantic Web and Information Systems, 2009, 5(3): 1-22. 14 Dong X, Gabrilovich E, Heitz G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2014: 601-610. 15 Cyganiak R, Wood D, Lanthale M, et al. RDF 1.1 concepts and abstract syntax[J]. W3C Recommendation, 2014, 25(2): 1-22. 16 Brickley D, Guha R V, Mcbride B. RDF schema 1.1[J]. W3C Recommendation, 2014, 25: 2004-2014. 17 Prud’hommeaux E, Carothers G, Beckett D, et al. RDF 1.1 Turtle: terse RDF triple language[J]. W3C Recommendation, 2014, 25: 2008-2014. 18 Sporny M, Longley D, Kellogg G, et al. JSON-LD 1.0[J]. W3C Recommendation, 2014, 16: 41. 19 Mcguinness D L, van Harmelen F. OWL web ontology language overview[J]. W3C Recommendation, 2004, 10(10): 2004. 20 Hitzler P, Kr?tzsch M, Parsia B, et al. OWL 2 web ontology language primer (second edition)[J]. W3C Recommendation, 2009, 27(1): 1-43. 21 冯志伟. 自然语言处理的重要资源: “知识图谱”[J]. 外语学刊, 2021(5): 1-9. 22 袁毓林, 曹宏. “语义网—本体知识—知识图谱”和语言研究[J]. 汉语学报, 2021(1): 8-19. 23 张卫, 王昊, 李跃艳, 等. 面向非遗文本的知识组织模式及人文图谱构建研究[J]. 情报资料工作, 2021, 42(6): 91-101. 24 陈炳藻. 从词汇上的统计论《红楼梦》作者的问题[C]// 首届国际《红楼梦》研讨会. 香港: 中文大学出版社, 1980: 16-20. 25 陈大康. 从数理语言学看后四十回的作者——与陈炳藻先生商榷[J]. 红楼梦学刊, 1987(1): 293-318. 26 李贤平. 《红楼梦》成书新说[J]. 复旦学报(社会科学版), 1987(5): 3-16. 27 胡伟平. GIS与人文地理学的发展[J]. 人文地理, 1997, 12(3): 38-42, 29. 28 史睿. 论中国古籍的数字化与人文学术研究[J]. 北京图书馆馆刊, 1999, 8(2): 28-35. 29 柯平, 宫平. 数字人文研究演化路径与热点领域分析[J]. 中国图书馆学报, 2016, 42(6): 13-30. 30 黄水清. 人文计算与数字人文: 概念、问题、范式及关键环节[J]. 图书馆建设, 2019(5): 68-78. 31 程宁, 李斌, 葛四嘉, 等. 基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J]. 中文信息学报, 2020, 34(4): 1-9. 32 杜悦, 王东波, 江川, 等. 数字人文下的典籍深度学习实体自动识别模型构建及应用研究[J]. 图书情报工作, 2021, 65(3): 100-108. 33 赵连振, 张逸勤, 刘江峰, 等. 面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例[J]. 图书馆论坛, 2022, 42(12): 120-128, 137. 34 刘京臣. 大数据视阈中的明清进士家族研究——以CBDB、中华寻根网为例[J]. 北京大学学报(哲学社会科学版), 2019, 56(4): 96-108. 35 杨海慈, 王军. 宋代学术师承知识图谱的构建与可视化[J]. 数据分析与知识发现, 2019, 3(6): 109-116. 36 常博林, 万晨, 李斌, 等. 基于词和实体标注的古籍数字人文知识库的构建与应用——以《资治通鉴·周秦汉纪》为例[J]. 图书情报工作, 2021, 65(22): 134-142. 37 郑童哲恒, 李斌, 冯敏萱, 等. 历史典籍的结构化探索——《史记·列传》数字人文知识库的构建与可视化研究[J]. 大数据, 2022, 8(6): 40-55. 38 徐晨飞, 包平. 面向农史领域的数字人文研究基础设施建设研究——以方志物产知识库构建为引[J]. 中国农史, 2019, 38(6): 40-51. 39 林岗. 论引诗[J]. 文艺理论研究, 2007(4): 43-49. 40 劉杰陽. 原本《玉篇》引《尚書》傳本性質試析[J]. 古典文献研究, 2021, 24(3): 139-152. 41 井超. 阮元校勘《礼记注疏》引《礼记集说》版本考异[J]. 古籍整理研究学刊, 2018(3): 83-87. 42 楊鴻飛. 《史記》三家注引《論語》研究[D]. 南京: 南京师范大学, 2019. 43 黄覺弘. 孔繼涵《杜諤〈春秋會義〉所引書目》辨正[J]. 历史文献研究, 2021(1): 120-131. 44 梁鑑洪. 理雅各《孟子》英译本注引用儒家《五经》文献考述[D]. 武汉: 华中师范大学, 2017. 45 井超. 阮元校勘《十三经注疏》暗引殿本琐议[J]. 古籍整理研究学刊, 2018(2): 94-97. 46 Musen M A, Team P. The protégé project: a look back and a look forward[J]. AI Matters, 2015, 1(4): 4-12. 47 Stenetorp P, Pyysalo S, Topiá G, et al. BRAT: a web-based tool for NLP-assisted text annotation[C]// Proceedings of the Demonstrations Session at EACL 2012. Stroudsburg: Association for Computational Linguistics, 2012: 102-107. 48 黄威. 同书异名、同名异书现象新探[J]. 古籍整理研究学刊, 2021(3): 6-12.
[1]
张强, 高劲松, 龙家庆, 杨晓燕, 夏红玉, 蒋智慧. 基于知识重构的词人时空情感轨迹可视化研究 [J]. 情报学报, 2023, 42(6): 729-739.
[2]
李佩琪, 王昊, 任秋彤, 范涛. 融合结构特性的语义增强式古籍句读识别方法研究 [J]. 情报学报, 2023, 42(2): 150-163.
[3]
张琪, 王东波, 黄水清, 邓三鸿. 史书多维知识重组与可视化研究 [J]. 情报学报, 2022, 41(2): 130-141.
[4]
马雨萌, 王昉, 黄金霞, 姜恩波, 张翕宇. 基于文献知识抽取的专题知识库构建研究——以中药活血化瘀专题知识库为例 [J]. 情报学报, 2019, 38(5): 482-491.
[5]
许鑫, 陈路遥, 杨佳颖. 数字人文研究领域的知识网络演化——基于题录信息和引文上下文的关键词共词分析 [J]. 情报学报, 2019, 38(3): 322-334.
[6]
唐晓波, 谭明亮, 李诗轩, 郑杜. 企业破产预测系统模型构建及实现研究 [J]. 情报学报, 2019, 38(10): 1051-1065.
[7]
王东波, 高瑞卿, 沈思, 李斌. 基于深度学习的先秦典籍问句自动分类研究 [J]. 情报学报, 2018, 37(11): 1114-1122.