多维领域知识下的《诗经》自动分词研究
王姗姗, 王东波, 黄水清, 何琳
南京农业大学,南京 210095
Research on the Automatic Word Segmentation of The Book of Songs under Multi-dimensional Domain Knowledge
Wang Shanshan, Wang Dongbo, Huang Shuiqing, He Lin
Nanjing Agricultural University, Nanjing 210095
摘要 《诗经》位居古文经学派“五经”之首,蕴含丰富。随着人文计算的广泛应用,本文结合《汉学引得丛刊》中《毛诗引得》的领域知识,采用机器学习的方法研究《诗经》的自动分词。基于《诗经》手工分词的语料,采用《广韵》字表和统计分析相结合的方法,得到23组融合不同特征知识的特征模板,训练产生机器学习分词模型。对每个分词模型进行性能测试,分析发现词性特征对《诗经》分词效果的影响最大,且分词模型的调和平均值F 值最高可达到97.42%。最后,采用《毛诗引得》领域词表对测试性能最佳的分词模型进行长词校正的模型后处理,得到了融合《毛诗引得》专家词汇知识的《诗经》分词语料。本文融入多维领域知识实现《诗经》自动分词的研究模式不仅对先秦诗歌体的相关研究起借鉴意义,而且对先秦典籍的自动分词研究具有启发性,《诗经》分词语料作为先秦典籍语料库的一部分,对进一步实现先秦典籍的知识挖掘有较强的辅助作用。
关键词 :
《毛诗引得》 ,
《诗经》 ,
条件随机场模型 ,
特征模板 模型后处理
收稿日期: 2017-05-19
基金资助: 国家社会科学基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(15ZDB127); 南京农业大学中央高校基本科研业务费人文社科基金“基于《汉学引得丛刊》的古文本体研究”(SKCX2017004)
作者简介 : 王姗姗,女,1992年生,硕士研究生;王东波,男,1981年生,副教授,E-mail: db.wang@njau.edu.cn;黄水清,男,1964年生,教授;何琳,女,1980年生,教授。
引用本文:
王姗姗, 王东波, 黄水清, 何琳. 多维领域知识下的《诗经》自动分词研究[J]. 情报学报, 2018, 37(2): 183-193.
Wang Shanshan, Wang Dongbo, Huang Shuiqing, He Lin. Research on the Automatic Word Segmentation of The Book of Songs under Multi-dimensional Domain Knowledge. 情报学报, 2018, 37(2): 183-193.
链接本文:
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2018.02.007 或 https://qbxb.istic.ac.cn/CN/Y2018/V37/I2/183
[1] 沈岚. 跨文化经典阐释:理雅各《诗经》译介研究[D]. 苏州:苏州大学, 2013. [2] Cheng X R, Wang D, Xie K.Application of MPSO-based neural network model in Chinese word segmentation[C]// Proceedings of the 2009 Second International Conference on Intelligent Computation Technology and Automation. Washington DC: IEEE Computer Society, 2009, 1: 295-298. [3] 李庆虎, 陈玉健, 孙家广. 一种中文分词词典新机制——双字哈希机制[J]. 中文信息学报, 2003, 17(4): 13-18. [4] 孙茂松, 黄昌宁, 邹嘉彦, 等. 利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J]. 计算机研究与发展, 1997, 34(5): 332-339. [5] 马玉春, 宋瀚涛. Web中文文本分词技术研究[J]. 计算机应用, 2004, 24(4): 134-135, 155. [6] 姚天顺, 张桂平, 吴映明. 基于规则的汉语自动分词系统[J]. 中文信息学报, 1990, 4(1): 37-43. [7] 傅士光, 林友芳, 万怀宇, 等. 一种基于规则的中文分词算法[C]// 中国中文信息学会, 新加坡中文与东方语言信息处理学会, 武汉大学语言与信息研究中心. 中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集. 中国中文信息学会, 新加坡中文与东方语言信息处理学会, 武汉大学语言与信息研究中心, 2007: 5. [8] 杜丽萍, 李晓戈, 于根, 等. 基于互信息改进算法的新词发现对中文分词系统改进[J]. 北京大学学报(自然科学版), 2016, 52(1): 35-40. [9] 李家福, 张亚非. 基于EM算法的汉语自动分词方法[J]. 情报学报, 2002, 21(3): 269-272. [10] 高军, 陈锡先. 无监督的动态分词方法[J]. 北京邮电大学学报, 1997, 20(4): 68-71. [11] 黄昌宁, 赵海. 由字构词——中文分词新方法[C]// 中国中文信息学会. 中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集. 中国中文信息学会, 2006: 11. [12] 黄德根, 焦世斗, 周惠巍. 基于子词的双层CRFs中文分词[J]. 计算机研究与发展, 2010, 47(5): 962-968. [13] 韩冬煦, 常宝宝. 基于边界熵和卡方统计量的多领域适应性中文分词方法[C]//中国中文信息学会. 中国计算语言学研究前沿进展(2009-2011). 中国中文信息学会, 2011: 6. [14] 邱冰, 皇甫娟. 基于中文信息处理的古代汉语分词研究[J]. 微计算机信息, 2008, 24(8): 100-102. [15] 石民, 李斌, 陈小荷. 基于CRF的先秦汉语分词标注一体化研究[J]. 中文信息学报, 2010, 24(2): 39-45. [16] 徐润华, 陈小荷. 一种利用注疏的《左传》分词新方法[J]. 中文信息学报, 2012, 26(2): 13-17, 45. [17] 梁社会. 《孟子》及其注疏的信息处理[D]. 南京: 南京师范大学, 2013. [18] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research, 2011, 12: 2493- 2537. [19] Zheng X Q, Chen H Y, Xu T Y.Deep learning for Chinese word segmentation and POS tagging[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2013: 647-657. [20] 汉达文库[EB/OL]. [2005-04-13]. http://www.chant.org/. [21] Lafferty J D, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 2001: 282-289. [22] 严学宭. 国学经典导读: 广韵[M]. 北京: 中国国际广播出版社, 2011. [23] CRF++[EB/OL]. [2017-2-15].https://sourceforge.net/projects/crfpp/. [24] 黄水清, 王东波, 何琳. 以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J]. 图书情报工作, 2015, 59(11): 127-133.