使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于SWPF2vecDJ-TextRCNN的古籍文本主题分类研究

  • 武帅 1
  • 杨秀璋 2,3
  • 何琳 1
  • 公佐权 4
1. 南京农业大学信息管理学院,南京 211800; 2. 贵州大学贵州省大数据产业发展应用研究院,贵阳 550025; 3. 武汉大学国家网络安全学院,武汉 430030; 4. 贵州财经大学信息学院,贵阳 550025

最近更新:2024-05-31

DOI: 10.3772/j.issn.1000-0135.2024.05.009

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking, word, pattern, and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji - recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。

0 引 言

以大数[

1]、人工智[2]、知识图[3]等为代表的互联网3.0技术的飞速发展,正在逐步拓宽新文科背景下人文社科领域新的研究范畴,逐步实现“数字人文”向“数智赋能”的转[4]。“数智赋能”理念的提出,进一步提升了传统社会科学领域下的计算人文标准,如何对现阶段研究领域的主要研究载体古籍文[5]、字符图[6]、语音音[7]实现语义知识元的细粒度化、知识组织表示的深层次化、知识推理运用的多角度[8]是当下人文社科研究领域迫切需要解决的问题。随着计算人文研究的深入,古籍文本研究已不再局限于对单部古籍的知识体系构建,而是扩展至对某一特定研究主题的古籍文本进行深层次、细粒度的文本挖掘。然而,古籍文本以古代汉语为主,对自然语言理解能力要求较高,一定程度上阻碍了“数智赋能”视域下对领域主题类古籍研究。因此,如何构建或改进面向研究者的古籍文本主题自动分类算法,已成为推动数字人文研究范式转变的重要攻坚难点。针对上述问题,本文参照现代文本常用的分类算法(classification algorithm[9],结合古籍文本特征,尝试构建适用于古籍文本的主题分类模型,以打破古籍文本主题分类的困境。

现阶段古籍文本的主题分类的方法仍以传统编目分类和规则匹配为主,分类依据仍侧重于以文献为单元的外部特征著录,且不同时期的古籍编目受朝代更替影响存在一定的差异性,一定程度上加剧了古籍文本主题分类的难度。随着国家“中华古籍保护计划”的实施,海量古籍文本实现数字化,为人文计算提供重要的语料研究对[

10],但也逐步导致海量数字化古籍与人工编目分类间的矛盾越发突出,对数字人文研究范式的转型产生较为严重的影响。如何在数字人文研究前期精准分类识别古籍知识库中同一主题的古籍文本,是实现数字人文研究范畴转型迫切需要解决的问题。同时,传统编目分类和规则匹配的方法过度依赖专家知识,不仅需要花费大量人力和物力成本,还存在专家标注知识的局限性造成主题判断的主观性,以文献为单元的外部特征著录存在语义表示的片面性等问题,不适用于对大规模古籍文本语料的主题分类。现阶段,以机器学习和深度学习为代表的自动分类算法,仅从古籍文本维度结合词向量(word to vector,word2vec[11]尝试实现文本自动分类,缺乏考虑古籍文字不同维度特征对语义信息的补充。传统分类模型通常以现代文本为研究语料,缺乏考虑古籍文本与现代文本在语言表达、文字风格、语句形式之间的差异。如何解决古籍文本主题分类问题,已成为当下数字人文研究范式转型期间迫切需要解决的难题。

针对现有古籍文本主题分类算法的局限性,本文参照东汉古籍《说文解字》对文字的分析方式,先尝试从字音、结构、字形对原本数据集进行扩充,形成全新的“字音(说)-原文(文)-结构(解)-字形(字)”(简称“说文解字”)四维特征古籍文本数据集,再利用预训练模型、神经网络模型和自注意力机制,构建适用于全新数据集的主题分类模型,命名为DJ-TextRCNN(dianji - recurrent convolutional neural networks for text classification),以实现对古籍文本多维度、深层次、细粒度的语义挖掘,提升古籍文本主题分类任务的准确性,缓解现有研究过于依赖专家知识的现状,推动数字人文研究范式的转型。本文的主要贡献如下。

(1)相较于传统以文献为单元的外部特征著录作为古籍文本主题分类的依据,本文尝试打破编目分类的局限性,对古籍内容进行研究,并结合不同深度学习模型处理文本的优势,融合卷积神经网络(convolutional neural networks,CNN[

12]、循环神经网络(recurrent neural networks,RNN[13]和多头注意力机制(multi-head attention,MHA[14],构建DJ-TextRCNN模型。其中,CNN分析古籍文本的局部语义特征,RNN分析古籍文本的语序特征,MHA加权古籍文本的关键语义特征,实现对古籍文本深层次、细粒度的语义信息挖掘。

(2)相较于传统单一使用word2vec[

11]对“原文(文)”维度的数据集进行主题分类研究,本文尝试以“字音(说)、结构(解)、字形(字)”三维度的外部信息作为“原文(文)”维度信息的辅助信息,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。并依据不同维度的数据特征,设计四维特征向量提取模型SWPF2vec(speaking, word, pattern, and font to vector),结合预训练模型(bidirectional encoder representation from transformers,BERT[15]实现对古籍文本多维语义特征的表示。

1 相关研究工作

随着新一轮科技革命的发展,以第三轮科技革命的大数据、人工智能、云计算等为代表的高性能技术逐步融入日常生活中,并衍生出研究范式的转变。数智赋[

16]理念的提出为利用高性能计算实现主题分类服务提供了理论支撑。本文旨在利用多维度、深层次、细粒度的文本挖掘技术实现对古籍文本的主题分类,将从基于机器学习的主题分类、基于深度学习的主题分类和主题分类的研究现状评述三个方面对相关研究工作进行阐述。

1.1  基于机器学习的主题分类

随着计算机技术的发展,计算机的算力逐步满足日常数据的统计归纳,机器学习技术逐步登上历史舞台。机器学习技术的规模化运用为主题分类提供了新的方法,主要包括基于统计规则的主题分类和基于主题模型的主题分类。

(1)基于统计规则的主题分类。常见的统计规则方法主要包括基于无监督学习的聚[

17]、降维和自编码[18],以及基于监督学习的支持向量机(support vector machine,SVM[19]、朴素贝叶斯(naive Bayes,NB[20]、决策树(decision tree,DT[21]等。Iglesias[22]运用聚类分析方法对网络日志深度挖掘,根据聚类结果对不同类型人物画像特征进行分类。韩梅花[23]构建抑郁情感词典对用户博文进行情感分析计算,推测潜在抑郁症患者。文献[22-23]的研究侧重于对静态数据的人物画像构建,虽然能够推测潜在事件的发生,但是无法对事件态势的发展进行动态预测。针对静数据的局限性,Adomavicius[24]、Nasraoui[25]、王庆[26]先后尝试融合用户基本信息和动态行为,运用文本挖掘的方法构建动态用户画像,实现对目标用户行为的跟踪预测,进而实现准确的主题分类。

(2)基于主题模型的主题分类。Hofmann[

27]基于贝叶斯分类算法,提出潜在语义分析模型(probabilistic latent semantic analysis,pLSA),计算“文章-主题”间的概率问题并进行主题分类。Blei[28]基于文献[27]引入了“先验分布”概念,提出潜在狄利克雷分配模型(latent Dirichlet allocation,LDA),推动了主题分类算法研究的进程。白淑霞[29]在视觉语言模型基础上融入LDA主题模型,实现对传统视觉词袋方法中忽略视觉单词间的空间关系和语义关系的问题,高效、精准地解决蒙古古籍的关键词检索问题。西安交通大学哲学系和印第安纳大学认知科学组联合开发的InPhO Topic Explorer软件平台将使用范围拓展至古汉语计[30],为古籍文本的主题分类提供了新思路。孙燕[31]结合LDA主题模型,将《春秋左传正义》中的引书句子主题分为生产生活、风俗礼仪、宗教祭祀、战争和政治五个主题类型。何琳[32]运用规则匹配和LDA主题挖掘的方法,将春秋时期的发展分为战争、政治和外交三个方面。

总体而言,基于机器学习的主题分类算法在LDA模型提出后,通过融合规则匹配等方法在古籍文本主题分类中得到较多研究。但相较于统计规则类模型,LDA主题模型在处理古籍文本主题分类时,主要通过捕获“词-主题-文章”之间的潜在隐含变量进行主题分类,缺乏考虑上下文语义间的关联性,忽略了潜在深层次语义知识对主题分类效果的影[

33]。同时,LDA主题模型作为监督学习模型,存在语义缺失、重复计算和面对新知识冷启动等缺陷,不利于深层次的古籍文本的主题分类。

1.2  基于深度学习的主题分类

以图像处理器(graphics processing unit,GPU)为核心算力的深度学习技术不断发展,实现了更深层次的语义知识挖掘,一定程度上促进了主题分类算法的改进。基于深度学习的主题分类算法是指运用神经网络发现文本信息潜在的语义关联性,实现对文本的主题分类。

常用于主题分类算法的神经网络主要包括侧重于文本特征的CNN、侧重于文本语序的RNN和侧重于特征加权的注意力机制。牛雪[

34]将LDA和word2vec生成的主题词向量输入CNN进行主题分类。肖倩[35]通过融合CNN和LDA模型来提取细粒度的语义特征,提升主题识别精度。石磊[36]运用RNN和逆序文档频率构建词对解决文本稀疏性,并引入词的突发性实现对主题的自动区分。相较于CNN模型侧重于文本特征,能够实现细粒度的特征提取;RNN模型侧重于文本语序,能够实现深层次的语义挖掘。但RNN模型在处理长文本语料时,随文本长度的增加,易造成梯度爆炸或消失。后多采用其变种的长短时记忆网络(long short-term memory,LSTM[37]或双向长短时记忆网络(bi-directional long short-term memory,BiLSTM[38]进行长文本语料的处理。彭敏[39]结合BiLSTM的文档语义编码框架(document semantic bi-directional LSTM,DS-BiLSTM)进行语义的词嵌入表示,采用“文档-主题”和“词汇-词汇”的语义增强机制刻画参数推断的吉布斯采样过程,提升LDA主题模型在文本分类任务上的准确性。RNN模型虽能够有效捕获文本位置特征,但由于模型梯度问题,易忽略关键词的特征性。因此,通常借助注意力机制来提升模型整体的准确性。胡朝举[40]构建融合主题特征的深层注意力的LSTM模型(deeper attention LSTM with aspect embedding,AE-DATT-LSTM),有效提升了模型整体的主题分类效果。曾子明[41]在传统深度学习模型基础上融合BERT预训练模型,进一步提升模型整体的主题分类效果。

总体而言,基于深度学习的主题分类算法作为现主流研究方法,随着注意力机制、预训练模型等新型方法的提出,其模型主题分类任务的准确性随模型复杂度的提升而提升。

1.3  主题分类的研究现状评述

结合上文梳理的研究现状可知,主题分类算法在机器学习和深度学习领域均取得阶段性研究成果,一定程度上实现了细粒度、深层次的文本语义挖掘。但上述研究主要集中于对现代文本的主题分类算法研究,对古籍文本的主题分类算法研究较少;且现有的主题分类算法仅以“原文(文)”维度的数据集进行研究,缺乏考虑文字不同维度特征间的关联性,一定程度上限制了古籍文本主题分类效果。

2 研究框架

针对现有古籍主题分类研究仅以“原文(文)”维度的数据集进行研究,缺乏考虑古籍文本与文字本身的“字音(说)、结构(解)、字形(字)”的关联性等问题,本文尝试构建全新的“说文解字”古籍文本数据集,并提出一种基于SWPF2vec和DJ-TextRCNN的古籍主题分类算法,实现对多维特征古籍文本的主题分类。

2.1  多维特征主题分类算法研究框架

基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类算法整体研究框架如图1所示。该框架分为四个部分,分别是“说文解字”古籍文本数据集构建、“说文解字”多维特征融合提取、DJ-TextRCNN主题分类以及古籍文本主题分类模型评估。

fig

图1  基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类算法整体框架

(1)“说文解字”古籍文本数据集构建:参照《说文解字》和《康熙字典》对古籍文本数据集进行字音、字形、结构的数据集扩充,形成全新的“说文解字”四维特征数据集。系统预处理“说文解字”古籍文本数据集,主要包括古文分词、停用词过滤、词性标注。

(2)“说文解字”多维特征融合提取:将处理好的“说文解字”古籍文本数据集分别从“字音(说)、原文(文)、结构(解)、字形(字)”四个维度进行对应的特征提取,并将提取后的特征进行加权融合,通过SWPF2vec形成全新的特征向量,再通过BERT预训练模型进行特征加权提取,提升部分词的特征权重。

(3)DJ-TextRCNN主题分类:首先,通过对TextRCNN中的CNN进行改进,构建三层不同规模卷积核的CNN,实现对古籍文本局部特征的细粒度提取;其次,通过TextRCNN中的RNN和BiLSTM捕获长文本语料中的上下文语义特征;最后,利用MHA对关键特征加权处理,提升主题分类模型整体识别效果。

(4)古籍文本主题分类模型评估:首先,将处理好的“说文解字”古籍文本数据集按8∶1∶1划分为训练集、测试集和验证集。其次,分别从单一原文(文)维度和“说文解字”四个维度进行系统对比实验,通过模型评估指标评估各模型主题分类效果。最后,筛选出最好的主题分类策略,运用混淆矩阵(confusion matrix)判断该策略模型在不同主题下的分类识别效果。

2.2  多维特征融合

深度学习中的多维特征融合(multi-dimensional feature fusion)是指对同一研究对象综合来自两个或多个以上维度的信息特征进行预测的过程。在整个预测环节中,通常情况下单个维度信息并不能包含全部语义特征,因此,需借助来自两个或多个维度的信息特征,实现对现有信息的补充,提升模型预测的准确性。传统主题分类算法主要以“原文(文)”维度进行研究,并未考虑补充其他文字维度信息,存在一定的局限性。本文参考古籍《说文解字》对字体特征的研究,考虑到字由字音、字形、结构、字意所组成,适合作为对“原文(文)”的信息补充,提取出语义更为丰富且粒度更细的特征,为后续的DJ-TextRCNN的主题分类提供更好的向量表示。

以多维特征中的“字音(说)”的特征为例,古籍文本中存在大量多音字,且字音的差异对字(词)的词性判断具有决定性作用。以先秦典籍《左传》中的常见多音字“朝[

42]为例,“再拜稽首,辞曰:‘死在朝夕,无助天为虐。’[昭公二年][43]中的“朝”作为名词,其对应的字音(说)的标注信息为“ㄓㄠ[42];“十七年春,小邾穆公来朝,公与之燕。[昭公十七年][43]中的“朝”作为动词,其对应的字音(说)的标注信息为“ㄔㄠˊ[42]。通过字音(说)的标注信息能够有效提升模型对词性的识别能力。

由于古籍文本需要借助大量先验知识进行文本特征学习,且本文分别从“说、文、解、字”四个维度扩充原本语料集,单一使用word2vec无法满足不同维度文本的特征提取。因此,本文针对“说、文、解、字”四个维度特征提出多维特征融合算法,如图2所示。四个维度将分别产生与之对应的embedding,即speaking embedding、word embedding、pattern embedding和font embedding,有效覆盖古籍文本在字音、原文、结构、字形四个维度的细粒度特征。其中,speaking2vec和font2vec为基于统计分析的特征提取,而pattern2vec为基于字符统计的特征提取。

fig

图2  “说文解字”多维特征融合原理

基于字符统计的特征提取,是指在没有完整的先验知识的前提条件下,仅凭借结构特征难以定义一个完整的词汇表来描述主题特征。因此,使用skip-gram模式提取结构特征,通过统计不同结构字符的频率以及上下文生成与之对应的pattern embedding,并将其映射至一个字符级别的向量中,降低冗余特征对后续DJ-TextRCNN主题模型的影响。pattern2vec作为后续融合特征的辅助词向量,能进一步提升DJ-TextRCNN的鲁棒性。

基于统计分析的特征提取,是指由于传统字符特征向量细粒度程度过高,所包含的语义信息相对应减少,需将其转换为对应的character序列向量,作为辅助词向量。考虑到字符特征和单词特征在主题分类算法中起到重要作用,本文针对字音和字形,尝试设计一种基于统计分析的特征提取算法speaking2vec和font2vec,将字音和字形转换为辅助原文的character序列向量,具体操作分为三步:

Step1.分别提取每个字的字音和字形的字符特征;

Step2.利用计量统计分析的方法,计算Step1提取的字符特征的权重;

Step3.结合共现矩阵原理,设计字符特征的排序算法,筛选出能够代表字音(说)|字形(字)的关键特征,将原本排列的字音(说)|字形(字)数据集转换成与之对应的character序列向量,其表现形式为

V(character)=v11v12v1mv21v22v2mvn1vn2vnm (1)

其中,V(character)表示speaking2vec和font2vec最终生成的character序列向量;vij表示单个字符word2vec生成的向量。

由于“说文解字”多维特征古籍文本数据集在不同维度的特征提取方式存在一定的差异性,因此,无法使用传统简单的特征融合算法。本文设计并实现一种全新的多维特征融合算法,将上文中的“字音(说)、原文(文)、结构(解)、字形(字)”四维特征提取的特征向量进行融合,实现深层次的embedding交互,提升下一阶段DJ-TextRCNN模型的主题分类效果。具体操作为

(1)输入speaking2vec、word2vec、pattern2vec和font2vec四种嵌入算法提取的特征向量;

(2)输出:将输入的不同特征向量进行对齐和拼接,形成全新的高等级联合表征向量V(multi)。其伪代码如下:

算法:多维特征融合算法

输入:V(speaking), V(word), V(pattern), V(font)

输出:V(multi)

1 initialization: V(multi)Ф

2 FOR i← 1 TO n DO

3 alignment(vi(speaking), vi(word), vi(pattern), vi(font))

4 vi(multi)=concat(vi(speaking), vi(word), vi(pattern), vi(font))

5 V(multi).append(vi(multi))

6 END

7 RETURN V(multi)

SWPF2vec多维特征融合算法能够较好地捕获深层次的语义特征,有助于下一阶段的DJ-TextRCNN模型学习在“字音(说)、原文(文)、结构(解)、字形(字)”四种特征表示的优势下,提取更细粒度的古籍文本特征,包括字音音调特征、语义关系特征、字体结构特征和字形部首特征,从更多维度识别古籍文本的主题。通过SWPF2vec多维特征融合后的特征向量,能够有效提升模型整体的准确性和鲁棒性,为后续古籍文本主题分类任务做出重要贡献。

2.3  预训练模型

相较于传统自然语言,古籍文本存在命名规则复杂化、语义歧义多样化、字形结构繁杂化等复杂性问题,且古籍文本通篇关联性较强,部分主语、宾语甚至谓语部分存在避免上下文内容烦琐而直接省略的现象,一定程度上加大了古籍文本主题分类任务的难度。考虑到预训练模型是建立在通过自监督学习从大规模语料训练后保存下来的网络模型,能够更好地捕获输入语料的上下文关联语义,一定程度上缓解了因古籍文本省略语句而造成语义缺失的现象。

本文选取2018年由谷歌自然语言处理实验室提出的由双向Transformer架构组成的BERT[

15]模型作为古籍文本处理的预训练模型,主要是因为双向Transformer架构能够更好地考虑上下文语义的关联性,通过设置[Mask]机制补充古籍文本省略的语义信息,夯实缺失文本信息。

以先秦典籍《左传》“鄭公子忽在王所,故陳侯請妻之。[隐公·隐公七年][

43]为例。预训练模型BERT的输入层会在句首增设[CLS]标签,表示需要对输入的整句古籍文本进行编码,以句为单位表征语义信息。将句中的标点符号改为[SEP]标签,表示句子的分割,便于BERT模型确认句子的边界,理解分句间的关系,即编码为“[CLS] 鄭 公 子 忽 在 王 所 [SEP] 故 陳 侯 請 妻 之 [SEP]”。

同时,BERT预训练模型能够充分考虑词嵌入、句嵌入和位置嵌入的关系特征,较好地补全了分词后语义的完整性,结合多维特征融合算法能够更好保留古籍文本包含的语义信息。

2.4  古籍文本主题分类算法

古籍文本主题分类算法首次尝试构建基于多维特征融合、预训练、DJ-TextRCNN、MHA和Transformer的组合模型,以实现对古籍文本的主题分类任务。该算法的整体框架如图3所示,包括八个组成部分,即输入层、“说文解字”多维特征融合嵌入层、预训练模型、改进CNN层、BiLSTM层、MHA和Transformer架构、全连接层以及输出层(softmax分类器)。

fig

图3  古籍文本主题分类算法整体架构

(1)输入层:为数据构建层,构建全新的“说文解字”多维数据集,并将其输入古籍文本主题分类算法的模型中。

(2)“说文解字”多维特征融合嵌入层:通过SWPF2vec将“说文解字”多维特征的古籍文本语料映射成由speaking embedding、word embedding、pattern embedding和font embedding融合形成的多维特征向量。该多维特征向量融合“说、文、解、字”四个维度特征,作为后续古籍文本主题分类模型的输入。

(3)预训练模型:由于“说文解字”多维特征向量中仅有“文(原文)”维度具有语义特征,其他维度特征需通过预训练模型才能获取对应的语义信息。因此,预训练模型BERT深度融合SWPF2vec映射成的“说文解字”多维特征向量,补全其不同特征所缺失的语义特征信息,增强向量的语义表示,较完整地保留原古籍文本包含的语义信息。

(4)改进CNN层:该层由改进的三层CNN神经网络和池化层构建而成。考虑到CNN在处理文本语料时能捕获多个连续词间的特征关系,常被用于细粒度的文本特征挖掘任务,通过捕获各单位词序列的局部特征,识别古籍文本的潜在主题特征。以先秦典籍《左传》“齊人來歸鄆、讙、龜陰之田。[定公十年][

43]为例,“来”(动词语义为“前往[42],应为地理主题的“移动-撤退返回(移動-撤退返回)”)和“歸”(动词语义为“归还[42],应为经济主题的“借还|请求(借還|請求)”)均为触发词,即同一语句包含两层主题特征,需更深层次挖掘语义信息,发现动词“来”为动词“歸”的前置修饰语。结合深层次语义信息可知,“前往鲁国”是为了“归还鄆邑、讙邑、龜陰邑的土地”,可判断为经济主题的“借还|请求(借還|請求)”。

考虑到上述古籍文本中存在词性兼容的现象,需挖掘更深层次的语义特征,并对传统的单层CNN的网络结构进行改进。因此,本文设置三层不同卷积核(2、3、4)和最大池化层实现对古籍文本的长文本语料进行初步细粒度的语义局部特征提取。该卷积操作的具体计算公式为

cit=f(vi(multi)×wt+bt) (2)

其中,vi(multi)为SWPF2vec多维特征融合后的特征向量,且满足vi(multi)n×Dn表示特征数量,D表示词向量的维度;wt表示CNN网络的卷积核的大小;bt表示CNN网络的误差值;f表示本文使用的ReLU激活函数。经过三层CNN网络生成的特征记为cti,并映射得到“说文解字”古籍文本语料的局部特征集合Cd,映射计算过程为

Cd={c1d,c2d,,cn-d+1d} (3)

Cd引入MaxPooling的最大池化层进行处理,通过对输入主题特征集采样处理后,结合公式

Mi=max{Cd} (4)

对“说文解字”古籍文本特征集的局部特征进行最优化计算,实现特征向量和网络参数大小的缩减,降低模型整体数据维度,减少无关计算量和RNN网络结构发生梯度爆炸的风险。

为便于后续主题模型的计算,将公式(4)计算的局部特征最优解Mi按公式

S={M1,M2,,Mn} (5)

组合成输出向量S

(5)BiLSTM层:LSTM作为RNN网络结构的变种,通过门结构(遗忘门、输入门和输出门)实现对语义信息的控制与保护,即保留关键信息并遗忘无关信息,较好地实现对上下文语义特征信息的关联性挖掘。以先秦典籍《左传》“鄭人以王師會之。[隐公·隐公五年][

43]为例,此处的“之”为宾语处的指示代词,需结合上下文内容,补全指示代词“之”所指的是后文的主语“邾師”。BiLSTM由两条不同方向的LSTM组成,以实现从前后两个不同方向的序列特征提取,其前向LSTM对应的输出向量为ht,后向LSTM对应的输出向量为ht,语义提取过程为

ht=f(w1×St+w2×ht-1)ht=f(w3×St+w5×ht+1)yt=g(w4×ht+w6×ht) (6)

其中,St表示t时刻输入的“说文解字”古籍文本特征向量;wn表示BiLSTM各个位置的权重参数;f表示sigmoid激活函数;g表示tanh激活函数;yt表示BiLSTM层最终的输出向量特征。此外,“说文解字”四维特征信息均与单位词的位置存在密切关联性,LSTM模型能最大限度保留各维度的位置语义信息,并通过门结构筛选无关信息。

DJ-TextRCNN模型利用改进CNN层实现对“说文解字”四维特征古籍文本的细粒度特征挖掘,降低数据维度,并利用BiLSTM层捕获上下文语义关系,避免模型架构出现梯度爆炸(消失)。

(6)MHA和Transformer架构:考虑到古籍文本挖掘模型不仅需要实现细粒度的语义挖掘,更需要对通篇古籍文本的语义理解,故引入MHA和Transformer架构。其中,MHA能突出序列的关键信息,Transformer能计算特征词之间的关联性,提升DJ-TextCNN模型处理大规模数据时的准确性。本文尝试融合MHA和Transformer架构的主题特征检测模型,通过Transformer捕获BiLSTM层输出向量的局部特征,并结合MHA筛选重要语义信息,实现深层次的语义特征信息和长距离依赖关系的捕获。以先秦典籍《左传》“衞人以燕師伐鄭。[隐公五年][

43]为例,“为”和“伐”均为动词,其中触发词“伐”的语义信息更能表示该句的主题特征,通过加权“伐”的语义信息,能有效提升模型的识别效果。

传统注意力(attention)机制侧重于归一化处理当前位置的注意力权重,以权重和的形式表示整个句子的隐含向量,存在无法考虑上下文语义对当前位置的语义影响的局限性。与此相比,MHA的网络结构如图4所示,其采用缩放点积注意力将BiLSTM层输入特征的线性转化为三个相同维度的注意力矩阵:值矩阵(value,V)、键矩阵(key,K)和查询矩阵(query,Q)。

fig

图4  MHA网络结构

上述三个自注意力矩阵均按照公式

attention(Q,K,V)=softmaxQKTdkV (7)

通过状态矩阵与对应的权重矩阵的计算所得。其中,dk表示上述三个注意力矩阵的维度;softmax函数可以将查询矩阵Q和键矩阵K点积运算后归一化处理,再获得与值矩阵V的乘积,即自注意力机制的权重和。

为深层次捕获“说文解字”古籍文本数据集在不同计算子空间中的上下文语义特征,通过n次计算自注意力机制的注意力分数,并将结果按照公式

MHA(QKV)=concat(head1,head2,,headn)Wo (8)

的拼接方式得出最终MHA的输出。其中,Wo为输出权重矩阵;head1到headn为MHA的每个并行头,每个并行头headj按照公式

headj=attention(QWjQ,KWjK,VWjV) (9)

计算盖头的注意力大小。其中,WjQWjKWjV分别对应QKV的线性变换权重矩阵。最终,通过拼接得到MHA的输出结果,继BiLSTM层之后,再次对上下文语义特征进行提取。

相较于单一维度的古籍文本embedding,“说文解字”四维度的古籍文本embedding的位置关系更为复杂。Transformer架构能忽略特征在序列中的位置距离,辅助MHA更好地捕获全局依赖信息,并将其运用于古籍文本的主题分类。

至此,阶段(2)~(6)的多维度的特征向量权重计算,保证了本文提出的DJ-TextRCNN模型能够精准捕获“说文解字”四维特征的古籍文本信息,实现对其细粒度的语义特征挖掘以及深层次的位置语序提取,从而更好地识别古籍文本的主题。

(7)全连接层和输出层:全连接层(full connected layer)为神经网络模型的分类器,它将前面过程所学到的分布式特征表示作为输入,通过映射的方式输入样本标记空间。然后,结合输出层的softmax函数实现对古籍文本的主题自动分类。

综上所述,本文通过图3所示的古籍文本主题分类算法架构图,构建了一种基于多维特征融合、预训练模型、DJ-TextRCNN、MHA和Transformer架构的混合模型,以识别古籍文本的主题特征,实现对古籍文本的主题自动分类。

3 实验分析

本文提出一种基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类算法,为更好地比较不同维度特征下各模型的性能,从三个方面进行系统的对比试验。首先,对比分析本文提出的DJ-TextRCNN模型相较于传统机器学习和深度学习模型的性能差异,能否实现深层次、细粒度的语义挖掘,突出DJ-TextRCNN模型的准确性和鲁棒性;其次,对比本文提出的“说文解字”四维特征提取算法能否有效提取多维度特征,增强古籍文本的语义特征表示;最后,对比本文提出的多维特征融合DJ-TextRCNN的古籍文本分类算法在不同主题下的识别效果,探究影响主题分类准确性的主要原因。

3.1  实验环境及数据集

实验环境方面,本文操作系统为Window11 64位操作系统,中央处理器(central processing unit,CPU)为Inter(R) Core i9-12900H,GPU为NVIDIA GeForce RTX 3080 Ti Laptop,内存为64GB,编程语言环境为Python 3.9,深度学习架构为Keras和TensorFlow,深度学习模型参数设置如表1所示。

表1  DJ-TextRCNN模型超参数设置
参数含义取值
filter_sizes 卷积核数量 256
t_lstm LSTM隐藏层数量 128
t_dense 分类器类别数量 2
rnn_units 隐藏层单元数 100
heads 注意力机制头数 16
learning_rate 学习率大小 0.0005
d 词向量维度 500
max_epoch 最大迭代次数 100
batch_size 批量梯度下降数 128
epoch 训练批次 20
dropout_p dropout参数 0.4
AF 激活函数 ReLU

针对古籍文本的主题分类体系构建,笔者团队前期分别使用自上而下和自下而上的方式构建了主题分类框架。其中,自上而下的主题分类框架构架依托于对多位历史学家和历史爱好者的访谈内容归纳出的“政治、军事、经济、科技、社会、灾难[

44];自下而上的主题分类框架构建依托于主题聚类模型对触发词计算出的“军事行动(战争、阅兵、会师)、人口流动(逃跑、归国)、社会动乱(杀戮、叛乱)、政治外交(朝见、聘问)、结盟议和(盟会、议和)、死亡丧葬(去世、丧仪)、婚姻生育(生育、婚姻、通奸)、政权交替(册立、即位)、社会交换(贿赂、赠与、借取)、生活风俗(祭祀、占卜、狩猎、建筑、疾病)[45]

结合上述两种古籍文本主题分类体系的构建理论基础,本文融合部分分类主题,构建了表2所示的全新主题分类体系框架。

表2  古籍文本主题分类体系框架
一级主题二级主题
从属 官职|职责(官職|職責)、跟从(跟從)
地理 地理、灾难、居住|驻扎|所处位置(居住|駐扎|所處位置)、前往到达(前往到達)、出奔、移动-撤退返回(移動-撤退返回)、迎接护送(迎接護送)、驾乘(駕乘)、迁移(遷移)
风俗 见面|遇见(見面|遇見)、生养(生養)、人物关系-态度(人物關係-態度)、婚姻、宴请|饮食(宴請|飲食)、祭祀、卜筮(蔔筮)、制作(製作)、休闲(休閒)
经济 经济、物品转移-取得、物品转移-赠予、物品转移-借还|请求(物品转移-借還|請求)、物品转移-贿赂
军事 摧毀、战争(戰爭)、俘获囚禁(俘獲囚禁)、会师(會師)、军备(軍備)、占领(佔領)、阅兵(閱兵)
人物 死亡、人物特征、疾病、人物动作(人物動作)、言语交流、等待
外交 会盟(會盟)、朝聘、请成(請成)、人质(人質)、商量
政治 冲突杀戮(衝突殺戮)、筑城(築城)、叛乱(叛亂)、册立即位

由于“说文解字”四维特征的古籍文本数据集构建需要建立在高质量语料基础之上,因此,以笔者团队前期精标语料《左传[

46]作为本文实验的单维度基础数据集。在此基础上,参照《说文解字》和《康熙字典》对其进行字音、结构、字形维度特征的扩充,形成全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集,并按照8∶1∶1将其划分为表3所示的训练集、验证集和测试集。

表3  古籍文本数据集主题类型分布
主题类型训练集验证集测试集
从属 869 108 107
地理 2248 280 280
风俗 1888 235 234
经济 912 113 112
军事 1927 240 239
人物 2332 290 290
外交 908 113 112
政治 1108 137 136
汇总 12192 1516 1510

3.2  评价指标

为评估DJ-TextRCNN的性能,本文使用分类任务的常见指标精确率(precisioni)、召回率(recalli)、F1值(F1-scorei)和准确率(accuracyi)作为评价指标。第i个古籍文本主题分类的评价指标计算公式为

precisioni=TPiTPi+FPirecalli=TPiTPi+TNiF1 -scorei=2×precisioni×recalliprecisioni+recalliaccuracyi=TPi+TNiTPi+TNi+FPi+FNi (10)

其中,accuracyi为预测正确的数量占总预测量的比值,能够直观判断所使用模型判断古籍语料主题的准确性。

为了评估本文提出的基于SWPF2vec和DJ-TextRCNN模型的性能,设计了三类基线(baselines)模型进行对比实验,分别是机器学习类的基线模型、深度学习类的基线模型和Transformer类的基线模型。

(1)机器学习类的基线模型:该类基线模型使用机器学习算法构建模型,并实现古籍文本的主题分类。包括DT、随机森林(random forest,RF)、逻辑回归(logistic regression,LR)、SVM和多项式朴素贝叶斯(multinomial NB)算法。

(2)深度学习类的基线模型:该类基线模型通过Keras构建深度学习模型,进而实现古籍文本的主题分类。包括LSTM、门控循环单元神经网络(gated recurrent unit,GRU)、 TextCNN、双向循环神经网络(bi-directional recurrent neural network for text classification,TextBiRNN)、TextRCNN、基于自注意力机制的TextRCNN(TextAttRCNN)。

(3)Transformer类的基线模型:该类基线模型通过TensorFlow构建Transformer模型,进而实现古籍文本的主题分类。包括BERTCNN、BERTLSTM、BERTRCNN、BERTAttRCNN和基于MHA的TextRCNN(BERTMRCNN)。

为保证上述三类基线模型和DJ-TextRCNN模型对比实验的公平,各模型均按照表1设置参数。同时,为避免单次实验产生的噪声对实验结果的误判,本文采用10次交叉实验结果的平均值作为模型评价结果,提升对比结果的说服力和真实性。

3.3  主题分类模型结果评估

各类基线模型的实验结果如表4所示。DJ-TextRCNN能够在精确率、召回率、F1值和准确率上均获得最佳性能,分别是0.7479、0.7457、0.7451和0.7457。相较于机器学习类基线模型中效果最好的SVM,DJ-TextRCNN模型在古籍文本主题分类任务的准确性上提升了0.4863;相较于深度学习类基线模型中效果最好的TextCNN,DJ-TextRCNN模型的准确率提升了0.0617;相较于Transformer类基线模型中效果最好的BERTMRCNN,DJ-TextRCNN模型的准确率提升0.0033。融合SWPF2vec的DJ-TextRCNN模型的古籍文本主题分类效果进一步提升,其精确率、召回率、F1值和准确率分别为0.7640、0.7623、0.7617和0.7623,相较于未融合SWPF2vec的DJ-TextRCNN模型,准确率进一步提升了0.0166。

表4  各基线模型主题分类实验效果对比
模型类型模型名称权重均值准确率提升效果
精确率召回率F1
机器学习 DT 0.2822 0.2554 0.2209 0.2554 ↑ 0.4903
RF 0.2828 0.2584 0.2291 0.2584 ↑ 0.4873
LR 0.2767 0.2508 0.2071 0.2508 ↑ 0.4949
SVM 0.2794 0.2594 0.2276 0.2594 ↑ 0.4863
multinomial NB 0.3210 0.2462 0.1923 0.2462 ↑ 0.4995
深度学习 LSTM 0.6680 0.6629 0.6637 0.6629 ↑ 0.0828
GRU 0.6811 0.6755 0.6765 0.6755 ↑ 0.0702
TextCNN 0.6864 0.6840 0.6842 0.6840 ↑ 0.0617
TextBiRNN 0.6820 0.6788 0.6797 0.6788 ↑ 0.0669
TextRCNN 0.6831 0.6821 0.6820 0.6821 ↑ 0.0636
TextAttRCNN 0.6681 0.6642 0.6651 0.6642 ↑ 0.0815
Transformer BERTCNN 0.7333 0.7318 0.7321 0.7318 ↑ 0.0139
BERTLSTM 0.7357 0.7325 0.7317 0.7325 ↑ 0.0132
BERTRCNN 0.7419 0.7397 0.7377 0.7397 ↑ 0.0060
BERTAttRCNN 0.7448 0.7404 0.7403 0.7404 ↑ 0.0053
BERTMRCNN 0.7448 0.7424 0.7421 0.7424 ↑ 0.0033
本文 DJ-TextRCNN 0.7479 0.7457 0.7451 0.7457
SWPF2vec+DJ-TextRCNN 0.7640 0.7623 0.7617 0.7623 ↑ 0.0166

实验结果表明,Transformer类基线模型的效果普遍优于其他两类基线模型的准确性,该基线下的预训练模型BERT较好地提升了古籍文本的特征表示能力,有效提升了模型的准确性。本文提出的DJ-TextRCNN模型中的三层CNN网络实现了对古籍文本更细粒度的语义挖掘,并通过BiLSTM、Transformer和MHA实现了对古籍文本更深层次的语义挖掘。通过SWPF2vec多维特征提取算法,DJ-TextRCNN模型有效实现了“注音、结构、字形”对“原文”语义信息的补充,实现了对古籍文本多维度、深层次、细粒度的语义挖掘,提升了古籍文本主题分类任务准确性。

3.4  单维度和多维度的分类评估

表5F1-score值和准确率详细评估Transformer类基线模型和DJ-TextRCNN模型的四种特征提取算法和多维特征融合的主题分类效果。实验结果表明,DJ-TextRCNN模型在各种单维特征下的效果均为最优,其准确率分别是0.7397(“说”)、0.7457(“文”)、0.7291(“解”)和0.7364(“字”)。Transformer类基线模型在不同维度特征下的表现效果不一。其中,BERTMRCNN在speaking2vec和word2vec特征提取算法下,主题分类效果最佳,准确率分别为0.7397和0.7424;BERTAttRCNN在pattern2vec特征提取算法下,主题分类效果最佳,准确率为0.7291;BERTRCNN在font2vec特征提取算法下,主题分类效果最佳,准确率为0.7351。但上述模型的准确率均未超越本文提出的DJ-TextRCNN模型,一定程度上说明DJ-TextRCNN模型能够适用于不同维度特征的主题分类任务,具有较好的泛化性和鲁棒性。

表5  不同维度特征下Transformer类基线模型主题分类实验效果对比
模型单维模型多维模型
speak2vecword2vecpattern2vecfont2vecSWPF2vec
F1准确率F1准确率F1准确率F1准确率F1准确率
BERTCNN 0.7297 0.7298 0.7321 0.7318 0.7171 0.7185 0.7282 0.7285 0.7342 0.7344
BERTLSTM 0.7268 0.7278 0.7317 0.7325 0.7154 0.7159 0.7237 0.7258 0.7326 0.7331
BERTRCNN 0.7379 0.7384 0.7377 0.7397 0.7177 0.7199 0.7338 0.7351 0.7390 0.7404
BERTAttRCNN 0.7338 0.7338 0.7403 0.7404 0.7292 0.7291 0.7301 0.7311 0.7464 0.7464
BERTMRCNN 0.7395 0.7397 0.7421 0.7424 0.7229 0.7238 0.7256 0.7265 0.7482 0.7483
DJ-TextRCNN 0.7395 0.7397 0.7451 0.7457 0.7273 0.7291 0.7382 0.7364 0.7617 0.7623

注:  粗体表示最佳实验结果。

Transformer类基线模型和DJ-TextRCNN模型在多维特征场景下的效果均优于单一维度特征下的结果。Transformer类基线模型中的BERTMRCNN在SWPF2vec特征提取算法下的主题分类效果最佳,F1值为0.7482,准确率为0.7483;本文提出的DJ-TextRCNN模型在SWPT2vec特征提取算法下的主题效果得到进一步提升,其F1值为0.7617(比BERTMRCNN提升了0.0135),准确率为0.7623(比BERTMRCNN提升了0.0140)。同时,DJ-TextRCNN模型多维特征级别的准确率比“说(字音)”维特征的Transformer类基线模型的平均值高0.0284,比“文(原文)”维特征、“解(结构)”维特征和“字(字形)”维特征的平均值分别高0.0249、0.0409和0.0329。上述结果可以证明,本文提出的DJ-TextRCNN模型能有效识别古籍文本的主题类别,并且SWPF2vec能准确捕获四个维度的细粒度特征。

通过单维特征和多维特征的对比可知,不同神经网络对不同维度的语义特征具有不同的提取效果。其中,TextRCNN模型能有效识别“字(字形)”维特征的语义特征,自注意力机制能更好地捕获“解(结构)”维特征的语义特征,Transformer架构可提取“说(字音)”和“文(原文)”维特征的语义特征,BiLSTM模型可在融合后的语料中更好地抽取位置序列和语义结构,CNN模型可提取关键特征并加快模型检测速度。因此,融合上述四种网络结构的DJ-TextRCNN模型与本文提出的SWPF2vec的四维特征提取算法契合度较高,能够获得更佳的F1值和准确率。

3.5  多维特征的不同主题分类效果评估

表6以精确率、召回率、F1值为评价指标,详细评估基于SWPF2vec多维特征融合下的Transformer类基线模型在不同类型主题的分类效果。实验结果表明,DJ-TextRCNN模型在主题“政治”“人物”“地理”和“经济”的效果均优于其他对比模型,其对应的F1值分别为0.7500(比BERTMRCNN模型提升了0.0486)、0.7793(比BERTRCNN模型提升了0.0109)和0.7896(比BERTMRCNN模型提升了0.0193)。“从属”主题分类识别效果最优的模型是BERTCNN模型,其对应的F1值为0.7196,比DJ-TextRCNN模型高0.0927;“军事”主题分类识别效果最优的模型是BERTMRCNN模型,其对应的F1值为0.8337,比DJ-TextRCNN模型高0.0170;“外交”主题识别效果最优的模型是BERTRCNN模型,其对应的F1值为0.8089,比DJ-TextRCNN模型高0.0124。

表6  “说文解字”四维特征融合下Transformer类基线模型主题分类实验效果对比
模型评价指标政治人物地理从属军事风俗经济外交
BERTCNN 精确率 0.6516 0.7350 0.7702 0.7196 0.7951 0.7357 0.7064 0.6861
召回率 0.7372 0.7172 0.6821 0.7196 0.8151 0.7137 0.6875 0.8393
F1 0.6918 0.7260 0.7235 0.7196 0.8050 0.7245 0.6968 0.7550
提升效果 ↑ 0.0582 ↑ 0.0533 ↑ 0.0661 ↓ 0.0927 ↑ 0.0117 ↓ 0.0025 ↑ 0.0245 ↑ 0.0415
BERTLSTM 精确率 0.6992 0.7840 0.7701 0.6863 0.7765 0.6553 0.7400 0.6970
召回率 0.6788 0.6759 0.7536 0.6542 0.8319 0.7393 0.6607 0.8214
F1 0.6889 0.7259 0.7617 0.6699 0.8032 0.6948 0.6981 0.7541
提升效果 ↑ 0.0611 ↑ 0.0534 ↑ 0.0279 ↓ 0.0430 ↑ 0.0135 ↑ 0.0272 ↑ 0.0232 ↑ 0.0424
BERTRCNN 精确率 0.7119 0.7821 0.7013 0.6667 0.7491 0.7734 0.6972 0.8053
召回率 0.6131 0.7552 0.7964 0.6355 0.8368 0.6709 0.6847 0.8125
F1 0.6588 0.7684 0.7458 0.6507 0.7905 0.7185 0.6909 0.8089
提升效果 ↑ 0.0912 ↑ 0.0109 ↑ 0.0438 ↓ 0.0238 ↑ 0.0262 ↑ 0.0035 ↑ 0.0304 ↓ 0.0124
BERTAttRCNN 精确率 0.6429 0.7324 0.7774 0.7143 0.8354 0.7524 0.7708 0.7213
召回率 0.7279 0.7552 0.7607 0.7009 0.8285 0.6624 0.7143 0.7857
F1 0.6828 0.7436 0.7690 0.7075 0.8319 0.7045 0.7111 0.7521
提升效果 ↑ 0.0672 ↑ 0.0357 ↑ 0.0206 ↓ 0.0806 ↓ 0.0152 ↑ 0.0175 ↑ 0.0102 ↑ 0.0444
BERTMRCNN 精确率 0.6689 0.7726 0.7622 0.6852 0.8354 0.7248 0.6972 0.7339
召回率 0.7372 0.7379 0.7786 0.6916 0.8319 0.6752 0.6786 0.8125
F1 0.7014 0.7549 0.7703 0.6884 0.8337 0.6991 0.6688 0.7712
提升效果 ↑ 0.0486 ↑ 0.0244 ↑ 0.0193 ↓ 0.0615 ↓ 0.0170 ↑ 0.0229 ↑ 0.0525 ↑ 0.0253
DJ-TextRCNN 精确率 0.7152 0.7565 0.8249 0.6702 0.8133 0.7594 0.6667 0.7826
召回率 0.7883 0.8034 0.7571 0.5888 0.8201 0.6880 0.7857 0.8108
F1 0.7500 0.7793 0.7896 0.6269 0.8167 0.7220 0.7213 0.7965

注:  粗体表示最佳实验效果。

3.6  DJ-TextRCNN的不同主题分类结果分析

在上述分析多维特征下不同主题的识别效果时,发现本文提出的DJ-TextRCNN模型因在“从属”和“风俗”的准确性低而造成整体效果降低。本文绘制了图5所示的混淆矩阵图,探究模型预测错误的原因。其横轴为古籍文本正确标注的主题类型,纵轴为基于SWPF2vec和DJ-TextRCNN模型所预测的主题类型,混淆矩阵颜色的深浅表示预测的个数。其中,主题分类识别正确数最多的主题为“人物”,正确预测233句;次之为“地理”,正确预测212句。主题分类识别错误数最多的主题是“风俗”,错误预测73句;次之为“地理”,错误预测68句。

fig

图5  各主题方向混淆矩阵对比图

结合表6可以发现,主题“从属”的测试集数据共有107句,仅正确预测63句,其中错误预测为“人物”主题13句,“风俗”8句,“经济”8句。结合古籍文本内容可知,“从属”主题内容分为两类,分别是“官职|职责(官職|職責)”和“跟从(跟從)”;标注为“人物”主题的内容分为六类,分别是“死亡”“人物特征”“疾病”“人物动作(人物動作)”“言语交流”和“等待”;标注为“风俗”主题的内容分为九类,分别是“见面|遇见(見面|遇見)”“生养(生養)”“人物关系-态度(人物關係-態度)”“婚姻”“宴请|饮食(宴請|飲食)”“祭祀”“卜筮(蔔筮)”“制作(製作)”和“休闲(休閒)”;标注为“经济”主题的内容分为两类,分别是“经济”和“物品转移”。由于“从属”类主题中包含的“官职|职责(官職|職責)”信息和“人物”类主题中包含的“人物特征”中的“职位特征”信息较为相似,易造成模型误判;“从属”类主题中包含的“跟从(跟從)”信息和“风俗”类主题中包含的“人物关系-态度(人物關係-態度)”信息接近,易造成模型误判;“从属”类主题中包含的“官职|职责(官職|職責)”类信息,存在部分描述任职过程中的居家转移的古籍语料,与“经济”类主题中包含的“物品转移”信息接近,易造成模型误判。由于“从属”类数据相对较少,单个信息的错误预测对模型主题分类准确性的影响较大,易造成误判率上升。

综上所述,实验结果充分证明了本文提出的DJ-TextRCNN模型在古籍文本主题分类任务中,具有更细粒度、更深层次、更多维度的语义挖掘性能,以及较好的鲁棒性和准确性。结合错误预测的语料内容发现,相似主题内容易造成模型的误判。同时发现,不同类型主题的古籍文本在触发词的使用上存在较大差异,可作为后续研究的关键。

4 结束语

随着“中华古籍保护计划”的不断实施,海量古籍文本得以实现数字化,一定程度上冲击了传统依托编目分类和规则匹配的主题分类方法,影响着数字人文研究范式的转型。传统编目分类和规则匹配的主题分类方法会因专家标注知识的局限性而造成主题判断的主观性,不适用于大规模古籍文本语料的主题分类;且传统古籍文本主题分类研究通常采用以文献为单元的外部特征著录实现主题分类,缺乏考虑多维语义特征间的互补性、古籍文本潜在主题特征的多样性,以及古籍文本在语言表达、文字风格、语句形式与现代文本间的差异性等。本文参照东汉古籍《说文解字》对文字的分析方式,尝试从字音、结构、字形对笔者团队现有的数据集进行扩充,形成全新的“说文解字”古籍文本数据集,并提出一种基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类算法,有效提升古籍文本主题分类任务的准确性。

研究结果表明,本文提出的SWPF2vec多维特征提取算法能够较好地实现对古籍文本多维度的语义信息挖掘,DJ-TextRCNN模型能较好完成对古籍文本的细粒度、深层次的语义信息挖掘,并且融合多层网络结构的DJ-TextRCNN模型与SWPF2vec的四维特征提取算法契合度较高,有效缓解古籍文本主题分类任务过度依赖专家知识的现状,实现自动化的古籍文本的主题分类,推动数字人文研究范式的转型。

本文在实验过程中发现主题子分类中存在语义相似主题,因挖掘细粒度过高而造成语义歧义。结合语料发现,各数据集中的触发词的主题语义信息较为明显,未来研究可尝试在自注意力机制模块增设触发词的规则权重,或先加入语义词性再进行主题分类。

参 考 文 献

1

曾蕾, 王晓光, 范炜. 图档博领域的智慧数据及其在数字人文研究中的角色[J]. 中国图书馆学报, 2018, 44(1): 17-34. [百度学术] 

2

焦艳鹏, 刘葳. 知识获取、人工智能与图书馆精神[J]. 中国图书馆学报, 2021, 47(5): 20-32. [百度学术] 

3

周贞云, 邱均平. 面向人工智能的我国知识图谱研究的分布特点与发展趋势[J]. 情报科学, 2022, 40(1): 184-192. [百度学术] 

4

高丹, 何琳. 数智赋能视域下的数字人文研究: 数据、技术与应用[J]. 图书馆论坛, 2023, 43(9): 107-119. [百度学术] 

5

何琳, 陈雅玲, 孙珂迪. 面向先秦典籍的知识本体构建技术研究[J]. 图书情报工作, 2020, 64(7): 13-19. [百度学术] 

6

杨秀璋, 武帅, 夏换, . 基于自适应图像增强技术的水族文字提取与识别研究[J]. 计算机科学, 2021, 48(S1): 74-79. [百度学术] 

7

聂娜, 翟晓娟, 马音宁. 数字人文合作研究实践——以汉语历史语音库共享研究平台的设计与实现为例[J]. 图书馆杂志, 2020, 39(12): 89-97, 106. [百度学术] 

8

赵宇翔, 张妍, 夏翠娟, . 数字人文视域下文化记忆机构价值共创研究及实践述评[J]. 中国图书馆学报, 2023, 49(1): 99-117. [百度学术] 

9

Rafiei M H, Adeli H. A new neural dynamic classification algorithm[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(12): 3074-3083. [百度学术] 

10

何琳, 乔粤, 孟凯. 基于典籍的春秋社会时间序列演变分析方法初探[J]. 情报理论与实践, 2021, 44(2): 33-40. [百度学术] 

11

Church K W. word2vec[J]. Natural Language Engineering, 2017, 23(1): 155-162. [百度学术] 

12

Gu J X, Wang Z H, Kuen J, et al. Recent advances in convolutional neural networks[J]. Pattern Recognition, 2018, 77: 354-377. [百度学术] 

13

Sutskever I, Martens J, Hinton G. Generating text with recurrent neural networks[C]// Proceedings of the 28th International Conference on International Conference on Machine Learning. Madison: Omnipress, 2011: 1017-1024. [百度学术] 

14

Garnot V S F, Landrieu L. Lightweight temporal self-attention for classifying satellite images time series[C]// Proceedings of 5th ECML PKDD Workshop on Advanced Analytics and Learning on Temporal Data. Cham: Springer, 2020: 171-181. [百度学术] 

15

Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2019: 4171-4186. [百度学术] 

16

陆伟, 杨金庆. 数智赋能的情报学学科发展趋势探析[J]. 信息资源管理学报, 2022, 12(2): 4-12. [百度学术] 

17

陈晓涛. 基于SSM的数字化古籍书库的设计与实现[D]. 南京: 东南大学, 2019. [百度学术] 

18

聂锦燃, 魏蛟龙, 唐祖平. 基于变分自编码器的无监督文本风格转换[J]. 中文信息学报, 2020, 34(7): 79-88. [百度学术] 

19

Hearst M A, Dumais S T, Osuna E, et al. Support vector machines[J]. IEEE Intelligent Systems and Their Applications, 1998, 13(4): 18-28. [百度学术] 

20

Murphy K P. Naive Bayes classifiers[R/OL]. Vancouver: University of British Columbia. (2006-10-24). https://www.cs.ubc.ca/~murphyk/Teaching/CS340-Fall06/reading/NB.pdf. [百度学术] 

21

Myles A J, Feudale R N, Liu Y, et al. An introduction to decision tree modeling[J]. Journal of Chemometrics, 2004, 18(6): 275-285. [百度学术] 

22

Iglesias J A, Angelov P, Ledezma A, et al. Creating evolving user behavior profiles automatically[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(5): 854-867. [百度学术] 

23

韩梅花, 赵景秀. 基于“用户画像”的阅读疗法模式研究——以抑郁症为例[J]. 大学图书馆学报, 2017, 35(6): 105-110. [百度学术] 

24

Adomavicius G, Tuzhilin A. Using data mining methods to build customer profiles[J]. Computer, 2001, 34(2): 74-82. [百度学术] 

25

Nasraoui O, Soliman M, Saka E, et al. A web usage mining framework for mining evolving user profiles in dynamic web sites[J]. IEEE Transactions on Knowledge and Data Engineering, 2008, 20(2): 202-215. [百度学术] 

26

王庆, 赵发珍. 基于“用户画像” 的图书馆资源推荐模式设计与分析[J]. 现代情报, 2018, 38(3): 105-109, 137. [百度学术] 

27

Hofmann T. Unsupervised learning by probabilistic latent semantic analysis[J]. Machine Learning, 2001, 42(1): 177-196. [百度学术] 

28

Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022. [百度学术] 

29

白淑霞, 鲍玉来. LDA单词图像表示的蒙古文古籍图像关键词检索方法[J]. 现代情报, 2017, 37(7): 51-54, 88. [百度学术] 

30

王小红, 科林·艾伦, 浦江淮, . 人文知识发现的计算机实现——对“汉典古籍”主题建模的实证分析[J]. 自然辩证法通讯, 2018, 40(4): 50-58. [百度学术] 

31

孙燕, 刘浏, 王东波. 《春秋左传正义》引书计算人文研究[J]. 图书情报工作, 2023, 67(2): 119-130. [百度学术] 

32

何琳, 乔粤, 刘雪琪. 春秋时期社会发展的主题挖掘与演变分析——以《左传》为例[J]. 图书情报工作, 2020, 64(7): 30-38. [百度学术] 

33

Schmidt B M. Words alone: dismantling topic models in the humanities[J]. Journal of Digital Humanities, 2012, 2(1): 49-65. [百度学术] 

34

牛雪莹. 结合主题模型词向量的CNN文本分类[J]. 计算机与现代化, 2019(10): 7-10. [百度学术] 

35

肖倩, 谢海涛, 刘平平. 一种融合LDA与CNN的社交媒体中热点舆情识别方法[J]. 情报科学, 2019, 37(11): 27-33. [百度学术] 

36

石磊, 杜军平, 梁美玉. 基于RNN和主题模型的社交网络突发话题发现[J]. 通信学报, 2018, 39(4): 189-198. [百度学术] 

37

Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. [百度学术] 

38

Wang S X, Wang X, Wang S M, et al. Bi-directional long short-term memory method based on attention mechanism and rolling update for short-term load forecasting[J]. International Journal of Electrical Power & Energy Systems, 2019, 109: 470-479. [百度学术] 

39

彭敏, 杨绍雄, 朱佳晖. 基于双向LSTM语义强化的主题建模[J]. 中文信息学报, 2018, 32(4): 40-49. [百度学术] 

40

胡朝举, 梁宁. 基于深层注意力的LSTM的特定主题情感分析[J]. 计算机应用研究, 2019, 36(4): 1075-1079. [百度学术] 

41

曾子明, 陈思语. 基于LDA与BERT-BiLSTM-Attention模型的突发公共卫生事件网络舆情演化分析[J]. 情报理论与实践, 2023, 46(9): 158-166. [百度学术] 

42

杨伯峻, 徐提. 春秋左传词典[M]. 北京: 中华书局, 1985. [百度学术] 

43

杨伯峻. 春秋左传注·一[M]. 2版. 北京: 中华书局, 1990. [百度学术] 

44

马晓雯. 面向数字人文的典籍事件触发动词数据集构建及应用研究[D]. 南京: 南京农业大学, 2021. [百度学术] 

45

李章超, 何琳, 喻雪寒. 基于事理图谱的典籍内容知识组织与应用——以《左传》为例[J/OL]. 图书馆论坛. (2023-08-31) [2024-01-24]. https://kns.cnki.net/kcms/detail/44.1306.g2.20230830.1929.004.html. [百度学术] 

46

李章超, 李忠凯, 何琳. 《左传》战争事件抽取技术研究[J]. 图书情报工作, 2020, 64(7): 20-29. [百度学术]