摘要
以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking, word, pattern, and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji - recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。
0 引 言
以大数
现阶段古籍文本的主题分类的方法仍以传统编目分类和规则匹配为主,分类依据仍侧重于以文献为单元的外部特征著录,且不同时期的古籍编目受朝代更替影响存在一定的差异性,一定程度上加剧了古籍文本主题分类的难度。随着国家“中华古籍保护计划”的实施,海量古籍文本实现数字化,为人文计算提供重要的语料研究对
针对现有古籍文本主题分类算法的局限性,本文参照东汉古籍《说文解字》对文字的分析方式,先尝试从字音、结构、字形对原本数据集进行扩充,形成全新的“字音(说)-原文(文)-结构(解)-字形(字)”(简称“说文解字”)四维特征古籍文本数据集,再利用预训练模型、神经网络模型和自注意力机制,构建适用于全新数据集的主题分类模型,命名为DJ-TextRCNN(dianji - recurrent convolutional neural networks for text classification),以实现对古籍文本多维度、深层次、细粒度的语义挖掘,提升古籍文本主题分类任务的准确性,缓解现有研究过于依赖专家知识的现状,推动数字人文研究范式的转型。本文的主要贡献如下。
(1)相较于传统以文献为单元的外部特征著录作为古籍文本主题分类的依据,本文尝试打破编目分类的局限性,对古籍内容进行研究,并结合不同深度学习模型处理文本的优势,融合卷积神经网络(convolutional neural networks,CNN
(2)相较于传统单一使用word2ve
1 相关研究工作
随着新一轮科技革命的发展,以第三轮科技革命的大数据、人工智能、云计算等为代表的高性能技术逐步融入日常生活中,并衍生出研究范式的转变。数智赋
1.1 基于机器学习的主题分类
随着计算机技术的发展,计算机的算力逐步满足日常数据的统计归纳,机器学习技术逐步登上历史舞台。机器学习技术的规模化运用为主题分类提供了新的方法,主要包括基于统计规则的主题分类和基于主题模型的主题分类。
(1)基于统计规则的主题分类。常见的统计规则方法主要包括基于无监督学习的聚
(2)基于主题模型的主题分类。Hofman
总体而言,基于机器学习的主题分类算法在LDA模型提出后,通过融合规则匹配等方法在古籍文本主题分类中得到较多研究。但相较于统计规则类模型,LDA主题模型在处理古籍文本主题分类时,主要通过捕获“词-主题-文章”之间的潜在隐含变量进行主题分类,缺乏考虑上下文语义间的关联性,忽略了潜在深层次语义知识对主题分类效果的影
1.2 基于深度学习的主题分类
以图像处理器(graphics processing unit,GPU)为核心算力的深度学习技术不断发展,实现了更深层次的语义知识挖掘,一定程度上促进了主题分类算法的改进。基于深度学习的主题分类算法是指运用神经网络发现文本信息潜在的语义关联性,实现对文本的主题分类。
常用于主题分类算法的神经网络主要包括侧重于文本特征的CNN、侧重于文本语序的RNN和侧重于特征加权的注意力机制。牛雪
总体而言,基于深度学习的主题分类算法作为现主流研究方法,随着注意力机制、预训练模型等新型方法的提出,其模型主题分类任务的准确性随模型复杂度的提升而提升。
1.3 主题分类的研究现状评述
结合上文梳理的研究现状可知,主题分类算法在机器学习和深度学习领域均取得阶段性研究成果,一定程度上实现了细粒度、深层次的文本语义挖掘。但上述研究主要集中于对现代文本的主题分类算法研究,对古籍文本的主题分类算法研究较少;且现有的主题分类算法仅以“原文(文)”维度的数据集进行研究,缺乏考虑文字不同维度特征间的关联性,一定程度上限制了古籍文本主题分类效果。
2 研究框架
针对现有古籍主题分类研究仅以“原文(文)”维度的数据集进行研究,缺乏考虑古籍文本与文字本身的“字音(说)、结构(解)、字形(字)”的关联性等问题,本文尝试构建全新的“说文解字”古籍文本数据集,并提出一种基于SWPF2vec和DJ-TextRCNN的古籍主题分类算法,实现对多维特征古籍文本的主题分类。
2.1 多维特征主题分类算法研究框架
基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类算法整体研究框架如

图1 基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类算法整体框架
(1)“说文解字”古籍文本数据集构建:参照《说文解字》和《康熙字典》对古籍文本数据集进行字音、字形、结构的数据集扩充,形成全新的“说文解字”四维特征数据集。系统预处理“说文解字”古籍文本数据集,主要包括古文分词、停用词过滤、词性标注。
(2)“说文解字”多维特征融合提取:将处理好的“说文解字”古籍文本数据集分别从“字音(说)、原文(文)、结构(解)、字形(字)”四个维度进行对应的特征提取,并将提取后的特征进行加权融合,通过SWPF2vec形成全新的特征向量,再通过BERT预训练模型进行特征加权提取,提升部分词的特征权重。
(3)DJ-TextRCNN主题分类:首先,通过对TextRCNN中的CNN进行改进,构建三层不同规模卷积核的CNN,实现对古籍文本局部特征的细粒度提取;其次,通过TextRCNN中的RNN和BiLSTM捕获长文本语料中的上下文语义特征;最后,利用MHA对关键特征加权处理,提升主题分类模型整体识别效果。
(4)古籍文本主题分类模型评估:首先,将处理好的“说文解字”古籍文本数据集按8∶1∶1划分为训练集、测试集和验证集。其次,分别从单一原文(文)维度和“说文解字”四个维度进行系统对比实验,通过模型评估指标评估各模型主题分类效果。最后,筛选出最好的主题分类策略,运用混淆矩阵(confusion matrix)判断该策略模型在不同主题下的分类识别效果。
2.2 多维特征融合
深度学习中的多维特征融合(multi-dimensional feature fusion)是指对同一研究对象综合来自两个或多个以上维度的信息特征进行预测的过程。在整个预测环节中,通常情况下单个维度信息并不能包含全部语义特征,因此,需借助来自两个或多个维度的信息特征,实现对现有信息的补充,提升模型预测的准确性。传统主题分类算法主要以“原文(文)”维度进行研究,并未考虑补充其他文字维度信息,存在一定的局限性。本文参考古籍《说文解字》对字体特征的研究,考虑到字由字音、字形、结构、字意所组成,适合作为对“原文(文)”的信息补充,提取出语义更为丰富且粒度更细的特征,为后续的DJ-TextRCNN的主题分类提供更好的向量表示。
以多维特征中的“字音(说)”的特征为例,古籍文本中存在大量多音字,且字音的差异对字(词)的词性判断具有决定性作用。以先秦典籍《左传》中的常见多音字“朝
由于古籍文本需要借助大量先验知识进行文本特征学习,且本文分别从“说、文、解、字”四个维度扩充原本语料集,单一使用word2vec无法满足不同维度文本的特征提取。因此,本文针对“说、文、解、字”四个维度特征提出多维特征融合算法,如

图2 “说文解字”多维特征融合原理
基于字符统计的特征提取,是指在没有完整的先验知识的前提条件下,仅凭借结构特征难以定义一个完整的词汇表来描述主题特征。因此,使用skip-gram模式提取结构特征,通过统计不同结构字符的频率以及上下文生成与之对应的pattern embedding,并将其映射至一个字符级别的向量中,降低冗余特征对后续DJ-TextRCNN主题模型的影响。pattern2vec作为后续融合特征的辅助词向量,能进一步提升DJ-TextRCNN的鲁棒性。
基于统计分析的特征提取,是指由于传统字符特征向量细粒度程度过高,所包含的语义信息相对应减少,需将其转换为对应的character序列向量,作为辅助词向量。考虑到字符特征和单词特征在主题分类算法中起到重要作用,本文针对字音和字形,尝试设计一种基于统计分析的特征提取算法speaking2vec和font2vec,将字音和字形转换为辅助原文的character序列向量,具体操作分为三步:
Step1.分别提取每个字的字音和字形的字符特征;
Step2.利用计量统计分析的方法,计算Step1提取的字符特征的权重;
Step3.结合共现矩阵原理,设计字符特征的排序算法,筛选出能够代表字音(说)|字形(字)的关键特征,将原本排列的字音(说)|字形(字)数据集转换成与之对应的character序列向量,其表现形式为
(1) |
其中,
由于“说文解字”多维特征古籍文本数据集在不同维度的特征提取方式存在一定的差异性,因此,无法使用传统简单的特征融合算法。本文设计并实现一种全新的多维特征融合算法,将上文中的“字音(说)、原文(文)、结构(解)、字形(字)”四维特征提取的特征向量进行融合,实现深层次的embedding交互,提升下一阶段DJ-TextRCNN模型的主题分类效果。具体操作为
(1)输入speaking2vec、word2vec、pattern2vec和font2vec四种嵌入算法提取的特征向量;
(2)输出:将输入的不同特征向量进行对齐和拼接,形成全新的高等级联合表征向量
算法:多维特征融合算法
输入:
输出:
1 initialization:
2 FOR i← 1 TO n DO
3 alignment(v
4 v
5
6 END
7 RETURN
SWPF2vec多维特征融合算法能够较好地捕获深层次的语义特征,有助于下一阶段的DJ-TextRCNN模型学习在“字音(说)、原文(文)、结构(解)、字形(字)”四种特征表示的优势下,提取更细粒度的古籍文本特征,包括字音音调特征、语义关系特征、字体结构特征和字形部首特征,从更多维度识别古籍文本的主题。通过SWPF2vec多维特征融合后的特征向量,能够有效提升模型整体的准确性和鲁棒性,为后续古籍文本主题分类任务做出重要贡献。
2.3 预训练模型
相较于传统自然语言,古籍文本存在命名规则复杂化、语义歧义多样化、字形结构繁杂化等复杂性问题,且古籍文本通篇关联性较强,部分主语、宾语甚至谓语部分存在避免上下文内容烦琐而直接省略的现象,一定程度上加大了古籍文本主题分类任务的难度。考虑到预训练模型是建立在通过自监督学习从大规模语料训练后保存下来的网络模型,能够更好地捕获输入语料的上下文关联语义,一定程度上缓解了因古籍文本省略语句而造成语义缺失的现象。
本文选取2018年由谷歌自然语言处理实验室提出的由双向Transformer架构组成的BER
以先秦典籍《左传》“鄭公子忽在王所,故陳侯請妻之。[隐公·隐公七年]
同时,BERT预训练模型能够充分考虑词嵌入、句嵌入和位置嵌入的关系特征,较好地补全了分词后语义的完整性,结合多维特征融合算法能够更好保留古籍文本包含的语义信息。
2.4 古籍文本主题分类算法
古籍文本主题分类算法首次尝试构建基于多维特征融合、预训练、DJ-TextRCNN、MHA和Transformer的组合模型,以实现对古籍文本的主题分类任务。该算法的整体框架如

图3 古籍文本主题分类算法整体架构
(1)输入层:为数据构建层,构建全新的“说文解字”多维数据集,并将其输入古籍文本主题分类算法的模型中。
(2)“说文解字”多维特征融合嵌入层:通过SWPF2vec将“说文解字”多维特征的古籍文本语料映射成由speaking embedding、word embedding、pattern embedding和font embedding融合形成的多维特征向量。该多维特征向量融合“说、文、解、字”四个维度特征,作为后续古籍文本主题分类模型的输入。
(3)预训练模型:由于“说文解字”多维特征向量中仅有“文(原文)”维度具有语义特征,其他维度特征需通过预训练模型才能获取对应的语义信息。因此,预训练模型BERT深度融合SWPF2vec映射成的“说文解字”多维特征向量,补全其不同特征所缺失的语义特征信息,增强向量的语义表示,较完整地保留原古籍文本包含的语义信息。
(4)改进CNN层:该层由改进的三层CNN神经网络和池化层构建而成。考虑到CNN在处理文本语料时能捕获多个连续词间的特征关系,常被用于细粒度的文本特征挖掘任务,通过捕获各单位词序列的局部特征,识别古籍文本的潜在主题特征。以先秦典籍《左传》“齊人來歸鄆、讙、龜陰之田。[定公十年]
考虑到上述古籍文本中存在词性兼容的现象,需挖掘更深层次的语义特征,并对传统的单层CNN的网络结构进行改进。因此,本文设置三层不同卷积核(2、3、4)和最大池化层实现对古籍文本的长文本语料进行初步细粒度的语义局部特征提取。该卷积操作的具体计算公式为
(2) |
其中,v
(3) |
将Cd引入MaxPooling的最大池化层进行处理,通过对输入主题特征集采样处理后,结合公式
(4) |
对“说文解字”古籍文本特征集的局部特征进行最优化计算,实现特征向量和网络参数大小的缩减,降低模型整体数据维度,减少无关计算量和RNN网络结构发生梯度爆炸的风险。
为便于后续主题模型的计算,将
(5) |
组合成输出向量S。
(5)BiLSTM层:LSTM作为RNN网络结构的变种,通过门结构(遗忘门、输入门和输出门)实现对语义信息的控制与保护,即保留关键信息并遗忘无关信息,较好地实现对上下文语义特征信息的关联性挖掘。以先秦典籍《左传》“鄭人以王師會之。[隐公·隐公五年]
(6) |
其中,St表示t时刻输入的“说文解字”古籍文本特征向量;wn表示BiLSTM各个位置的权重参数;f表示sigmoid激活函数;g表示tanh激活函数;yt表示BiLSTM层最终的输出向量特征。此外,“说文解字”四维特征信息均与单位词的位置存在密切关联性,LSTM模型能最大限度保留各维度的位置语义信息,并通过门结构筛选无关信息。
DJ-TextRCNN模型利用改进CNN层实现对“说文解字”四维特征古籍文本的细粒度特征挖掘,降低数据维度,并利用BiLSTM层捕获上下文语义关系,避免模型架构出现梯度爆炸(消失)。
(6)MHA和Transformer架构:考虑到古籍文本挖掘模型不仅需要实现细粒度的语义挖掘,更需要对通篇古籍文本的语义理解,故引入MHA和Transformer架构。其中,MHA能突出序列的关键信息,Transformer能计算特征词之间的关联性,提升DJ-TextCNN模型处理大规模数据时的准确性。本文尝试融合MHA和Transformer架构的主题特征检测模型,通过Transformer捕获BiLSTM层输出向量的局部特征,并结合MHA筛选重要语义信息,实现深层次的语义特征信息和长距离依赖关系的捕获。以先秦典籍《左传》“衞人以燕師伐鄭。[隐公五年]
传统注意力(attention)机制侧重于归一化处理当前位置的注意力权重,以权重和的形式表示整个句子的隐含向量,存在无法考虑上下文语义对当前位置的语义影响的局限性。与此相比,MHA的网络结构如

图4 MHA网络结构
上述三个自注意力矩阵均按照公式
(7) |
通过状态矩阵与对应的权重矩阵的计算所得。其中,dk表示上述三个注意力矩阵的维度;softmax函数可以将查询矩阵Q和键矩阵K点积运算后归一化处理,再获得与值矩阵V的乘积,即自注意力机制的权重和。
为深层次捕获“说文解字”古籍文本数据集在不同计算子空间中的上下文语义特征,通过n次计算自注意力机制的注意力分数,并将结果按照公式
(8) |
的拼接方式得出最终MHA的输出。其中,
(9) |
计算盖头的注意力大小。其中,W
相较于单一维度的古籍文本embedding,“说文解字”四维度的古籍文本embedding的位置关系更为复杂。Transformer架构能忽略特征在序列中的位置距离,辅助MHA更好地捕获全局依赖信息,并将其运用于古籍文本的主题分类。
至此,阶段(2)~(6)的多维度的特征向量权重计算,保证了本文提出的DJ-TextRCNN模型能够精准捕获“说文解字”四维特征的古籍文本信息,实现对其细粒度的语义特征挖掘以及深层次的位置语序提取,从而更好地识别古籍文本的主题。
(7)全连接层和输出层:全连接层(full connected layer)为神经网络模型的分类器,它将前面过程所学到的分布式特征表示作为输入,通过映射的方式输入样本标记空间。然后,结合输出层的softmax函数实现对古籍文本的主题自动分类。
综上所述,本文通过
3 实验分析
本文提出一种基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类算法,为更好地比较不同维度特征下各模型的性能,从三个方面进行系统的对比试验。首先,对比分析本文提出的DJ-TextRCNN模型相较于传统机器学习和深度学习模型的性能差异,能否实现深层次、细粒度的语义挖掘,突出DJ-TextRCNN模型的准确性和鲁棒性;其次,对比本文提出的“说文解字”四维特征提取算法能否有效提取多维度特征,增强古籍文本的语义特征表示;最后,对比本文提出的多维特征融合DJ-TextRCNN的古籍文本分类算法在不同主题下的识别效果,探究影响主题分类准确性的主要原因。
3.1 实验环境及数据集
实验环境方面,本文操作系统为Window11 64位操作系统,中央处理器(central processing unit,CPU)为Inter(R) Core i9-12900H,GPU为NVIDIA GeForce RTX 3080 Ti Laptop,内存为64GB,编程语言环境为Python 3.9,深度学习架构为Keras和TensorFlow,深度学习模型参数设置如
参数 | 含义 | 取值 |
---|---|---|
filter_sizes | 卷积核数量 | 256 |
t_lstm | LSTM隐藏层数量 | 128 |
t_dense | 分类器类别数量 | 2 |
rnn_units | 隐藏层单元数 | 100 |
heads | 注意力机制头数 | 16 |
learning_rate | 学习率大小 | 0.0005 |
d | 词向量维度 | 500 |
max_epoch | 最大迭代次数 | 100 |
batch_size | 批量梯度下降数 | 128 |
epoch | 训练批次 | 20 |
dropout_p | dropout参数 | 0.4 |
AF | 激活函数 | ReLU |
针对古籍文本的主题分类体系构建,笔者团队前期分别使用自上而下和自下而上的方式构建了主题分类框架。其中,自上而下的主题分类框架构架依托于对多位历史学家和历史爱好者的访谈内容归纳出的“政治、军事、经济、科技、社会、灾难
结合上述两种古籍文本主题分类体系的构建理论基础,本文融合部分分类主题,构建了
一级主题 | 二级主题 |
---|---|
从属 | 官职|职责(官職|職責)、跟从(跟從) |
地理 | 地理、灾难、居住|驻扎|所处位置(居住|駐扎|所處位置)、前往到达(前往到達)、出奔、移动-撤退返回(移動-撤退返回)、迎接护送(迎接護送)、驾乘(駕乘)、迁移(遷移) |
风俗 | 见面|遇见(見面|遇見)、生养(生養)、人物关系-态度(人物關係-態度)、婚姻、宴请|饮食(宴請|飲食)、祭祀、卜筮(蔔筮)、制作(製作)、休闲(休閒) |
经济 | 经济、物品转移-取得、物品转移-赠予、物品转移-借还|请求(物品转移-借還|請求)、物品转移-贿赂 |
军事 | 摧毀、战争(戰爭)、俘获囚禁(俘獲囚禁)、会师(會師)、军备(軍備)、占领(佔領)、阅兵(閱兵) |
人物 | 死亡、人物特征、疾病、人物动作(人物動作)、言语交流、等待 |
外交 | 会盟(會盟)、朝聘、请成(請成)、人质(人質)、商量 |
政治 | 冲突杀戮(衝突殺戮)、筑城(築城)、叛乱(叛亂)、册立即位 |
由于“说文解字”四维特征的古籍文本数据集构建需要建立在高质量语料基础之上,因此,以笔者团队前期精标语料《左传
主题类型 | 训练集 | 验证集 | 测试集 |
---|---|---|---|
从属 | 869 | 108 | 107 |
地理 | 2248 | 280 | 280 |
风俗 | 1888 | 235 | 234 |
经济 | 912 | 113 | 112 |
军事 | 1927 | 240 | 239 |
人物 | 2332 | 290 | 290 |
外交 | 908 | 113 | 112 |
政治 | 1108 | 137 | 136 |
汇总 | 12192 | 1516 | 1510 |
3.2 评价指标
为评估DJ-TextRCNN的性能,本文使用分类任务的常见指标精确率(precisioni)、召回率(recalli)、F1值(F1-scorei)和准确率(accuracyi)作为评价指标。第i个古籍文本主题分类的评价指标计算公式为
(10) |
其中,accuracyi为预测正确的数量占总预测量的比值,能够直观判断所使用模型判断古籍语料主题的准确性。
为了评估本文提出的基于SWPF2vec和DJ-TextRCNN模型的性能,设计了三类基线(baselines)模型进行对比实验,分别是机器学习类的基线模型、深度学习类的基线模型和Transformer类的基线模型。
(1)机器学习类的基线模型:该类基线模型使用机器学习算法构建模型,并实现古籍文本的主题分类。包括DT、随机森林(random forest,RF)、逻辑回归(logistic regression,LR)、SVM和多项式朴素贝叶斯(multinomial NB)算法。
(2)深度学习类的基线模型:该类基线模型通过Keras构建深度学习模型,进而实现古籍文本的主题分类。包括LSTM、门控循环单元神经网络(gated recurrent unit,GRU)、 TextCNN、双向循环神经网络(bi-directional recurrent neural network for text classification,TextBiRNN)、TextRCNN、基于自注意力机制的TextRCNN(TextAttRCNN)。
(3)Transformer类的基线模型:该类基线模型通过TensorFlow构建Transformer模型,进而实现古籍文本的主题分类。包括BERTCNN、BERTLSTM、BERTRCNN、BERTAttRCNN和基于MHA的TextRCNN(BERTMRCNN)。
为保证上述三类基线模型和DJ-TextRCNN模型对比实验的公平,各模型均按照
3.3 主题分类模型结果评估
各类基线模型的实验结果如
模型类型 | 模型名称 | 权重均值 | 准确率 | 提升效果 | ||
---|---|---|---|---|---|---|
精确率 | 召回率 | F1值 | ||||
机器学习 | DT | 0.2822 | 0.2554 | 0.2209 | 0.2554 | ↑ 0.4903 |
RF | 0.2828 | 0.2584 | 0.2291 | 0.2584 | ↑ 0.4873 | |
LR | 0.2767 | 0.2508 | 0.2071 | 0.2508 | ↑ 0.4949 | |
SVM | 0.2794 | 0.2594 | 0.2276 | 0.2594 | ↑ 0.4863 | |
multinomial NB | 0.3210 | 0.2462 | 0.1923 | 0.2462 | ↑ 0.4995 | |
深度学习 | LSTM | 0.6680 | 0.6629 | 0.6637 | 0.6629 | ↑ 0.0828 |
GRU | 0.6811 | 0.6755 | 0.6765 | 0.6755 | ↑ 0.0702 | |
TextCNN | 0.6864 | 0.6840 | 0.6842 | 0.6840 | ↑ 0.0617 | |
TextBiRNN | 0.6820 | 0.6788 | 0.6797 | 0.6788 | ↑ 0.0669 | |
TextRCNN | 0.6831 | 0.6821 | 0.6820 | 0.6821 | ↑ 0.0636 | |
TextAttRCNN | 0.6681 | 0.6642 | 0.6651 | 0.6642 | ↑ 0.0815 | |
Transformer | BERTCNN | 0.7333 | 0.7318 | 0.7321 | 0.7318 | ↑ 0.0139 |
BERTLSTM | 0.7357 | 0.7325 | 0.7317 | 0.7325 | ↑ 0.0132 | |
BERTRCNN | 0.7419 | 0.7397 | 0.7377 | 0.7397 | ↑ 0.0060 | |
BERTAttRCNN | 0.7448 | 0.7404 | 0.7403 | 0.7404 | ↑ 0.0053 | |
BERTMRCNN | 0.7448 | 0.7424 | 0.7421 | 0.7424 | ↑ 0.0033 | |
本文 | DJ-TextRCNN | 0.7479 | 0.7457 | 0.7451 | 0.7457 | — |
SWPF2vec+DJ-TextRCNN | 0.7640 | 0.7623 | 0.7617 | 0.7623 | ↑ 0.0166 |
实验结果表明,Transformer类基线模型的效果普遍优于其他两类基线模型的准确性,该基线下的预训练模型BERT较好地提升了古籍文本的特征表示能力,有效提升了模型的准确性。本文提出的DJ-TextRCNN模型中的三层CNN网络实现了对古籍文本更细粒度的语义挖掘,并通过BiLSTM、Transformer和MHA实现了对古籍文本更深层次的语义挖掘。通过SWPF2vec多维特征提取算法,DJ-TextRCNN模型有效实现了“注音、结构、字形”对“原文”语义信息的补充,实现了对古籍文本多维度、深层次、细粒度的语义挖掘,提升了古籍文本主题分类任务准确性。
3.4 单维度和多维度的分类评估
模型 | 单维模型 | 多维模型 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|
speak2vec | word2vec | pattern2vec | font2vec | SWPF2vec | ||||||
F1值 | 准确率 | F1值 | 准确率 | F1值 | 准确率 | F1值 | 准确率 | F1值 | 准确率 | |
BERTCNN | 0.7297 | 0.7298 | 0.7321 | 0.7318 | 0.7171 | 0.7185 | 0.7282 | 0.7285 | 0.7342 | 0.7344 |
BERTLSTM | 0.7268 | 0.7278 | 0.7317 | 0.7325 | 0.7154 | 0.7159 | 0.7237 | 0.7258 | 0.7326 | 0.7331 |
BERTRCNN | 0.7379 | 0.7384 | 0.7377 | 0.7397 | 0.7177 | 0.7199 | 0.7338 | 0.7351 | 0.7390 | 0.7404 |
BERTAttRCNN | 0.7338 | 0.7338 | 0.7403 | 0.7404 | 0.7292 | 0.7291 | 0.7301 | 0.7311 | 0.7464 | 0.7464 |
BERTMRCNN | 0.7395 | 0.7397 | 0.7421 | 0.7424 | 0.7229 | 0.7238 | 0.7256 | 0.7265 | 0.7482 | 0.7483 |
DJ-TextRCNN | 0.7395 | 0.7397 | 0.7451 | 0.7457 | 0.7273 | 0.7291 | 0.7382 | 0.7364 | 0.7617 | 0.7623 |
注: 粗体表示最佳实验结果。
Transformer类基线模型和DJ-TextRCNN模型在多维特征场景下的效果均优于单一维度特征下的结果。Transformer类基线模型中的BERTMRCNN在SWPF2vec特征提取算法下的主题分类效果最佳,F1值为0.7482,准确率为0.7483;本文提出的DJ-TextRCNN模型在SWPT2vec特征提取算法下的主题效果得到进一步提升,其F1值为0.7617(比BERTMRCNN提升了0.0135),准确率为0.7623(比BERTMRCNN提升了0.0140)。同时,DJ-TextRCNN模型多维特征级别的准确率比“说(字音)”维特征的Transformer类基线模型的平均值高0.0284,比“文(原文)”维特征、“解(结构)”维特征和“字(字形)”维特征的平均值分别高0.0249、0.0409和0.0329。上述结果可以证明,本文提出的DJ-TextRCNN模型能有效识别古籍文本的主题类别,并且SWPF2vec能准确捕获四个维度的细粒度特征。
通过单维特征和多维特征的对比可知,不同神经网络对不同维度的语义特征具有不同的提取效果。其中,TextRCNN模型能有效识别“字(字形)”维特征的语义特征,自注意力机制能更好地捕获“解(结构)”维特征的语义特征,Transformer架构可提取“说(字音)”和“文(原文)”维特征的语义特征,BiLSTM模型可在融合后的语料中更好地抽取位置序列和语义结构,CNN模型可提取关键特征并加快模型检测速度。因此,融合上述四种网络结构的DJ-TextRCNN模型与本文提出的SWPF2vec的四维特征提取算法契合度较高,能够获得更佳的F1值和准确率。
3.5 多维特征的不同主题分类效果评估
模型 | 评价指标 | 政治 | 人物 | 地理 | 从属 | 军事 | 风俗 | 经济 | 外交 |
---|---|---|---|---|---|---|---|---|---|
BERTCNN | 精确率 | 0.6516 | 0.7350 | 0.7702 | 0.7196 | 0.7951 | 0.7357 | 0.7064 | 0.6861 |
召回率 | 0.7372 | 0.7172 | 0.6821 | 0.7196 | 0.8151 | 0.7137 | 0.6875 | 0.8393 | |
F1值 | 0.6918 | 0.7260 | 0.7235 | 0.7196 | 0.8050 | 0.7245 | 0.6968 | 0.7550 | |
提升效果 | ↑ 0.0582 | ↑ 0.0533 | ↑ 0.0661 | ↓ 0.0927 | ↑ 0.0117 | ↓ 0.0025 | ↑ 0.0245 | ↑ 0.0415 | |
BERTLSTM | 精确率 | 0.6992 | 0.7840 | 0.7701 | 0.6863 | 0.7765 | 0.6553 | 0.7400 | 0.6970 |
召回率 | 0.6788 | 0.6759 | 0.7536 | 0.6542 | 0.8319 | 0.7393 | 0.6607 | 0.8214 | |
F1值 | 0.6889 | 0.7259 | 0.7617 | 0.6699 | 0.8032 | 0.6948 | 0.6981 | 0.7541 | |
提升效果 | ↑ 0.0611 | ↑ 0.0534 | ↑ 0.0279 | ↓ 0.0430 | ↑ 0.0135 | ↑ 0.0272 | ↑ 0.0232 | ↑ 0.0424 | |
BERTRCNN | 精确率 | 0.7119 | 0.7821 | 0.7013 | 0.6667 | 0.7491 | 0.7734 | 0.6972 | 0.8053 |
召回率 | 0.6131 | 0.7552 | 0.7964 | 0.6355 | 0.8368 | 0.6709 | 0.6847 | 0.8125 | |
F1值 | 0.6588 | 0.7684 | 0.7458 | 0.6507 | 0.7905 | 0.7185 | 0.6909 | 0.8089 | |
提升效果 | ↑ 0.0912 | ↑ 0.0109 | ↑ 0.0438 | ↓ 0.0238 | ↑ 0.0262 | ↑ 0.0035 | ↑ 0.0304 | ↓ 0.0124 | |
BERTAttRCNN | 精确率 | 0.6429 | 0.7324 | 0.7774 | 0.7143 | 0.8354 | 0.7524 | 0.7708 | 0.7213 |
召回率 | 0.7279 | 0.7552 | 0.7607 | 0.7009 | 0.8285 | 0.6624 | 0.7143 | 0.7857 | |
F1值 | 0.6828 | 0.7436 | 0.7690 | 0.7075 | 0.8319 | 0.7045 | 0.7111 | 0.7521 | |
提升效果 | ↑ 0.0672 | ↑ 0.0357 | ↑ 0.0206 | ↓ 0.0806 | ↓ 0.0152 | ↑ 0.0175 | ↑ 0.0102 | ↑ 0.0444 | |
BERTMRCNN | 精确率 | 0.6689 | 0.7726 | 0.7622 | 0.6852 | 0.8354 | 0.7248 | 0.6972 | 0.7339 |
召回率 | 0.7372 | 0.7379 | 0.7786 | 0.6916 | 0.8319 | 0.6752 | 0.6786 | 0.8125 | |
F1值 | 0.7014 | 0.7549 | 0.7703 | 0.6884 | 0.8337 | 0.6991 | 0.6688 | 0.7712 | |
提升效果 | ↑ 0.0486 | ↑ 0.0244 | ↑ 0.0193 | ↓ 0.0615 | ↓ 0.0170 | ↑ 0.0229 | ↑ 0.0525 | ↑ 0.0253 | |
DJ-TextRCNN | 精确率 | 0.7152 | 0.7565 | 0.8249 | 0.6702 | 0.8133 | 0.7594 | 0.6667 | 0.7826 |
召回率 | 0.7883 | 0.8034 | 0.7571 | 0.5888 | 0.8201 | 0.6880 | 0.7857 | 0.8108 | |
F1值 | 0.7500 | 0.7793 | 0.7896 | 0.6269 | 0.8167 | 0.7220 | 0.7213 | 0.7965 |
注: 粗体表示最佳实验效果。
3.6 DJ-TextRCNN的不同主题分类结果分析
在上述分析多维特征下不同主题的识别效果时,发现本文提出的DJ-TextRCNN模型因在“从属”和“风俗”的准确性低而造成整体效果降低。本文绘制了

图5 各主题方向混淆矩阵对比图
结合
综上所述,实验结果充分证明了本文提出的DJ-TextRCNN模型在古籍文本主题分类任务中,具有更细粒度、更深层次、更多维度的语义挖掘性能,以及较好的鲁棒性和准确性。结合错误预测的语料内容发现,相似主题内容易造成模型的误判。同时发现,不同类型主题的古籍文本在触发词的使用上存在较大差异,可作为后续研究的关键。
4 结束语
随着“中华古籍保护计划”的不断实施,海量古籍文本得以实现数字化,一定程度上冲击了传统依托编目分类和规则匹配的主题分类方法,影响着数字人文研究范式的转型。传统编目分类和规则匹配的主题分类方法会因专家标注知识的局限性而造成主题判断的主观性,不适用于大规模古籍文本语料的主题分类;且传统古籍文本主题分类研究通常采用以文献为单元的外部特征著录实现主题分类,缺乏考虑多维语义特征间的互补性、古籍文本潜在主题特征的多样性,以及古籍文本在语言表达、文字风格、语句形式与现代文本间的差异性等。本文参照东汉古籍《说文解字》对文字的分析方式,尝试从字音、结构、字形对笔者团队现有的数据集进行扩充,形成全新的“说文解字”古籍文本数据集,并提出一种基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类算法,有效提升古籍文本主题分类任务的准确性。
研究结果表明,本文提出的SWPF2vec多维特征提取算法能够较好地实现对古籍文本多维度的语义信息挖掘,DJ-TextRCNN模型能较好完成对古籍文本的细粒度、深层次的语义信息挖掘,并且融合多层网络结构的DJ-TextRCNN模型与SWPF2vec的四维特征提取算法契合度较高,有效缓解古籍文本主题分类任务过度依赖专家知识的现状,实现自动化的古籍文本的主题分类,推动数字人文研究范式的转型。
本文在实验过程中发现主题子分类中存在语义相似主题,因挖掘细粒度过高而造成语义歧义。结合语料发现,各数据集中的触发词的主题语义信息较为明显,未来研究可尝试在自注意力机制模块增设触发词的规则权重,或先加入语义词性再进行主题分类。
参 考 文 献
曾蕾, 王晓光, 范炜. 图档博领域的智慧数据及其在数字人文研究中的角色[J]. 中国图书馆学报, 2018, 44(1): 17-34. [百度学术]
焦艳鹏, 刘葳. 知识获取、人工智能与图书馆精神[J]. 中国图书馆学报, 2021, 47(5): 20-32. [百度学术]
周贞云, 邱均平. 面向人工智能的我国知识图谱研究的分布特点与发展趋势[J]. 情报科学, 2022, 40(1): 184-192. [百度学术]
高丹, 何琳. 数智赋能视域下的数字人文研究: 数据、技术与应用[J]. 图书馆论坛, 2023, 43(9): 107-119. [百度学术]
何琳, 陈雅玲, 孙珂迪. 面向先秦典籍的知识本体构建技术研究[J]. 图书情报工作, 2020, 64(7): 13-19. [百度学术]
杨秀璋, 武帅, 夏换, 等. 基于自适应图像增强技术的水族文字提取与识别研究[J]. 计算机科学, 2021, 48(S1): 74-79. [百度学术]
聂娜, 翟晓娟, 马音宁. 数字人文合作研究实践——以汉语历史语音库共享研究平台的设计与实现为例[J]. 图书馆杂志, 2020, 39(12): 89-97, 106. [百度学术]
赵宇翔, 张妍, 夏翠娟, 等. 数字人文视域下文化记忆机构价值共创研究及实践述评[J]. 中国图书馆学报, 2023, 49(1): 99-117. [百度学术]
Rafiei M H, Adeli H. A new neural dynamic classification algorithm[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(12): 3074-3083. [百度学术]
何琳, 乔粤, 孟凯. 基于典籍的春秋社会时间序列演变分析方法初探[J]. 情报理论与实践, 2021, 44(2): 33-40. [百度学术]
Church K W. word2vec[J]. Natural Language Engineering, 2017, 23(1): 155-162. [百度学术]
Gu J X, Wang Z H, Kuen J, et al. Recent advances in convolutional neural networks[J]. Pattern Recognition, 2018, 77: 354-377. [百度学术]
Sutskever I, Martens J, Hinton G. Generating text with recurrent neural networks[C]// Proceedings of the 28th International Conference on International Conference on Machine Learning. Madison: Omnipress, 2011: 1017-1024. [百度学术]
Garnot V S F, Landrieu L. Lightweight temporal self-attention for classifying satellite images time series[C]// Proceedings of 5th ECML PKDD Workshop on Advanced Analytics and Learning on Temporal Data. Cham: Springer, 2020: 171-181. [百度学术]
Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2019: 4171-4186. [百度学术]
陆伟, 杨金庆. 数智赋能的情报学学科发展趋势探析[J]. 信息资源管理学报, 2022, 12(2): 4-12. [百度学术]
陈晓涛. 基于SSM的数字化古籍书库的设计与实现[D]. 南京: 东南大学, 2019. [百度学术]
聂锦燃, 魏蛟龙, 唐祖平. 基于变分自编码器的无监督文本风格转换[J]. 中文信息学报, 2020, 34(7): 79-88. [百度学术]
Hearst M A, Dumais S T, Osuna E, et al. Support vector machines[J]. IEEE Intelligent Systems and Their Applications, 1998, 13(4): 18-28. [百度学术]
Murphy K P. Naive Bayes classifiers[R/OL]. Vancouver: University of British Columbia. (2006-10-24). https://www.cs.ubc.ca/~murphyk/Teaching/CS340-Fall06/reading/NB.pdf. [百度学术]
Myles A J, Feudale R N, Liu Y, et al. An introduction to decision tree modeling[J]. Journal of Chemometrics, 2004, 18(6): 275-285. [百度学术]
Iglesias J A, Angelov P, Ledezma A, et al. Creating evolving user behavior profiles automatically[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(5): 854-867. [百度学术]
韩梅花, 赵景秀. 基于“用户画像”的阅读疗法模式研究——以抑郁症为例[J]. 大学图书馆学报, 2017, 35(6): 105-110. [百度学术]
Adomavicius G, Tuzhilin A. Using data mining methods to build customer profiles[J]. Computer, 2001, 34(2): 74-82. [百度学术]
Nasraoui O, Soliman M, Saka E, et al. A web usage mining framework for mining evolving user profiles in dynamic web sites[J]. IEEE Transactions on Knowledge and Data Engineering, 2008, 20(2): 202-215. [百度学术]
王庆, 赵发珍. 基于“用户画像” 的图书馆资源推荐模式设计与分析[J]. 现代情报, 2018, 38(3): 105-109, 137. [百度学术]
Hofmann T. Unsupervised learning by probabilistic latent semantic analysis[J]. Machine Learning, 2001, 42(1): 177-196. [百度学术]
Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022. [百度学术]
白淑霞, 鲍玉来. LDA单词图像表示的蒙古文古籍图像关键词检索方法[J]. 现代情报, 2017, 37(7): 51-54, 88. [百度学术]
王小红, 科林·艾伦, 浦江淮, 等. 人文知识发现的计算机实现——对“汉典古籍”主题建模的实证分析[J]. 自然辩证法通讯, 2018, 40(4): 50-58. [百度学术]
孙燕, 刘浏, 王东波. 《春秋左传正义》引书计算人文研究[J]. 图书情报工作, 2023, 67(2): 119-130. [百度学术]
何琳, 乔粤, 刘雪琪. 春秋时期社会发展的主题挖掘与演变分析——以《左传》为例[J]. 图书情报工作, 2020, 64(7): 30-38. [百度学术]
Schmidt B M. Words alone: dismantling topic models in the humanities[J]. Journal of Digital Humanities, 2012, 2(1): 49-65. [百度学术]
牛雪莹. 结合主题模型词向量的CNN文本分类[J]. 计算机与现代化, 2019(10): 7-10. [百度学术]
肖倩, 谢海涛, 刘平平. 一种融合LDA与CNN的社交媒体中热点舆情识别方法[J]. 情报科学, 2019, 37(11): 27-33. [百度学术]
石磊, 杜军平, 梁美玉. 基于RNN和主题模型的社交网络突发话题发现[J]. 通信学报, 2018, 39(4): 189-198. [百度学术]
Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. [百度学术]
Wang S X, Wang X, Wang S M, et al. Bi-directional long short-term memory method based on attention mechanism and rolling update for short-term load forecasting[J]. International Journal of Electrical Power & Energy Systems, 2019, 109: 470-479. [百度学术]
彭敏, 杨绍雄, 朱佳晖. 基于双向LSTM语义强化的主题建模[J]. 中文信息学报, 2018, 32(4): 40-49. [百度学术]
胡朝举, 梁宁. 基于深层注意力的LSTM的特定主题情感分析[J]. 计算机应用研究, 2019, 36(4): 1075-1079. [百度学术]
曾子明, 陈思语. 基于LDA与BERT-BiLSTM-Attention模型的突发公共卫生事件网络舆情演化分析[J]. 情报理论与实践, 2023, 46(9): 158-166. [百度学术]
杨伯峻, 徐提. 春秋左传词典[M]. 北京: 中华书局, 1985. [百度学术]
杨伯峻. 春秋左传注·一[M]. 2版. 北京: 中华书局, 1990. [百度学术]
马晓雯. 面向数字人文的典籍事件触发动词数据集构建及应用研究[D]. 南京: 南京农业大学, 2021. [百度学术]
李章超, 何琳, 喻雪寒. 基于事理图谱的典籍内容知识组织与应用——以《左传》为例[J/OL]. 图书馆论坛. (2023-08-31) [2024-01-24]. https://kns.cnki.net/kcms/detail/44.1306.g2.20230830.1929.004.html. [百度学术]
李章超, 李忠凯, 何琳. 《左传》战争事件抽取技术研究[J]. 图书情报工作, 2020, 64(7): 20-29. [百度学术]