en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
SchreibmanS, SiemensR, UnsworthJ. A companion to digital humanities[M]// A Companion to Digital Humanities. Blackwell, 2004.
参考文献 2
赵蓉英. 知识网络及其应用[M]. 北京: 北京图书馆出版社, 2007: 8-58.
参考文献 3
舒刚. 企业知识管理新热点: 知识网络[J]. 科技创业月刊, 2008, 21(9): 14-15.
参考文献 4
ShardaR, FrankwickG L, TuretkenO. Group knowledge networks: A framework and an implementation[J]. Information Systems Frontiers, 1999, 1(3): 221-239.
参考文献 5
JarvenpaaS K, TanriverdiH. Leading virtual knowledge networks[J]. Organizational Dynamics, 2003, 31(4): 403-412.
参考文献 6
赵蓉英. 知识网络研究(Ⅱ)——知识网络的概念、内涵和特征[J]. 情报学报, 2007, 26(3): 470-476.
参考文献 7
高雯珺, 崔雷. 与文献相关的引用网络、合著网络和共词网络的研究进展[J]. 中华医学图书情报杂志, 2015, 24(7): 9-14.
参考文献 8
SchoenbachU H, GarfieldE. Citation indexes for sciences[J]. Science, 1956, 123(3185): 61-62.
参考文献 9
MeiQ, ZhaiC X. Generating impact-based summaries for scientific literature[C]// Proceedings of the Meeting of the Association for Computational Linguistics. ACL, 2008: 816-824.
参考文献 10
MohammadS, DorrB, EganM, et al. Using citations to generate surveys of scientific paradigms[C]// Proceedings of the 2009 Annual Conference of the North American Chapter of the Association of Computational Linguistics: Human Language Technologies. ACL, 2009: 584-592.
参考文献 11
滕立. 基于超网络的作者-机构-国家混合共现网络研究[J]. 情报学报, 2015, 34(1): 28-36.
参考文献 12
王林, 冷伏海. 学术论文的关键词与引文共现关系分析及实证研究[J]. 情报理论与实践, 2012, 35(2): 82-86.
参考文献 13
王林, 冷伏海. 施引关键词与被引作者交叉共现分析方法及实证研究[J]. 情报学报, 2012, 31(4): 362-370.
参考文献 14
陈翀, 罗鹏程, 汪十红. 利用引用信息的关键词提取[J]. 图书情报工作, 2014, 58(1): 101-108, 116.
参考文献 15
祝清松, 冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报, 2014, 40(1): 39-49.
参考文献 16
柯平, 宫平. 数字人文研究演化路径与热点领域分析[J]. 中国图书馆学报, 2016, 42(6): 13-30.
参考文献 17
高瑾. 数字人文学科结构研究的回顾与探索[J]. 图书馆论坛, 2017, 37(1): 1-9.
参考文献 18
AljaberB, StokesN, BaileyJ, et al. Document clustering of scientific texts using citation contexts[J]. Information Retrieval, 2010, 13(2): 101-131.
参考文献 19
BradshawS. Reference directed indexing: Redeeming relevance for subject search in citation indexes[M]// Research and Advanced Technology for Digital Libraries. Heidelberg: Springer, 2003: 499-510.
目录 contents

    摘要

    数字人文作为新兴领域,厘清来龙去脉将有助于夯实研究基础。在关注到引文文本的价值并未被充分利用后,本文融合了文献集与引文文本集的关键词共现网络,通过“吸收—形成—被吸收—扩散”的演化过程,观察数字人文领域的研究热点的发展路径,挖掘数字领域的潜在价值点。研究发现,数字人文领域的研究脉络在不断细分和深化,其中史学相关研究集中度较高,有专深化的倾向;社交媒体相关研究则是未来繁荣的趋势所在。

    Abstract

    The answer to, “Where does digital humanities research come from?” can solve the question, “How far will digital humanities research step forward?” For citation text that has been undervalued, this paper combines document records with the citation context. Through the evolution cycle of “Absorption-Formation-Reabsorption-Diffusion”, we can track the development of digital humanities and discover potential values. It is found that the research on digital humanities is continuously subdivided. Typically, history-related research is more concentrated and conceptually deeper while social-media-related research is the trend of future.

    数字人文(digital humanities)是计算机科学与人文学科的交叉学科,2004年,Schreibman[1]在《数字人文指南》一书中正式提出数字人文的概念,逐渐替代之前盛行的“人文计算”一词。数字人文领域作为新兴的学术领域,其理论体系仍不成熟,对数字人文领域追根溯源,将有助于后继者更好把握其内在的联系与逻辑。

    知识网络是研究脉络梳理手段之一,具有覆盖面广、直观可见的优势,已有许多学者利用共现网络或引证网络进行领域热点梳理。文献关键词作为常用字段之一,能够反映著述方对文献的理解,然而高被引文献不仅仅取决于著述方的创造,也离不开施引方的筛选与传递,是“吸收—形成—被吸收—扩散”循环交替的过程,而这往往是现有领域热点研究中忽略的部分。将原文文本结合以引文文本,能够真正地解释“数字人文究竟从何而来?”的议题。

    本文选取数字人文为研究对象,在传统关键词共现网络基础上,创新地融合了引文文本的关键词共现网络,补齐了中心文献从施引到被引的完整过程,一是能够从引证角度,反映数字人文领域内中心文献的来龙去脉;二是从著作者和施引者的不同角度出发,有助于找到有关数字人文的公认的核心价值点;三是可以挖掘出引文关键词与原文关键词内在的联系,通过引文文本对内化的信息进行补充佐证,丰富当前数字人文领域的研究素材。

  • 1 文献综述

    “知识网络”的概念最早起源于心理[2],在1989年引入我[3]。关于知识网络,不少机构和学者从不同视角出发进行界定。美国科学基金会认为知识网络是一个凝聚体,由专家、信息和知识三者构[4];Jarvenpaa[5]立足于知识主体,认为知识网络是知识主体之间相互连接构成的网络,而知识主体包括人、企业等。在国内,具有代表性的是赵蓉[6]的定义,他认为知识网络是节点和边的关系一起构成的知识体系,其中,节点可以是知识单元、知识元素等,联系边则是知识间的关联。

    在现有的研究中,很多研究者将期刊、文献、著者、研究机构、关键词等抽象为节点,以引用关系、耦合关系或共现关系抽象成连边,对网络节点属性进行分析,或为了发现文献内部规律以进行预测,或为了判断关键节点以评价重要[7]。而引证网络,是文献网络在情报学最早应用的领[8]

    施引是受众在阅读原创作者的文献所产生的主动行为,引文是受众根据其认可的学术理念和规范,对相关文献的阅读、筛选、取舍、利用之后,再加工成的“有用”的资料。Mei[9]和Mohammad[10]发现引文文本总结出来的概要与原文摘要包含的信息不同,说明引文在被继承过程中,可以揭示出原文题录中未显现的重要价值。

    现已有学者综合考虑不同节点层面进行综合分[11],然而少有研究将不同关系进行结合运用。在本研究所选择的词层面上,王林[12,13]将关键词与其他层面的信息进行交叉分析,如学术论文的关键词与引文共现关系分析及实证研究、施引关键词与被引作者交叉共现分析方法及实证研究等。根据引文内容或者其他来提取关键词或关键词信息进行引证网络分析的相关研究,在国内尚属空白。有部分学者对文献的主题或关键词信息进行新的提取方法进行了研究,但仍不成[14,15]

    在研究成果梳理方面,柯平[16]通过CiteSpace软件,从时间的维度切入剖析了数字人文研究的演化路径,高[17]聚焦与数字人文的学科结构进行了研究。但这类领域梳理多基于领域内文献的显性知识,并没有挖掘出领域内部更深层次的、隐性的知识。

    综上所述,数字人文领域已有对作者标注的题录信息进行网络计量的研究,然而这些研究忽略了施引者的动机与贡献,而无法揭示知识流动完整的过程。本文融合了引文上下文与题录关键词,展示了数字人文研究的知识网络演化的脉络与过程。

  • 2 数据与研究方案

  • 2.1  数据获取与定义

    本研究将数字人文领域研究划分为了5个数据集(图1),包括5个文献集:中心文献集(768条)、中心文献的施引文献集(1100条)、高被引中心文献的参考文献集(956条),以及2个基于文献的引文文本集:高被引中心文献引用参考文献的引文文本集(以下简称为“中心文献的引文文本集”)、施引文献引用中心文献的引文文本集(以下简称为“施引文献的引文文本集”)。这5个数据集之间通过引用关系连接,提取出基于5个数据集的关键词集,能够反映数字人文领域知识的流动。

    图1
                            数字人文领域各研究数据集

    图1 数字人文领域各研究数据集

    本文选取Web of Science核心合集为研究数据库,在主题字段中以“digital humanities”作为关键词进行检索,检索共获得768条文献数据(检索时间为2018年1月),将所得文献定义为中心文献集。根据中心文献集中各文献的被引记录下载对应的施引文献,得到的1100条文献总和定义为施引文献集。在所有中心文献中,有20篇文献的单篇被引次数在15次及以上,且总被引次数(562次)约占所有中心文献的1/3,故将此20篇文献定义为高被引中心文献。对高被引中心文献提取其参考文献信息,将得到的956条文献总和定义为参考文献集。获取3个文献集对应的关键词字段,得到基于文献集的关键词集。

    在获取文献集的全文资源之后,根据已有研究,选取引文窗口长度为50的引文上下[18,19],在提取出引文文本后,使用的关键词识别方法为:将所有引文上下文文本视为整体,首先进行LDA主题识别,得到引文文本的主要研究主题和方向;其次,进行切词与词频统计,以中心文献集中的原有关键词构建自定义词表,并根据原关键词词频赋权,得到权重词表后,提取出每一个引文文本权重最高的至多5个词,成为引文文本的关键词。研究从中心文献原文中,提取1263个引文文本,共提取出4515个对应的引文文本关键词,实际由1637个词/词组所构成,构成中心文献的引文文本集;从施引文献中,提取1323个引文文本中提取出5515个关键词,实际由1086个词/词组所组成,构成施引文献的引文文本集。

  • 2.2  研究方案设计

    本文使用分析方法主要包括共词分析、引文分析。分析工具主要包括CiteSpace、VOSviewer、Gephi等软件,在主题识别过程中应用了英文词干、TF-IDF等概念和LDA主题识别模型。

    对于文献集关键词间的共现关系,若2个关键词同时作为一篇文献的关键词出现,则认为这2个关键词之间具有一次共现。则在数据集中,2个关键词之间的共现关系即为累积的共现值。

    对于引文文本关键词间的共现关系定义如下。

    当词A和词B所在引文文本引用了同一篇文献时,词A和词B之间存在3种来源模式:①词A和词B来源于同一引文文本,则构成直接共现关系;②词A和词B来源于同一施引文献的不同次引文文本;③词A和词B来源于不同施引文献。后2种来源虽然没有构成直接共现关系,但都属于同一篇被引文献所传播出的知识范畴,因为本文认定在②、③情况下,词A和词B构成间接共现关系。

    当词A和词B构成共现关系之后,定义词A和词B之间的共现关系强度计算方式。

    (1)限制在同一篇被引文献内,令i为被引文献序号,定义词A和词B之间的同引共现关系强度Wi为词A和词B在被引文献i中的共现关系强度,则同引共现关系强度Wi为在被引文献i中,词A出现频数和词B出现频数中的最小值,即

    Wi(A, B)=Min(A频数|文献i, B频数|文献i)

    (2)根据各被引文献内的词间关系,对相同的词组合进行合并。其中,词A与词B关系是无向的,即(A, B)=(B, A),n表示被引文献数量,则

    共现关系强度(A,B)=i=1nWi

    可以认为,2个关键词同时作为同一篇文献的关键词的次数越多,即共现次数越多,则代表这2个关键词之间的关系越紧密。基于关键词之间的共现关系,可形成共现网络:关键词作为网络节点,关键词之间的共现关系作为网络联系边,关键词之间共现的次数作为边的权重值,则网络内节点之间的远近关系与联系边的权重大小便可反映关键词内容的亲疏关系,节点大小表示对应关键词的中心度大小,从而确定数字人文研究领域中各主题之间的关系。参考文献的关键词网络能够反映出数字人文领域知识的形成来源;中心文献关键词网络反映数字人文的研究热点;施引文献关键词网络则展现了数字人文领域知识的扩散;引文文本关键词网络可探索关键词的表现及词间词群关系,从受众角度,反映出传播过程中数字人文领域知识的被理解吸收的原理。

    本文在明确数字人文领域研究概况后,以关键词为单元,构建5个数据集的关键词子网络,从中心文献集的由来、吸收、形成、被吸收与扩散,这一主体交替的完整过程,来研究数字人文研究关键词在发展过程中的演化以及关键词网络的演化,以此探索数字人文领域的知识发展重点与结构脉络规律。

  • 3 数字人文研究领域概况

  • 3.1  数字人文领域的年代发展特征

    学术文献数量的时序变化是衡量研究领域发展情况的一项重要指标,表1是数字人文领域研究中心文献集文献的年代分布情况,包括文献发表总数和被引总数统计。数字人文研究从1998年起,初期发展十分缓慢,直至2007年起开始慢速增长,而从2012年起至今,进入飞跃式发展阶段。因此,根据文献发表与引用在年代上的分布情况,本文将数字人文领域的发展划分为3个阶段。第一阶段为1998年至2006年,数字人文领域在9年时间中只产生了4篇文献,仅停留在一个概念提出阶段;在当时比较风行的另一个相关概念为“人文计算”,也是数字人文的前身。第二个阶段为2007年至2011年,随着互联网和计算机技术的快速发展,数字人文突破人文计算的研究对象与领域,少数文章开始引入数字人文的概念,围绕数字人文探究数字化和其对人文领域的革命性影响。第三个阶段为2012年至今,数字人文进入高速发展期,在语言学、历史、音乐、艺术等多个领域具有丰硕的成果,综合利用与发展数字图书馆、文本挖掘、历史地理信息化等具体技术手段。

    表1 数字人文中心文献集各年文献发表数量与被引数量统计

    第一阶段第二阶段第三阶段
    年份文献发表文献被引年份文献发表文献被引年份文献发表文献被引
    1998年102007年212012年2857
    1999年102008年1412013年6995
    2000年002009年742014年80132
    2001年002010年11152015年136259
    2002年102011年21232016年207366
    2003年002017年188461
    2004年002018年152
    2005年11
    2006年00

    从数值上来看,数字人文研究文献的数量在2008年突破10篇并持续增加,在2015年突破100篇,在2016年达到文献发表量的峰值,为207篇。虽然文献发表数量在2017年稍有下降,但是在被引总数上,数值一直持续增长,从2014年起保持每年增加100次每年引用数的趋势,说明学术界对数字人文的关注热度在不断地增加。

  • 3.2  数字人文领域的学科方向分布特征

    数字人文研究涉及学科广泛,研究主题丰富,不仅注重计算机科学技术与方法,还关注文学、语言学、历史学等人文领域研究对象的数字化水平。可以认为,数字人文研究具有多元的跨学科程度高的学科范畴。

    “Web of Science类别”是对所收录文献标注的所属学科方向,一篇文献可能属于一个或以上个学科类别。数字人文领域的768篇中心文献共分布在81个学科方向,可见数字人文的确是一个典型的跨学科交叉研究领域。表2是数字人文研究分布前10的Web of Science类别,绝大部分研究都分布在此十个学科方向中,除去归为其他艺术人文主题类的,文学、信息学与图书馆学、语言学、计算机科学、历史学等学科都是数字人文研究的主要阵地。

    表2 数字人文研究中心文献集Web of Science类别分布top 10

    排名Web of Science类别文献数文献总数(768)占比
    1Arts & Humanities-Other Topics15520%
    2Literature15020%
    3Information Science & Library Science14319%
    4Humanities, Multidisciplinary14018%
    5Linguistics9612%
    6Computer Science7610%
    7History598%
    8Language & Linguistics557%
    9Social Sciences - Other Topics375%
    10Computer Science, Interdisciplinary Applications324%

    由图2数字人文研究学科领域的共现时区图可知,数字人文研究最早是在2007年在信息学与图书馆学中崭露头角,随后在2009年开始深入文学、语言学等方向,其后在2012年以后在多个领域快速扩展,呈现跨学科研究的典型态势。数字人文研究的发展经历了从最初利用计算机辅助进行人文研究,替换烦琐人工处理任务,至促进人文研究创造新范式、新方法的过程。

    图2
                            数字人文研究学科领域共现时区图

    图2 数字人文研究学科领域共现时区图

  • 4 数字人文领域关键词共现子网络

  • 4.1  参考文献集的关键词网络分析

    3是对应的共现网络,其呈中心发散状。通过共现网络发现的研究热点为数字化、史学、文学、数字人文,与高频词一致。

    图3
                            参考文献集关键词共现网络

    图3 参考文献集关键词共现网络

    进一步精练共现网络,图4是参考文献集中联系强度最高的40组关键词关系,主要由2个较大关键词群和2个独立关键词对所组成。最大的词群是由数字化和人文所连接构成。在人文方面,主要聚焦于社会科学、艺术2个学科,以及期刊研究和引用研究2个对象上;在数字化方面,主要集中在数字图书馆研究、空间研究和学术研究上。这些研究可以认为是数字人文领域形成初期的主要研究阵地。另一个词群主要围绕文学和史学,采用地图、地理信息系统研究,在技术路线上,对模型、特别是树的模型投入了更多的关注。2个独立的关键词对中,其一是文化遗产和严肃游戏,主要围绕以应用为目的的严肃游戏在文化遗产保护中的应用和效果;另一对是Twitter和微博客,主要关注以社交媒体为载体的研究。

    图4
                            参考文献集关键词核心共现网络(阈值为40)

    图4 参考文献集关键词核心共现网络(阈值为40)

  • 4.2  中心文献的引文文本集关键词网络分析

    关键词共产生了28857对共现关系,形成图5所示网络。在中心文献的引文文本集中,中心度最大的5个关键词是数字人文、文本、史学、数字化和创新性,与高频词几乎一致,除了技术在共现网络的中心度不高。

    图5
                            中心文献的引文文本集关键词共现网络

    图5 中心文献的引文文本集关键词共现网络

    进一步精练该共现网络,图6是限制关键词间共现关系强度阈值为20的引文文本关键词共现网络。精练网络之后比较分散,主要围绕数字人文、信息科学、主题模型和文本各自展开,说明在数字人文关键知识的形成过程中,各学者的关注点各不相同,并多相互独立。

    图6
                            中心文献的引文文本集关键词精练共现网络(阈值为20)

    图6 中心文献的引文文本集关键词精练共现网络(阈值为20)

  • 4.3  中心文献集的关键词网络分析

    在768篇中心文献中,共有4260个不同的关键词,其中,词频在20次及其以上的关键词仅12个。

    7是数字人文研究中心文献集的关键词共现网络,仅显示前1000条联系边。关键词围绕着“数字人文”的概念向多个主题发散,核心关键词群之间的关系比较紧密,同时还存在着一些比较小众边缘的研究,如空间摄影、自动化研究等。此外,在共现网络图中,如图7关键词聚类结果所示,当前数字人文研究主题与方向多样化且较分散。

    图7
                            中心文献关键词共现网络

    图7 中心文献关键词共现网络

    通过提炼核心网络,进一步探索数字人文研究中的核心主题及其关系。在关键词频数分布上,仅57个关键词出现了10次及以上;频数为20次及以上的关键词之间,共产生了35对关键词对,其之间的联系强度总和为123,即约每1个高频关键词平均与其他3个高频词之间具有共现关系。

    8是由57个高频关键词所构成的关键词共现网络(由于显示限制不能展示全部节点标识),将数字人文研究热点划分为9个类别:

    图8
                            中心文献高频关键词共现网络(阈值为10)

    图8 中心文献高频关键词共现网络(阈值为10)

    (1)以数字人文、文本挖掘、语料库语言学、地理信息系统、数据可视化、网络(network)为主题,关注数字人文研究的基本理论和最后成果呈现的可视化研究,主要面向语言学(自然语言的处理)和地理学(地理信息系统)学科进行研究。

    (2)以Web、数据库、本体、关联数据、语义网、数据保管为主题,探索已有计算机技术在数字人文领域中的应用实践。

    (3)以设计、XML、TEI(text encoding initiative,文本编码规范)、工具、众包为主题,研究技术基础与应用驱动下的数字人文研究实践,包括研究内容的体系化设计、结构化编码,工具的使用以及更加开放的众包模式应用。

    (4)以历史、文化、政治、开放存取、表现、方法为主题,对以历史、文化和政治为主的人文学科进行探索与实践。

    (5)以大数据、社交媒体(Twitter)、社会网络、学术交流、远距离阅读等为主题,关注互联网中所产生的大数据的应用,包括社交媒体平台在数字人文领域中的应用、数字人文借助互联网的拓展、所创造的学术交流与远距离阅读等功能性地创新应用等。

    (6)以基础设施、档案文件、资料库、教育学为主题,关注档案、资料库等面向数字人文研究的基础设施建设。

    (7)以图书馆、数字学术、档案馆、数字化为主题,认为图书馆学是数字人文领域的基础学科之一,图书馆学的理论方法和实践与数字人文研究是协同发展趋势。

    (8)以数字图书馆、信息、未来、高校图书馆、技术为主题,认为图书馆学将是数字人文研究成果的主要应用学科之一,从信息和技术的角度关注未来数字图书馆的建设以及高校图书馆在随着数字人文发展所产生的变革。

    (9)以合作研究为主题,探索新合作模式、跨学科合作引发的数字人文研究变革。

  • 4.4  施引文献的引文文本集关键词网络分析

    在施引文献引文文本高频关键词统计中,数字人文排名榜首,说明数字人文领域学科独立性较强,被引用往往来揭示相同领域。施引文献引用中心文献的引文文本关键词间共产生了48433对共现关系,图9是引文文本关键词间的共现网络,关键词节点的大小代表其在网络中的中心度大小。在共现网络中,中心度最大的几个词为:技术、数据、创新性、工具、数字化、数字人文、信息、关系、差异、领域、应用、方法和示例。其中,共现关系强度值最大的10组关键词关系对中,包含4次技术、4次创新性、6次数据,说明对数字人文研究进行施引时,往往会比较多地关注新技术、新数据在数字人文中的新应用,关注数据、信息与技术、工具的结合来完成数字人文工作。

    图9
                            施引文献的引文文本关键词共现网络

    图9 施引文献的引文文本关键词共现网络

    10是限制关键词间共现关系强度阈值为20的引文文本关键词共现网络。图中有2个比较明 显的关键词族群关系。在大的族群关系中,引用知识结构围绕着数字人文、数据信息、方法技术工具以及应用性和创新性进行发散。再次印证,在数字人文的知识传递中,后来者更关注已有研究者的数据基础、研究手段与方法等研究过程,以及在知识迭代过程中的创新性应用。同时,围绕着这些关注点,在可视化等方面继续深化。在小的族群关系中,以社交网络为研究对象,尤其是对Twitter进行研究。

    图10
                            施引文献的引文文本核心关键词共现网络(阈值20)

    图10 施引文献的引文文本核心关键词共现网络(阈值20)

  • 4.5  施引文献集的关键词网络分析

    在施引文献中,词频在20次及其以上的关键词有44个,随着对数字人文研究的施引增加,领域中的关键词也得到了扩充,高频关键词中的信息也更加丰富。

    11是施引文献集的关键词共现网络(仅显示了节点之间的前1000条联系边),相较于中心文献关键词共现网络(图7)更加集聚。网络关注中心仍是数字人文,但发散路线更广,并出现多个小的关键词中心,除了人文等上述概念以外,还有数据库、出版物等概念。

    图11
                            施引文献关键词共现网络

    图11 施引文献关键词共现网络

    通过提高关键词阈值,施引文献的关键词共现网络聚类更加清晰。图12是关键词阈值为8时的共现网络,网络中共有146个节点,共聚为5类研究。

    图12
                            施引文献关键词共现网络(阈值为8)

    图12 施引文献关键词共现网络(阈值为8)

    (1)关注文学、历史学与计算机工具的结合,在研究对象上以非物质文化遗产为代表,在研究工具上以CiteSpace为代表。(图12左部)

    (2)关注可视化结果的呈现与应用,包括文本分析、社会化网络等方式,以及数字馆藏、远距离阅读等应用方向。(图12左下部)

    (3)关注数字化,包括数字图书馆、数字保存、数字学术等。(图12右下部)

    (4)反映出互联网发展对领域研究的影响,主要表现在社会化媒体上,以及从传统人文学科研究中进行转型所产生的影响,如替代计量学这类新词汇的产生。(图12右部)

    (5)关注人文学科信息基础设施的建设,包括档案、数据库以及进行项目管理等。(图12右上部)

  • 5 数字人文领域关键词网络演化

  • 5.1  关键词演化分析

    参考文献集、中心文献的引文文本集、中心文献集、施引文献的引文文本集、施引文献集的高频关键词由高至低如图13所示。数字人文领域的主要知识在形成与转化的引用过程中,发生着知识吸收与扩散的过程,其中,参考文献是研究的起点,是后续研究的基础,整个脉络能够反映数字人文领域发展的逻辑。

    图13
                            数字人文主要知识的流动与传播

    图13 数字人文主要知识的流动与传播

    从共性来看,毋庸置疑,数字人文直接相关的关键词贯穿了5个文献集。其他保持热点包括历史、社交媒体、技术等,并很有可能在后续研究中持续占据风口。值得注意的是,虽然数字人文相关概念占据绝对优势,其与后续关键词的频数之差也随着文献被引用扩散而减少,这点尤其体现从中心文献到施引文献的高频词统计中,可以说明数字人文研究分支的细分与深化。

    从差异来看,如研究方法、原始方法为主题模型等,而在知识扩散作用下,逐渐演变为文本挖掘、大数据的方法;研究领域方面,参考文献提到文学与历史等,在施引过程中,(社会/信息)科学与地理(信息系统)也进入,可能意味着未来研究领域的继续外延;从研究对象来看,奠定基础的是理论和数据,随着研究的深入,将落地在数字图书馆、数字史料、存档等方面。

    比较文献关键词和引文文本关键词的差异,在引用过程中,数据、技术与创新点是施引者外化的关注点;而历史等学科关键词,则可能因为重合度太高、太宽泛而被内化。

    在此基础上,本文选取了5个数据集排名中总出现次数在3次及以上的7个关键词,其排名趋势变化如图14所示,能更直观地说明可能学者在引用文献时,将关注点聚焦到技术与数据层面上;而史学和人文的关键词是文献外化的热点,在引用过程则被吸收。

    图14
                            数字人文高频关键词排名演化图

    图14 数字人文高频关键词排名演化图

  • 5.2  关键词共现网络演化分析

    在高频关键词演化分析基础上,将关键词共现网络进行横向比较,以具体揭示词之间的联系与词群演化路径。

    数字人文研究施引过程中,研究脉络逐渐清晰。相比中心文献关键词,施引文献中更多的关键词聚成了更少的类别,而共现联系强度则更高。施引文献阈值为30的共现联系强度有566,而中心文献在阈值为20时该值仅为123。

    史学研究是数字人文领域传统稳定的研究方向。从研究主题来看,文化遗产等冷门概念逐渐趋向史学,是其相关研究之一;相反,地理信息系统早期关系密切,在施引过程中逐渐受到社交媒体重视。从研究方法来看,早期使用的方法主要是抽象模型,如在参考文献引文网络中体现的“主题模型”和“树状图”(图4),而这部分内容在之后的引文文本网络中则没有显现(说明研究思路的泛化)。从文献网络可以看出,尽管数字人文概念离史学较近,但距离分支里其他概念较远,说明史学下属研究更强调人文专业性。

    社交媒体是数字人文领域另一个研究重点。尽管词频上史学更占优,在网络图中,可清晰辨识以Twitter为代表的社交媒体主题逐渐取得领域核心地位并在不断扩展,不仅距离核心词数字人文更近,分支也更为紧密、健壮。方法方面,早期主要关注文本研究,在参考引用的过程中,逐渐纳入社会网络的方法,并延伸出替代计量学、网络计量学等新兴计量学方向,可能是未来数字人文领域的发展重点。

    15为凝练的中心文献核心关键词共现网络(阈值18),展现的是领域当前的核心主题关系。数字人文研究在历史学、教育学2个学科上较为成熟,然而其和计算机技术相关的文本挖掘和网络、地理信息系统的关系都较为疏远。而社交媒体在该领域不断成熟,借助数字图书馆等平台,尽管共现强度不高,但与其他主题有着广泛的联系。

    图15
                            中心文献核心关键词共现网络(阈值为18)

    图15 中心文献核心关键词共现网络(阈值为18)

    16施引文献的核心关键词共现网络,关键词出现阈值为30。随着施引过程,可以发现史学分支内较为集中,共现强度得到增强;同时社交媒体分支的关键词更为丰富密集,一些新兴概念如大数据、替代计量学也逐渐显现。

    图16
                            施引文献核心关键词共现网络(阈值为30)

    图16 施引文献核心关键词共现网络(阈值为30)

  • 6 结束语

    数字人文领域作为新兴交叉学科,必须追根溯源以扎实其理论基础。本文在构建3个文献集和2个引文文本集的关键词共现网络基础上,通过演化的视角,观察数字人文领域的研究热点的发展路径;通过比较文献集与引文文本集网络的差异,从著作者和施引者2个角度,挖掘领域的潜在价值点。

    在网络的横向比较中发现,在整个施引过程中,数字人文领域的研究脉络在不断细分和深化。起源于理论与历史文学,使得史学相关研究集中度较高,有专深化的倾向;以社交媒体为代表的分支,经历了从文本挖掘转变为网络计量的过程,是未来繁荣的趋势所在。

  • 参考文献

    • 1

      Schreibman S, Siemens R, Unsworth J. A companion to digital humanities[M]// A Companion to Digital Humanities. Blackwell, 2004.

    • 2

      赵蓉英. 知识网络及其应用[M]. 北京: 北京图书馆出版社, 2007: 8-58.

    • 3

      舒刚. 企业知识管理新热点: 知识网络[J]. 科技创业月刊, 2008, 21(9): 14-15.

    • 4

      Sharda R, Frankwick G L, Turetken O. Group knowledge networks: A framework and an implementation[J]. Information Systems Frontiers, 1999, 1(3): 221-239.

    • 5

      Jarvenpaa S K, Tanriverdi H. Leading virtual knowledge networks[J]. Organizational Dynamics, 2003, 31(4): 403-412.

    • 6

      赵蓉英. 知识网络研究(Ⅱ)——知识网络的概念、内涵和特征[J]. 情报学报, 2007, 26(3): 470-476.

    • 7

      高雯珺, 崔雷. 与文献相关的引用网络、合著网络和共词网络的研究进展[J]. 中华医学图书情报杂志, 2015, 24(7): 9-14.

    • 8

      Schoenbach U H, Garfield E. Citation indexes for sciences[J]. Science, 1956, 123(3185): 61-62.

    • 9

      Mei Q, Zhai C X. Generating impact-based summaries for scientific literature[C]// Proceedings of the Meeting of the Association for Computational Linguistics. ACL, 2008: 816-824.

    • 10

      Mohammad S, Dorr B, Egan M, et al. Using citations to generate surveys of scientific paradigms[C]// Proceedings of the 2009 Annual Conference of the North American Chapter of the Association of Computational Linguistics: Human Language Technologies. ACL, 2009: 584-592.

    • 11

      滕立. 基于超网络的作者-机构-国家混合共现网络研究[J]. 情报学报, 2015, 34(1): 28-36.

    • 12

      王林, 冷伏海. 学术论文的关键词与引文共现关系分析及实证研究[J]. 情报理论与实践, 2012, 35(2): 82-86.

    • 13

      王林, 冷伏海. 施引关键词与被引作者交叉共现分析方法及实证研究[J]. 情报学报, 2012, 31(4): 362-370.

    • 14

      陈翀, 罗鹏程, 汪十红. 利用引用信息的关键词提取[J]. 图书情报工作, 2014, 58(1): 101-108, 116.

    • 15

      祝清松, 冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报, 2014, 40(1): 39-49.

    • 16

      柯平, 宫平. 数字人文研究演化路径与热点领域分析[J]. 中国图书馆学报, 2016, 42(6): 13-30.

    • 17

      高瑾. 数字人文学科结构研究的回顾与探索[J]. 图书馆论坛, 2017, 37(1): 1-9.

    • 18

      Aljaber B, Stokes N, Bailey J, et al. Document clustering of scientific texts using citation contexts[J]. Information Retrieval, 2010, 13(2): 101-131.

    • 19

      Bradshaw S. Reference directed indexing: Redeeming relevance for subject search in citation indexes[M]// Research and Advanced Technology for Digital Libraries. Heidelberg: Springer, 2003: 499-510.

许鑫

机 构:华东师范大学经济与管理学部信息管理系,上海 200241

Affiliation:Department of Information Management, Faculty of Economics and Management, East China Normal University, Shanghai 200241

邮 箱:xxu@infor.ecnu.edu.cn

作者简介:许鑫,男,1976年生,教授,博士生导师,主要研究方向为信息分析、数字人文,E-mail:xxu@infor.ecnu.edu.cn

陈路遥

机 构:华东师范大学经济与管理学部信息管理系,上海 200241

Affiliation:Department of Information Management, Faculty of Economics and Management, East China Normal University, Shanghai 200241

作者简介:陈路遥,女,1993年生,硕士研究生

杨佳颖

机 构:华东师范大学经济与管理学部信息管理系,上海 200241

Affiliation:Department of Information Management, Faculty of Economics and Management, East China Normal University, Shanghai 200241

作者简介:杨佳颖,女,1995年生,硕士研究生。

魏瑞斌

角 色:责任编辑

Role:Executive editor

1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F001.jpg
第一阶段第二阶段第三阶段
年份文献发表文献被引年份文献发表文献被引年份文献发表文献被引
1998年102007年212012年2857
1999年102008年1412013年6995
2000年002009年742014年80132
2001年002010年11152015年136259
2002年102011年21232016年207366
2003年002017年188461
2004年002018年152
2005年11
2006年00
排名Web of Science类别文献数文献总数(768)占比
1Arts & Humanities-Other Topics15520%
2Literature15020%
3Information Science & Library Science14319%
4Humanities, Multidisciplinary14018%
5Linguistics9612%
6Computer Science7610%
7History598%
8Language & Linguistics557%
9Social Sciences - Other Topics375%
10Computer Science, Interdisciplinary Applications324%
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F002.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F003.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F004.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F005.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F006.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F007.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F008.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F009.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F010.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F011.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F012.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F013.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F014.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F015.jpg
1000-0135.2019.03.010/alternativeImage/6dc032b9-269f-4171-84c0-70eb5908d5cf-F016.jpg

图1 数字人文领域各研究数据集

表1 数字人文中心文献集各年文献发表数量与被引数量统计

表2 数字人文研究中心文献集Web of Science类别分布top 10

图2 数字人文研究学科领域共现时区图

图3 参考文献集关键词共现网络

图4 参考文献集关键词核心共现网络(阈值为40)

图5 中心文献的引文文本集关键词共现网络

图6 中心文献的引文文本集关键词精练共现网络(阈值为20)

图7 中心文献关键词共现网络

图8 中心文献高频关键词共现网络(阈值为10)

图9 施引文献的引文文本关键词共现网络

图10 施引文献的引文文本核心关键词共现网络(阈值20)

图11 施引文献关键词共现网络

图12 施引文献关键词共现网络(阈值为8)

图13 数字人文主要知识的流动与传播

图14 数字人文高频关键词排名演化图

图15 中心文献核心关键词共现网络(阈值为18)

图16 施引文献核心关键词共现网络(阈值为30)

image /

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

  • 参考文献

    • 1

      Schreibman S, Siemens R, Unsworth J. A companion to digital humanities[M]// A Companion to Digital Humanities. Blackwell, 2004.

    • 2

      赵蓉英. 知识网络及其应用[M]. 北京: 北京图书馆出版社, 2007: 8-58.

    • 3

      舒刚. 企业知识管理新热点: 知识网络[J]. 科技创业月刊, 2008, 21(9): 14-15.

    • 4

      Sharda R, Frankwick G L, Turetken O. Group knowledge networks: A framework and an implementation[J]. Information Systems Frontiers, 1999, 1(3): 221-239.

    • 5

      Jarvenpaa S K, Tanriverdi H. Leading virtual knowledge networks[J]. Organizational Dynamics, 2003, 31(4): 403-412.

    • 6

      赵蓉英. 知识网络研究(Ⅱ)——知识网络的概念、内涵和特征[J]. 情报学报, 2007, 26(3): 470-476.

    • 7

      高雯珺, 崔雷. 与文献相关的引用网络、合著网络和共词网络的研究进展[J]. 中华医学图书情报杂志, 2015, 24(7): 9-14.

    • 8

      Schoenbach U H, Garfield E. Citation indexes for sciences[J]. Science, 1956, 123(3185): 61-62.

    • 9

      Mei Q, Zhai C X. Generating impact-based summaries for scientific literature[C]// Proceedings of the Meeting of the Association for Computational Linguistics. ACL, 2008: 816-824.

    • 10

      Mohammad S, Dorr B, Egan M, et al. Using citations to generate surveys of scientific paradigms[C]// Proceedings of the 2009 Annual Conference of the North American Chapter of the Association of Computational Linguistics: Human Language Technologies. ACL, 2009: 584-592.

    • 11

      滕立. 基于超网络的作者-机构-国家混合共现网络研究[J]. 情报学报, 2015, 34(1): 28-36.

    • 12

      王林, 冷伏海. 学术论文的关键词与引文共现关系分析及实证研究[J]. 情报理论与实践, 2012, 35(2): 82-86.

    • 13

      王林, 冷伏海. 施引关键词与被引作者交叉共现分析方法及实证研究[J]. 情报学报, 2012, 31(4): 362-370.

    • 14

      陈翀, 罗鹏程, 汪十红. 利用引用信息的关键词提取[J]. 图书情报工作, 2014, 58(1): 101-108, 116.

    • 15

      祝清松, 冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报, 2014, 40(1): 39-49.

    • 16

      柯平, 宫平. 数字人文研究演化路径与热点领域分析[J]. 中国图书馆学报, 2016, 42(6): 13-30.

    • 17

      高瑾. 数字人文学科结构研究的回顾与探索[J]. 图书馆论坛, 2017, 37(1): 1-9.

    • 18

      Aljaber B, Stokes N, Bailey J, et al. Document clustering of scientific texts using citation contexts[J]. Information Retrieval, 2010, 13(2): 101-131.

    • 19

      Bradshaw S. Reference directed indexing: Redeeming relevance for subject search in citation indexes[M]// Research and Advanced Technology for Digital Libraries. Heidelberg: Springer, 2003: 499-510.