带摘要目录

2022年 第41卷 第4期
刊出日期:2022-04-24

情报研究综述与述评
情报理论与方法
情报技术与应用
情报理论与方法
325 我国人文社会科学文献引文起飞分布规律探究 Hot!
张靖雯, 闵超, 孙建军
DOI: 10.3772/j.issn.1000-0135.2022.04.001
引文起飞是文献被广泛采纳的重要信号,引文起飞的分布规律研究对解释引文动态进程具有重要意义,为文献科学评价提供新视角。本研究以中国社会科学引文索引(Chinese Social Sciences Citation Index,CSSCI)数据库1998—2018年的引文数据为研究对象,在对引文起飞识别基础上进行统计分析、对比分析及分布模型拟合,较为全面地揭示了引文起飞分布规律。本研究发现,我国人文社会科学文献大多仅存在一次起飞现象,主要分布在发表后的0~3年,且首次被引往往伴随着引文起飞;引文起飞论文数比例分布符合指数分布规律,拟合系数β可以判断文献引文起飞分布的集中离散情况;不同学科引文起飞分布存在差异,不同被引频次的引文起飞指数分布模型进一步解释了文献被引的内在机制。引文起飞学科分布差异可为知识分类提供参考,本研究的相关结论也可为建立新的科学评价指标提供思路。
2022 Vol. 41 (4): 325-336 [摘要] ( 208 ) HTML (143 KB)  PDF (2945 KB)  ( 171 )
337 融合异质信息网络表示学习的跨领域推荐研究 Hot!
易明, 刘明, 冯翠翠
DOI: 10.3772/j.issn.1000-0135.2022.04.002
针对单领域推荐中的数据“稀疏性”和用户“冷启动”问题,提出一种综合利用评分信息和特征信息的跨领域推荐模型。首先,利用异质网络表示学习,针对源领域和目标领域的异质信息网络,通过元路径、DeepWalk算法生成网络表示学习向量,进而利用个性化非线性融合输出源领域和目标领域的物品特征信息向量;其次,利用神经网络模拟CMF(collective matrix factorization),生成用户和物品的评分信息向量,并通过映射函数MLP(multilayer perceptron)将用户评分信息向量映射到不同领域,以突出用户特征在不同领域的差异性;最后,将评分信息和特征信息有机融合,以损失函数为依据,采用梯度下降的方法学习模型的参数,从而完成评分预测。研究结果表明,在豆瓣网和Amazon数据集上,本文模型均优于其他相关算法;在提升推荐效果方面,目标领域RMSE(root mean squared error)和MAE(mean absolute error)下降了1%~15%,源领域RMSE和MAE下降了1%~19%;在用户“冷启动”方面,目标领域的RMSE和MAE下降了1%~14%。
2022 Vol. 41 (4): 337-349 [摘要] ( 250 ) HTML (187 KB)  PDF (2761 KB)  ( 317 )
350 基于先精确后召回策略的作者名消歧模型研究 Hot!
沈喆, 王毅, 鞠秀芳, 成颖
DOI: 10.3772/j.issn.1000-0135.2022.04.003
学者完整且准确的学术成果集为科学计量与科研人才评价等研究提供了重要的数据基础。在现有基于机器学习模型的作者姓名消歧方法尚未达到实用要求的背景下,本研究面向高层次科研人才,充分利用基于规则方法精确率高的优势,提出了“先面向精确率,后面向召回率”的“两步法”作者姓名消歧模型。得益于该群体易于从网络中搜集其履历、研究方向和代表作等信息,消歧模型可采用的特征更加丰富,从而保证了消歧模型的优异性能。本研究以国家杰出青年科学基金获得者为例对模型进行了验证,结果表明,本研究提出的高层次科研人才作者名消歧模型在精确率与召回率两个方面均表现良好,在两组不同特征集上的F1值分别达到了0.93和0.95,较基线模型有较大提升。
2022 Vol. 41 (4): 350-363 [摘要] ( 247 ) HTML (183 KB)  PDF (1481 KB)  ( 530 )
364 融合影响力传播的社交网络群推荐方法 Hot!
叶佳鑫, 熊回香, 易明, 刘明
DOI: 10.3772/j.issn.1000-0135.2022.04.004
在社交网络中,以用户群体作为服务对象来进行个性化推荐服务,能有效提升推荐效率。已有的研究在进行群推荐时大多仅考虑用户群体的整体兴趣,忽视了群体中用户间的相互影响。为此,本文提出了一种基于影响力传播的社交网络群推荐方法,综合考虑用户自身兴趣与其受核心用户影响而产生的兴趣来进行社交网络群推荐服务。以微博“超话”上的数据为例对本文所提方法进行验证,证明了本文所提方法的有效性,从研究结果来看,加入对影响力传播的考量能显著提升群推荐效果。
2022 Vol. 41 (4): 364-374 [摘要] ( 272 ) HTML (158 KB)  PDF (1066 KB)  ( 416 )
375 学科交叉视角下的学科区分能力测度方法及分析研究 Hot!
张宝隆, 王昊, 张卫
DOI: 10.3772/j.issn.1000-0135.2022.04.005
学科交叉融合的不断发展使学科自身独特性逐渐被弱化,而独特性是体现学科本质和内涵的重要特征,这对于学科守正拓展创新具有重要意义。本研究提出一种新的指标学科区分能力来对学科内容的差异性进行测度,以分析学科的独特性和交叉性特征。以人文社会学科为例,采用2019年23个学科的题录数据对学科区分能力进行测度,并结合基于PCA(principal component analysis)和ADV(angle-distance based visualization)的空间可视化对学科之间的差异性进行分析。基于此,对比分析学科区分能力与交叉指标的优劣性及相关性,并采用学科互引网络对其区分能力进行验证,探讨学科交叉程度对区分能力的影响。本研究表明,学科区分能力能够很好地测度学科内容差异性;所提出的ADV可视化方法能够准确刻画学科差异性特征;学科区分能力与交叉指标具有相关性,可以互为补充;学科交叉程度对学科区分能力具有消极影响,交叉程度越深,其区分能力就越弱,反之越强。
2022 Vol. 41 (4): 375-387 [摘要] ( 306 ) HTML (171 KB)  PDF (2414 KB)  ( 210 )
388 基于天际线算法的主题排序方法研究 Hot!
万校基, 李海林, 龚燕燕, 林海龙
DOI: 10.3772/j.issn.1000-0135.2022.04.006
针对现有主题排序偏主观、高维数据复杂难处理等问题,提出一种基于近邻传播聚类和天际线算法的主题排序方法。结合关键词重要性和近邻传播聚类算法自适应获取文献初始核心主题,借助平均相似性系数进一步对初始主题簇进行二次近邻传播聚类。以簇中心代表关键词的篇均被引量和篇均下载量为主题热度表征指标,利用天际线算法获取主题天际线集合,通过主成分分析法实现主题排序。对中国知网2010—2020年与供应链相关的期刊文献进行数据处理和挖掘时发现,本文提出的新方法可以有效地识别供应链领域研究主题及其热度,不仅可为相关科研人员的科学选题提供指导意见,也可为相关期刊的精准选稿提供决策支持。
2022 Vol. 41 (4): 388-400 [摘要] ( 188 ) HTML (162 KB)  PDF (4197 KB)  ( 294 )
情报技术与应用
401 叙词表集成化体系及应用推进研究 Hot!
陈瑞, 曾建勋
DOI: 10.3772/j.issn.1000-0135.2022.04.007
众多叙词表及术语资源由于资源分散、更新维护慢、不能满足数据大规模应用需要,导致应用情况不理想。叙词表的集成化可对现有信息资源进行充分整合,有助于优化知识组织体系,拓展术语资源的应用范围。本文提出的叙词表集成化体系框架涵盖了标准规范体系、词表集成化支撑体系、词表集成化概念体系、叙词表集成化过程和方法以及系统服务与应用五个方面。集成化过程是在多来源术语集成构建词汇集成库的基础上,进行概念映射、概念融合与关系校验实现概念和概念关系的语义集成,构建一个覆盖多学科领域的、语义关系多样的集成化词表。最后,本文提出了推进集成资源的智能化服务和社会场景应用的具体策略,推动叙词表资源的可持续发展。
2022 Vol. 41 (4): 401-411 [摘要] ( 205 ) HTML (84 KB)  PDF (1592 KB)  ( 377 )
412 基于深度迁移学习的地方志多模态命名实体识别研究 Hot!
范涛, 王昊, 陈玥彤
DOI: 10.3772/j.issn.1000-0135.2022.04.008
地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容能够为识别文本中的实体提供额外的信息,从而提升模型识别实体的性能,并且实体识别还面临着已标注语料匮乏的问题。基于此,本文提出了利用深度迁移学习方法,结合地方志中的文本和图片进行多模态命名实体识别。首先,基于人民日报语料库和中文推特多模态数据集,分别预训练结合了自注意力机制的BiLSTM-attention-CRF模型和自适应联合注意力模型,利用基于神经网络的深度迁移学习方法将权重迁移至地方志多模态命名识别模型中,使模型获得提取文本和图片语义特征的能力;然后,结合过滤门对多模态融合特征去噪;最后,将融合后的多模态特征输入CRF(conditional random fields)层进行解码。本文将提出的模型在地方志多模态数据中进行了实证研究,并同相关基线模型作对比,实验结果表明,本文所提出的模型具有一定优势。
2022 Vol. 41 (4): 412-423 [摘要] ( 243 ) HTML (183 KB)  PDF (1792 KB)  ( 227 )
情报研究综述与述评
424 在线健康信息搜寻中信息过载研究综述 Hot!
陈琼, 赵宇翔, 宋士杰, 朱庆华
DOI: 10.3772/j.issn.1000-0135.2022.04.009
互联网中海量健康信息资源在改善人们健康生活的同时也带来了信息过载(information overload)的负面问题。近年来,健康管理领域中的信息过载引起了学界的诸多关注。对这一现象进行系统梳理及分析,有助于促进公共健康信息环境的良性发展,发挥在线健康信息资源在个人健康管理与决策中的最大化效用。本文先以现有相关研究文献为基础,梳理在线健康信息搜寻中信息过载的研究成果,从概念界定、研究情境、理论基础、测量量表以及研究方法等角度进行系统性回顾。然后,在信息过载经典框架的基础上从信息过载的成因、症状与影响以及应对三个层面构建健康信息过载的研究框架。最后,从情报学视角提出若干健康信息过载的研究方向和前沿展望。
2022 Vol. 41 (4): 424-436 [摘要] ( 449 ) HTML (202 KB)  PDF (904 KB)  ( 800 )