带摘要目录

2020年 第39卷 第6期
刊出日期:2020-06-28

情报理论与应用
情报分析方法与技术
研究进展与文献综述
专题约稿
专题约稿
565 基于机构-作者向量的科研机构名称演化识别方法研究 Hot!
吕冬晴, 陆红如, 成颖, 孙海霞
DOI: 10.3772/j.issn.1000-0135.2020.06.001
机构变迁是引起科研机构名称演化的重要原因。消解科研机构名称的异质性可以提高信息检索的查全率以及科学计量的信度,为此,本文提出了基于科研机构中人员在短期内相对稳定特征的名称演化识别方法。本文构建了机构-作者向量与机构-年度向量,通过综合机构-作者向量的相似度、作者绝对共现量以及1:1、n:1、1:n以及n:m名称映射关系对更名、合并、拆分与重组关系进行了识别;借鉴主成分分析法中的因子识别方法并结合前述4种演化关系,提出了动态相似度阈值设定方法。实验数据采集自CSSCI数据库1999—2015年的论文,实验环节考虑了人员流动以及重名风险对结果的可能影响。结果表明,本研究提出的科研机构名称演化识别方法在准确率与召回率上均有优异的表现。
2020 Vol. 39 (6): 565-578 [摘要] ( 243 ) HTML (138 KB)  PDF (2447 KB)  ( 622 )
579 基于广度学习的异构社交网络敏感实体识别模型研究 Hot!
黄炜, 童青云, 李岳峰
DOI: 10.3772/j.issn.1000-0135.2020.06.002
当前互联网中广泛存在着敏感实体利用社交网络进行极端思想传播和联络潜在人员等行为。为解决网络安全治理工作中敏感实体发现的首要问题,本文提出了一种基于广度学习的多源异构社交网络环境下敏感实体识别模型,为新时代网络信息安全治理的“中国之治”提供参考。获取Twitter和Facebook两个异构社交网络实验数据集,采用广度学习网络嵌入技术将处理过后的敏感用户节点和推文节点嵌入同一低维特征空间,并将嵌入结果融合到矩阵因子分解框架中,实现多源异构敏感实体的识别工作。将多源数据与单源数据的识别结果进行对比,本文提出的模型具有更好的性能表现。
2020 Vol. 39 (6): 579-588 [摘要] ( 173 ) HTML (188 KB)  PDF (2719 KB)  ( 549 )
589 基于学术论文全文的研究方法实体自动识别研究 Hot!
章成志, 张颖怡
DOI: 10.3772/j.issn.1000-0135.2020.06.003
研究方法的规范程度标志着一门学科发展的成熟程度。在情报学学科中,关于研究方法的理论分析和规范性研究逐渐引起重视,而使用量化方法进行实证分析的研究相对较少。另外,当一个研究方法实体出现在学术文本中,则表示该研究方法实体被该学术论文使用或该学术论文引用该研究方法实体用于分析或比较。梳理学术论文使用的研究方法实体,可以帮助学者快速了解学术论文的主旨内容。总结学术论文引用的研究方法实体,有助于理清学科领域中研究方法的演变和发展模式。因此,本文将研究方法分为论文使用研究方法和论文引用研究方法。本文比较双向长短时记忆网络等8种神经网络研究方法实体自动抽取模型,从中选择最优的模型进行研究方法实体的识别。实验结果表明,基于字向量的、结合条件随机场的双向长短时记忆网络联合训练模型在研究方法识别任务中表现出最高的性能。以《情报学报》近10年的论文全文为依据,分析抽取出的研究方法实体的使用情况。统计分析结果发现,情报学学科中与实验法相关的研究方法使用频次和引用频次均最高。
2020 Vol. 39 (6): 589-600 [摘要] ( 230 ) HTML (174 KB)  PDF (1551 KB)  ( 803 )
情报理论与应用
601 面向科研人员兴趣画像的多语作者主题模型研究 Hot!
李岩, 刘志辉, 高影繁
DOI: 10.3772/j.issn.1000-0135.2020.06.004
全球化背景下,从不同语种的海量科研文献数据集中自动挖掘隐含主题,精准刻画科研人员研究兴趣是信息服务迈向知识服务的关键问题,也是跨语言信息检索的关键技术之一。目前刻画科研人员兴趣的方法多基于其某一语种的文献,不适用于多语言数据集。本文在作者主题模型和多语言主题模型的基础上提出了多语作者主题(JointAT)模型,可从多语言数据集刻画作者兴趣,并给出了一种估计JointAT模型参数的吉布斯采样方法。实验结果表明,JointAT模型与作者主题(AT)模型相比具有更好的泛化能力。
2020 Vol. 39 (6): 601-608 [摘要] ( 147 ) HTML (89 KB)  PDF (4069 KB)  ( 582 )
609 基于孪生网络的基金与受资助论文相关性判别模型构建研究 Hot!
叶文豪, 王东波, 沈思, 苏新宁
DOI: 10.3772/j.issn.1000-0135.2020.06.005
为探究并约束科研论文基金不实标注的现象,本文提出了基金与论文相关性判别模型。以国家社会科学基金项目及其资助论文为数据源,首先基于word2vec模型计算了基金标题与论文标题及摘要间的相似度,通过对相似度计算相关性证明了基金内容与其资助论文在大规模数据分析上存在差异;其次通过人工审核低相似度的数据发现了部分基金不实标注的案例;最后设计了基金与论文研究内容相关性检测模型。模型在检测基金与论文不相关案例时效果优越,查准率超过99%,其中,以Transformer作为编码器的模型的查全率和F值分别达到89.13%和94.22%。该模型在一定程度上能够帮助监管部门有效地从作者投稿和期刊审稿两方面抑制基金不实标注行为。
2020 Vol. 39 (6): 609-618 [摘要] ( 187 ) HTML (119 KB)  PDF (2604 KB)  ( 719 )
619 基于模型检测的财经舆情可信度研究 Hot!
吴鹏, 肖维聪, 楚榕珍
DOI: 10.3772/j.issn.1000-0135.2020.06.006
财经舆情的可信度评估影响企业发展和投资者利益,为了获得可信度判别标准并判断其准确性,本文设计了一个基于模型检测技术的可信度检测框架。利用决策树算法代替传统的人工归纳过程来构建财经舆情的可信度判断规则,并以CTL形式化语言描述。将财经舆情数据库表示为基于时序逻辑关系的可信度待检测模型,并将模型以kripke结构表示。通过模型检测器NuSMV对待检测模型进行自动化的规则验证,判断待检测模型是否符合可信度检测规则,将不符合规则的模型中的路径输出为反例路径,即为不可信财经舆情的检测路径。最后,结合实证研究对提出的框架进行了有效性验证。结果表明,本文提出的框架可以快速有效实现财经舆情可信度的自动检测,帮助投资者分析和预测财经舆情的真实性。
2020 Vol. 39 (6): 619-629 [摘要] ( 123 ) HTML (153 KB)  PDF (1938 KB)  ( 558 )
情报分析方法与技术
630 基于Gaussian LDA的在线评论主题挖掘研究 Hot!
国显达, 那日萨, 高欢, 杨心怡
DOI: 10.3772/j.issn.1000-0135.2020.06.007
针对现有主题挖掘方法生成的主题分布稀疏、语义不连贯,并导致可应用性差等不足之处,提出了一种基于Gaussian LDA的在线评论主题挖掘方法。首先,通过word2vec训练得到在线评论的词向量,并基于Gaussian LDA模型获取在线评论的主题分布;然后,通过主题分布来计算评论的相似度矩阵并应用AP聚类算法实现在线评论聚类,通过分析聚类结果实现主题发现;最后,利用TextRank算法提取各主题的关键句子生成主题摘要,以完成对主题的描述。该方法可有效缓解消费者在线评论信息过载问题,通过淘宝、京东、豆瓣等平台7种不同类型产品的评论数据的实验计算证明了方法的有效性及现实应用价值。
2020 Vol. 39 (6): 630-639 [摘要] ( 282 ) HTML (137 KB)  PDF (1634 KB)  ( 821 )
640 基于学术论文全文的研究方法句自动抽取研究 Hot!
张颖怡, 章成志
DOI: 10.3772/j.issn.1000-0135.2020.06.008
研究方法是科技文献中的重要内容,是解决学科领域问题的方法、工具、手段或技术。研究方法的描述通常以句子为单位。将分散在科技文献中的研究方法句进行汇总,可以辅助科研工作者快速地搜寻合适的研究方法。根据方法使用主体,将研究方法句进一步分为论文使用方法句和论文引用方法句。论文使用方法句是指论文中使用的研究方法的描述句。论文引用方法句是指论文对前人使用过的研究方法的描述句。本文使用多种基于神经网络的句子分类模型从科技文献全文本中进行研究方法句抽取。在模型词向量表示层,论文使用BERT和word2vec两种词向量模型。在模型的特征选择层,本文选用三种不同的网络,分别为卷积神经网络、双向长短时记忆网络和注意力机制网络。另外,论文使用两种模型训练方式,分别为单层次结构和两层次结构。实验结果表明,基于BERT的单层次结构的双向长短时记忆网络模型取得了较优的性能。本文从《情报学报》已发表论文中进行研究方法句的抽取并分析研究方法句的分布情况。分析发现,《情报学报》逐渐重视情报学中理论的发展并关注建设情报学学科的理论体系。
2020 Vol. 39 (6): 640-650 [摘要] ( 230 ) HTML (154 KB)  PDF (1677 KB)  ( 1030 )
研究进展与文献综述
651 计量与演化视角下的新兴技术识别研究进展评述 Hot!
卢小宾, 杨冠灿, 徐硕, 张杨燚
DOI: 10.3772/j.issn.1000-0135.2020.06.009
新兴技术识别一直是科技创新管理、科技政策制定和技术竞争情报研究领域关注的问题。学术界已经对此开展了大量的学术研究,然而“新兴技术”概念的界定问题却严重制约着新兴技术识别的发展,其根源在于当前研究实践中存在两种迥异的认知视角:计量视角与演化视角。在这两种视角共同的作用下,新兴技术的概念边界不断扩展,因此,厘清新兴技术识别概念的基础就是首先理解两种视角不同的特点与应用场景。本文首先归纳了一个由新兴技术识别的特征、数据表示与识别方法三部分构成的框架,该框架能够较为全面地涵盖当前计量视角下新兴技术识别的研究进展。然后通过文献分析发现,演化视角下的新兴技术识别方法更关注于以下四个方面:基于技术重组的根本性创新,学科、技术网络融合的协同效应,技术实用性与功能性驱动效应,以及颠覆性创新问题,而这四种特征推动了演化视角数据表示与识别方法的转化。最后,本文对新兴技术识别数据表示与方法的拓展进行了初步的展望。本文希望通过比较不同视角下新兴技术识别实践工作,为未来深入开展新兴技术识别活动提供参考。
2020 Vol. 39 (6): 651-661 [摘要] ( 171 ) HTML (125 KB)  PDF (1368 KB)  ( 630 )
662 国外健康行为研究中信息框架理论的源流、应用与发展 Hot!
杨梦晴, 赵宇翔, 宋士杰, 朱庆华
DOI: 10.3772/j.issn.1000-0135.2020.06.010
本文旨在通过梳理国外健康行为研究中信息框架理论的源流、应用和发展,为我国健康信息行为研究的发展提供理论参考。本文通过分析健康行为研究中信息框架理论应用的各阶段主要特征,对这一研究主题的发展脉络进行梳理,进而从框架角度和认知角度分别就信息框架的应用情况进行详细剖析。最后提出了健康行为研究中信息框架理论未来的研究方向。健康行为研究中信息框架理论的发展过程可以划分为三个阶段,即主题形成阶段、主题发展阶段和主题成熟阶段,并且每一阶段都有较为鲜明的时代特征。基于不同的框架设计思路可以将相关研究分为三大类,即收益-损失框架、时间框架和叙事框架。同时,自我效能、信息处理、行为动机和健康信念是探讨信息框架作用时经常依托的认知视角。本文最后结合信息管理学科研究主题,提出未来可以从在线健康社区中的信息定制、健康信息应用采纳中的框架情境和健康信息传播中的信息失真现象三个方向开展新的研究工作。
2020 Vol. 39 (6): 662-674 [摘要] ( 381 ) HTML (152 KB)  PDF (3431 KB)  ( 873 )