带摘要目录

2018年 第37卷 第2期
刊出日期:2018-02-24

情报理论与应用
情报分析方法与技术
专题
研究进展与文献综述
专题
121 生命周期阶段中的科学合作网络演化及高影响力学者成长特征研究
王曰芬, 李冬琼, 余厚强
DOI: 10.3772/j.issn.1000-0135.2018.02.001
为进一步研究科学合作的关系,并揭示科学发展的规律。本论文以文献增长规律与生命周期理论为基础,借助于数理统计与复杂网络分析方法,以CNKI数据库中的新能源领域研究为例,从整体属性和个体成长角度,分析科学合作网络在不同生命周期阶段的演化特征。首先,通过对科学合作网络结构演变情况分析,发现网络整体随阶段不同存在着差异。在分布上,除萌芽期初始阶段的网络是随机网络外,其他各阶段的网络均是无标度网络。其次,从初始合作模式、成长演变模式、所处网络类型三个方面,探寻新能源领域生命周期阶段中top10高影响力学者的成长变化特征。研究表明,在初始合作模式方面,通过对合著者数量以及合作者影响力的测度,发现高影响力学者主要按照“独著”、“简单合著”、“带入合著”与“同步合著”四种模式进入;在成长演变模式方面,通过对度中心性变化的测度,发现高影响力学者的合作网络主要体现出“稳步增长型”、“上升下降型”、“持续领导型”、“不温不火型”四种成长形式;在所处合作网络类型方面,通过对网络中核心节点的数目、网络中节点存在年次的测度,发现高影响力节点所在的网络呈现出“流动合作型网络”、“引领成长型网络”以及“多核共处型网络”三种结构状态。
2018 Vol. 37 (2): 121-131 [摘要] ( 257 ) HTML (1 KB)  PDF (1561 KB)  ( 912 )
132 基于网络表示学习的科研合作预测研究
张金柱, 于文倩, 刘菁婕, 王玥
DOI: 10.3772/j.issn.1000-0135.2018.02.002
大数据环境下的科研合作预测亟需基于海量数据资源来自动学习和发现研究者间的关联性,提高预测效率和效果。首先基于海量数据构建合著网络,并以合著关系表示科研合作;接着基于深度学习的网络表示学习方法(network embedding)学习研究者在所处网络的语境信息,形成每个研究者的稠密、低维向量表示;最后通过向量相似度指标计算研究者间的语义相似度,实现科研合作预测和推荐。在图书情报领域的实验验证了该方法能够提高科研合作预测的准确率和效果,更好地进行关联推荐。该方法从数据科学视角丰富和扩展了基于复杂网络的情报分析方法。
2018 Vol. 37 (2): 132-139 [摘要] ( 309 ) HTML (1 KB)  PDF (1992 KB)  ( 1094 )
情报理论与应用
140 科学推文作者行为模式与地理分布研究
余厚强, 王曰芬, 王菲菲, 陈必坤
DOI: 10.3772/j.issn.1000-0135.2018.02.003
通过对2069万多条科学推文的263万多位作者做统计分析和可视化分析,揭示了科学推文作者在发文量、关注来源和关注学科方面的行为模式,以及国家层次和城市层次的地理分布,为进一步理解推特替代计量指标内涵进而科学合理应用提供基础。研究发现:①科学推文作者的发文量分布存在显著的集中分布规律,10%的作者发表了80%的科学推文,91%的作者发表科学推文量在10条及以下,说明存在少数科学推文量极高的作者,同时大部分作者只是偶尔在推特上传播和讨论研究成果;②关注作者数最多的核心来源占6%,对应77%的科学推文,尤以NatureThe ConversationPLoS ONE居前三甲,62%的作者仅关注一种来源;③关注作者数最多的学科分布在医学、综合科学和社会科学,71%的作者仅在一个学科里关注研究成果,8%的作者会关注3个以上学科的研究成果;④科学推文作者广泛分布在世界各地,尤以美国和欧洲最为密集,东亚集中在日本,南美集中在巴西,且集中分布在伦敦、纽约、多伦多等城市。这些结果表明,纯粹基于科学推文量的推特替代计量指标有失公允,未来构建实用指标时必须将作者情境作为要素纳入考虑范围。
2018 Vol. 37 (2): 140-150 [摘要] ( 222 ) HTML (1 KB)  PDF (2413 KB)  ( 667 )
151 期刊论文引文国际化研究——以图书情报与档案管理学科为例
龚凯乐, 谢娟, 成颖, 孟凡赛
DOI: 10.3772/j.issn.1000-0135.2018.02.004
在高等教育“双一流”建设的大背景下,学科的国际化是大势所趋。由教育部牵头制定的《高等学校哲学社会科学繁荣计划(2011—2020年)》提出了“走出去”与“请进来”相结合的发展战略。引文国际化作为“请进来”战略的重要组成部分,可以作为学者国际学术视野的测度指标。据此,本文以图书情报与档案管理(LIS)学科为例,利用中文社会科学引文索引(CSSCI)自1998年建库以来每年均收录的16本来源期刊数据,探索性地分析了该学科多层次的引文国际化水平,揭示了该领域研究人员的国际学术视野。基于此,本研究进一步探析了期刊论文引文国际化的影响因素,并对LIS学科的国际化发展提出了具体建议。
2018 Vol. 37 (2): 151-160 [摘要] ( 284 ) HTML (1 KB)  PDF (801 KB)  ( 698 )
161 个体认知专注与虚拟社区参与关系的元分析
张宁, 袁勤俭, 朱庆华
DOI: 10.3772/j.issn.1000-0135.2018.02.005
认知专注是个体深度参与状态的刻画,然而现有文献对个体认知专注是否显著影响虚拟社区的参与行为存在不一致的结论。本文运用元分析方法,采用随机效应模型,对个体认知专注与虚拟社区参与的关系问题进行了探讨。来源于35项研究的37个独立样本满足了元分析的标准(N=10210)。元分析结果发现,整体上个体认知专注对虚拟社区参与存在高度相关的影响效应(r=0.433);认知专注的测量维度、虚拟社区类型和被试对象特征均会调节影响两者之间的关系。此结果提供了个体认知专注对虚拟社区参与关系的精确估计,并能为未来个体认知专注与虚拟社区参与的相关研究及元分析的应用提供参考。
2018 Vol. 37 (2): 161-171 [摘要] ( 226 ) HTML (1 KB)  PDF (462 KB)  ( 1044 )
情报分析方法与技术
172 基于情报3.0工作思路的自动简报系统设计与实现
刘如, 张惠娜, 杜丽萍, 李梦辉, 吴晨生
DOI: 10.3772/j.issn.1000-0135.2018.02.006
自动简报系统使情报服务更加实时、精准、个性化,它不但能及时将有价值的情报信息可视化展现,还支持管理者日常的决策、连接情报部门与决策层的交流,对提高情报3.0服务质量有着重要的作用和意义。本文通过设计基于情报3.0工作思路的自动简报系统框架,构建了自动简报的管理系统、定义了自动简报模型ABM,描述了自动生成的路径,并通过科技文献简报实例研究,总结出了情报3.0工作思路下,自动简报的服务范式。
2018 Vol. 37 (2): 172-182 [摘要] ( 303 ) HTML (1 KB)  PDF (1772 KB)  ( 972 )
183 多维领域知识下的《诗经》自动分词研究
王姗姗, 王东波, 黄水清, 何琳
DOI: 10.3772/j.issn.1000-0135.2018.02.007
《诗经》位居古文经学派“五经”之首,蕴含丰富。随着人文计算的广泛应用,本文结合《汉学引得丛刊》中《毛诗引得》的领域知识,采用机器学习的方法研究《诗经》的自动分词。基于《诗经》手工分词的语料,采用《广韵》字表和统计分析相结合的方法,得到23组融合不同特征知识的特征模板,训练产生机器学习分词模型。对每个分词模型进行性能测试,分析发现词性特征对《诗经》分词效果的影响最大,且分词模型的调和平均值F值最高可达到97.42%。最后,采用《毛诗引得》领域词表对测试性能最佳的分词模型进行长词校正的模型后处理,得到了融合《毛诗引得》专家词汇知识的《诗经》分词语料。本文融入多维领域知识实现《诗经》自动分词的研究模式不仅对先秦诗歌体的相关研究起借鉴意义,而且对先秦典籍的自动分词研究具有启发性,《诗经》分词语料作为先秦典籍语料库的一部分,对进一步实现先秦典籍的知识挖掘有较强的辅助作用。
2018 Vol. 37 (2): 183-193 [摘要] ( 283 ) HTML (1 KB)  PDF (872 KB)  ( 747 )
194 结合LSTM和CNN混合架构的深度神经网络语言模型
王毅, 谢娟, 成颖
DOI: 10.3772/j.issn.1000-0135.2018.02.008
语言模型是自然语言处理研究中的基础性工作,是计算机识别与理解自然语言的桥梁,是人工智能学科的前沿及热点课题。其在语音识别、机器翻译、信息检索和知识图谱等领域都有着广泛的应用。至今,语言模型已经历了从统计模型、神经网络模型到深度神经网络模型的衍化。随着深度学习技术的广泛应用,采用大规模的数据集、复杂的模型以及高昂的训练代价成为语言模型建模的特点。本文通过模型输入拟人化、卷积神经网络(convolutional neural network)编码以及融合门机制并结合长短时记忆单元(long short-term memory,LSTM)优化了语言模型,提出了结合LSTM和CNN混合架构的深度神经网络语言模型(Gated CLSTM)。利用深度学习框架Tensorflow实现了Gated CLSTM。实验环节还采用了负采样及循环投影层等经典的优化技术,在包含近十亿个英文单词的通用数据集(one billion word benchmark)下测试了模型的性能,分别训练了单层模型和三层模型,以观察网络深度对性能的影响。结果显示,在四个GPU的单机环境下,单层模型经过4天的训练,将模型混淆度(perplexity)降低至42.1;三层模型经过6天的训练后将混淆度降低至33.1;与多个典型的基准模型相比,综合硬件、时间复杂度以及混淆度三个指标,Gated CLSTM获得了明显的改进。
2018 Vol. 37 (2): 194-205 [摘要] ( 207 ) HTML (1 KB)  PDF (1368 KB)  ( 3600 )
206 融合百度指数的流感预测机理与实证研究
王若佳
DOI: 10.3772/j.issn.1000-0135.2018.02.009
本文通过挖掘网络搜索数据与我国流感疫情的在内在机理,利用关键词的时序特征实现了较为精准的提前预测。研究首先从信息行为、信息搜寻行为等理论概念出发,对百度指数与流感病例数据之间的逻辑关系进行探讨,建立理论框架;然后以理论框架为基础,用范围选词法对百度搜索词进行初步筛选,并利用互相关分析选出具有先行性质的关键词,用于构建预测模型;最后,对比融合百度指数的三种预测模型,评估其预测效果。互相关分析结果大致符合本文提出的逻辑框架,可提前十周预测流感疫情的关键词内容和流感疫苗相关;提前一周的关键词多涉及流感的症状表现;而同步类关键词多为常用搜索词或治疗方法。模型对比结果显示,多元线性回归模型、支持向量机模型和神经网络模型都能有效地进行流感预测,无论提前十周还是提前一周,支持向量机的效果最好。
2018 Vol. 37 (2): 206-219 [摘要] ( 311 ) HTML (1 KB)  PDF (1489 KB)  ( 2253 )
研究进展与文献综述
220 搜索引擎结果页面(SERP)研究述评
吴丹, 唐源
DOI: 10.3772/j.issn.1000-0135.2018.02.010
本文以国外会议、期刊发表的有关搜索引擎结果页面研究文献为对象,采用综合归纳的方法,分析该领域研究进展。研究发现:一方面,在搜索引擎结果页面的设计布局上,现代搜索聚合各类型信息资源,搜索结果页面呈现垂直化、多样化特征,新型页面元素的嵌入影响用户对结果页面的满意度、关注、体验和评价;另一方面,利用用户在搜索结果页面的行为数据,包括眼球、光标、手势、声学等各类交互数据,可以分析用户在搜索结果页面的关注点和注意力分布特征,建立用户注意力预测模型,实现对用户意图、注意力、结果偏向的预测。未来趋势包括:搜索引擎结果页面设计研究扩展到语音交互、社交网络等领域,更全面的交互数据将支持用户搜索行为建模和注意力预测。
2018 Vol. 37 (2): 220-230 [摘要] ( 180 ) HTML (1 KB)  PDF (1736 KB)  ( 943 )