带摘要目录

2019年 第38卷 第4期
刊出日期:2019-04-28

情报理论与应用
情报分析方法与技术
研究进展与文献综述
情报用户与行为研究
情报理论与应用
335 基于加权网络链路预测的新兴技术主题识别研究 Hot!
黄璐, 朱一鹤, 张嶷
DOI: 10.3772/j.issn.1000-0135.2019.04.001
随着新一轮科技革命和产业变革的加速演进,新兴技术识别成为影响一个国家和地区未来发展战略的重要议题。本文基于德温特专利数据,引入复杂网络链路预测方法与神经网络算法构建动态预测新兴技术发展网络的方法体系,并围绕新颖性与影响力两个维度识别新兴技术主题。同时,应用钙钛矿材料领域相关数据进行实证分析,验证了本文新兴技术主题识别方法的可行性与有效性。
2019 Vol. 38 (4): 335-341 [摘要] ( 103 ) HTML (107 KB)  PDF (980 KB)  ( 718 )
342 多指标视角下的图书情报类预印本影响力评价 Hot!
陈悦, 王智琦, 刘则渊, 宋超
DOI: 10.3772/j.issn.1000-0135.2019.04.002
以图书情报领域的550篇arXiv论文和5782篇non-arXiv论文(2005—2017年)为主要分析对象,运用文献计量学理论与方法,从引用度和关注度两个层面对论文的影响力进行比较分析。研究结果表明,arXiv论文在Web of Science(WoS)、Scopus和Google Scholar数据库中均具有显著的引用优势;关注度优势主要体现在Mendeley读者数上,其在WoS使用量和Twitter转载量上表现并不明显;补充计量指标的发展有利于推动学术资源的开放获取,预印本的Mendeley读者数和WoS使用量均与被引量显著相关,但前者的适用性和可靠性更高。本文的研究结果揭示了图书情报预印本在科学发展和交流中的作用和地位,为构建一个更加完善的、适用于当今不同交流模式和交流载体的“多指标”评价体系提供了启示。
2019 Vol. 38 (4): 342-353 [摘要] ( 91 ) HTML (173 KB)  PDF (1799 KB)  ( 428 )
354 人文社科数据共享模型的设计与实现——以联盟链技术为例 Hot!
谷俊, 许鑫
DOI: 10.3772/j.issn.1000-0135.2019.04.003
大数据环境下,人文社科领域的研究逐渐向以数据为驱动的新型研究模式转型,对数据共享的需求愈发明显。针对传统的人文社科数据共享存在的溯源能力较弱、数据用途无法追踪等问题,利用区块链的数据记录机制,选用Hyperledger Fabric区块链框架作为联盟链的基础,并对区块的数据存储方式进行了改写,通过CA认证、预提交、验证反馈、区块打包广播、账本数据库更新等流程的设计,构建了人文社科数据共享联盟链模型,并通过对Dataverse开源数据管理软件的二次开发,设计并实现了人文社科数据共享联盟平台。实践证明,基于区块链的人文社科数据共享模型,不仅可以在技术层面解决传统数据贡献中存在的问题,促进数据共享的发展,而且基于Hyperledger Fabric框架的联盟链机制运行效率也达到了预期的标准。
2019 Vol. 38 (4): 354-367 [摘要] ( 97 ) HTML (129 KB)  PDF (3336 KB)  ( 605 )
368 基于Ye模型的文献老化的实证研究 Hot!
陈京莲, 叶子飘
DOI: 10.3772/j.issn.1000-0135.2019.04.004
从文献的载文量或主题词的被引频次可以获得一个学术领域兴起与发展的详细信息。本文首次尝试将Ye模型引入主题词被引频次以及相对应的发文量增长规律的研究中,探索主题词被引频次以及相对应的载文量对时间的响应关系。利用Web of Science数据库检索期刊Physical Review D(IF=4.56)之1985—1990年、1991—1996年、2000—2005年和2006—2011年4个时段的载文量和被引频次以及主题词“石墨烯(graphene)”在2005年、2008年和2010年3个时段的载文量和被引频次,并用Ye模型分段拟合这些数据。结果表明,Ye模型可以很好地拟合该期刊4个时段文献的被引频次对时间的响应曲线,得到的引文峰值和最大引文年限与观测值高度符合。此外还发现随着该期刊发文量和文献被引频次的增加,最大引文年限越来越小;负指数模型不能很好地拟合该期刊1985—1990年和1991—1996年2个时段文献被引频次随时间增加而下降这段响应曲线,但可以较好地拟合2000—2005年和2006—2011年2个时段文献被引频次对时间的响应曲线。用逻辑斯蒂模型拟合该期刊4个时段文献被引频次对时间响应曲线的上升部分时发现,由该模型得到的引文峰值低于观测值。同时Ye模型还可以非常好地拟合主题词“石墨烯(graphene)”在2005年、2008年和2010年3个时段的被引频次对时间的响应曲线,并且发现最大引文年限越来越小这种变化趋势,而由逻辑斯蒂模型拟合得到的响应曲线与观测值之间存在较大的差异。
2019 Vol. 38 (4): 368-376 [摘要] ( 71 ) HTML (116 KB)  PDF (1122 KB)  ( 398 )
情报分析方法与技术
377 基于Scopus数据库的Altmetrics指标与引文计量对比分析 Hot!
秦奋, 高健
DOI: 10.3772/j.issn.1000-0135.2019.04.005
本文选取ESI图情领域高被引论文作为数据源,通过运用SPSS软件,对比分析Altmetric.com数值、ESI引用量及Scopus数据库提供的Altmetrics指标,以期得到指标之间的相关性和差异性。分析结果表明,Altmetrics和引用量并无显著相关性,各自研究角度也不同,因此,将两者相结合作为学术评价的方法具有合理性。
2019 Vol. 38 (4): 377-383 [摘要] ( 78 ) HTML (99 KB)  PDF (759 KB)  ( 401 )
384 基于机器视觉的PDF学术文献结构识别 Hot!
于丰畅, 陆伟
DOI: 10.3772/j.issn.1000-0135.2019.04.006
PDF格式在电子学术文献出版发行领域占有极其重要的地位,但因其复杂的技术规则,使得PDF无法直接被机器阅读,给针对学术文献的研究工作造成了诸多不便。本文提出了一种基于机器视觉的PDF文档结构识别方法,该方法针对常见的PDF学术论文,将PDF文件中的视觉对象和文本对象进行映射,获得内容对象的几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到PDF文档的物理结构和逻辑结构。该方法以直观的方式克服了其他PDF解析方法需要大量人工特征构建或大规模语料训练、难以识别公式表格等缺点,并成功地对ACL(Association for Computational Linguistics)的论文集进行了结构识别和全文抽取。
2019 Vol. 38 (4): 384-390 [摘要] ( 95 ) HTML (77 KB)  PDF (1505 KB)  ( 451 )
391 基于专利异构网络的中小企业潜在合作伙伴研究——以石墨烯领域为例 Hot!
傅俊英, 彭喆, 郑佳, 袁芳, 李秾
DOI: 10.3772/j.issn.1000-0135.2019.04.007
中小企业的技术创新能力已经成为一个国家创新体系中不可缺少的重要部分。美国对中小企业的相关扶持措施非常全面,鼓励中小企业通过从非营利性科研机构以及大型企业那里获取外部合作来帮助自身发展。本研究通过测度专利之间的相似性来度量专利权人之间的技术相似性,利用美国专利授权库中石墨烯专利数据构建专利异构网络,根据PathSelClus算法的需要,从专利权人中选出了7家科研机构与5家大型企业作为用户指导的聚类依据,根据专利单一属性信息与综合利用专利的多种属性信息聚类依据得到两种不同语义的聚类结果,在同一聚簇中的中小企业被认为与该科研机构(大型企业)存在技术相似性,具有合作的潜力。最后选出20家该领域中小企业代表,通过对中小企业与科研院所已有合作的调查以及中小企业与大型企业的主要关注领域进行对比,发现部分中小企业与科研机构之间存在过合作关系,同时中小企业与大型企业也有相同的主要关注领域,表明基于专利信息构建异构网络后利用PathSelClus算法对专利权人进行聚类的方法,在一定程度上对评估潜在合作伙伴是有效的。
2019 Vol. 38 (4): 391-401 [摘要] ( 113 ) HTML (133 KB)  PDF (12216 KB)  ( 247 )
402 基于机器学习模型的专利质量预测初探 Hot!
刘夏, 黄灿, 余骁锋
DOI: 10.3772/j.issn.1000-0135.2019.04.008
随着专利数量的迅速增长,如何预测专利质量,已成为企业、政府以及学术界越发关注的问题。传统的统计分析方法虽然对专利质量评估进行了多方面探索,却较少对专利质量进行预测,尤其是充分利用到专利数据的海量样本和持续更新的优势。本文以2010—2011年国家知识产权局受理的共计85万余件专利申请为研究对象,抓取申请文档中以及相关引文的特征信息,搭建完整的随机森林模型,对后续被引情况进行机器学习及预测。除此之外,随机森林对特征重要性的评估结果显示,专利的向前引证专利的特征比该专利本身的特征对后续引证的预测提供了更多有效信息,进一步显示出专利审查中对前引专利检索工作的重要性。同时,文章结尾指出了本文模型的局限性以及今后借助机器学习对专利预测的改进方法。
2019 Vol. 38 (4): 402-410 [摘要] ( 85 ) HTML (122 KB)  PDF (882 KB)  ( 476 )
情报用户与行为研究
411 融合用户兴趣和混合估计的微博检索模型 Hot!
吴树芳, 张雄涛, 朱杰
DOI: 10.3772/j.issn.1000-0135.2019.04.009
随着移动互联技术的进一步发展,微博检索已成为微博服务的重要组成部分。考虑到微博检索与传统文本检索的不同,提出一个改进的微博检索模型。新模型对传统查询似然模型中的文档先验概率和文档语言模型估计进行了改进。在文档先验概率方面,通过量化用户对博文的兴趣获得用户的兴趣博文库,并在兴趣博文库的基础上计算微博先验概率,使得符合检索用户兴趣的微博具有较高的先验概率;在文档语言模型估计方面,混合内容及用户交互两方面信息获得微博的相关文档集,并将其作为平滑项实现对微博文档语言模型的混合估计,有效缓解了微博短文本的数据稀疏问题。实验采用从新浪微博爬取的真实数据对研究内容的有效性进行验证,结果表明与现有研究中较好的改进查询似然模型相比,新模型在P@15、P@30和MRR上均有一定提高。
2019 Vol. 38 (4): 411-419 [摘要] ( 96 ) HTML (186 KB)  PDF (2589 KB)  ( 401 )
420 面向视觉感知的图像情感识别及其在推荐系统中的应用 Hot!
陈芬, 何源, 汤丽萍
DOI: 10.3772/j.issn.1000-0135.2019.04.010
视觉信息是人们获取外界信息的重要来源。作为视觉信息的主要表现形式之一,图像受到了广泛关注。本文首先针对颜色直方图忽略空间信息的问题,基于图像分块思想,利用图像区域不同、引起的关注程度不同的原理,引入Itti视觉注意模型,进行图像显著图的提取,基于显著图计算各分块的加权直方图。其次,根据视觉感知理论,提取多种图像情感信息特征,结合低层的颜色、纹理和形状特征以及高层的面部表情特征,生成复合的图像情感特征描述向量。最后,将本文提出的情感识别模型用于基于情感的电影推荐,结合电影海报及剧情简介文本,进行基于图文结合的电影情感识别,为用户推荐符合其情感需求的电影。本文通过融合基于心理认知的特征及面部表情等诸多特征,实现了更加完善的视觉情感描述,在一定程度上缩小了“语义鸿沟”。
2019 Vol. 38 (4): 420-431 [摘要] ( 111 ) HTML (161 KB)  PDF (24394 KB)  ( 315 )
研究进展与文献综述
432 查询推荐研究综述 Hot!
张晓娟, 彭琳, 李倩
DOI: 10.3772/j.issn.1000-0135.2019.04.011
查询推荐是一种提高用户搜索效率的重要技术,其核心任务是帮助用户构造有效查询并以此准确描述用户信息需求。作为当今搜索引擎的核心技术之一,查询推荐吸引了学术界和工业界的广泛关注,一直以来都是信息检索领域中重要的研究主题。本文以国内外会议、期刊发表的有关查询推荐研究的文献为对象,利用归纳总结方法,首先详细梳理了查询推荐中主流方法——基于简单共现信息的方法、基于图模型的方法以及融合多种信息的方法,然后总结评述了评测方法与指标,最后分析了未来可能的研究方向。
2019 Vol. 38 (4): 432-446 [摘要] ( 70 ) HTML (252 KB)  PDF (1399 KB)  ( 415 )