多源信息融合用于新兴技术发展趋势识别——以区块链为例
张维冲1,2 , 王芳1,3 , 赵洪1,2
1.南开大学商学院信息资源管理系,天津 300071 2.中电科大数据研究院有限公司,贵阳 550081 3.南开大学网络社会治理研究中心,天津;300071
Multi-source Information Fusion Analysis for Emerging Technology Development Trend Identification, Using Blockchain as an Example
Zhang Weichong1,2 , Wang Fang1,3 , Zhao Hong1,2
1.Department of Information Resources Management, Business School, Nankai University, Tianjin 300071 2.CEC Data Research Institute Co., Ltd. Guiyang 550081 3.The Center for Network Society Governance, Nankai University, Tianjin 300071
摘要 科技文献不断丰富,成为十分有价值的计量分析数据。对不同来源、不同类型科技文献的信息融合分析,能为全面揭示新兴技术的发展现状及趋势提供有力的情报支撑。从多源异构数据中有效获取主题是多源信息融合中解决“主题”计量实体问题的一项技术难点。本文面向专利、期刊论文、学位论文、会议论文、图书、基金项目、行业报告共7种不同的科技文献类型,提出了基于摘要的主题解析方法,从多源异构文本中获取主题词,并进行数据融合与主题关联分析,在处理效果和效率上都取得不错的效果,为该问题的解决提供了参考。实验部分以区块链为例,在数据融合的基础上分别进行时序性关联分析和主题关联分析,以揭示区块链技术的发展情况。结果显示,本文所提方法有效地揭示了区块链技术创新在科技文献中的产生过程、主题扩散和演化轨迹。
关键词 :
多源数据 ,
信息融合 ,
主题关联 ,
新兴技术 ,
区块链
收稿日期: 2019-05-17
基金资助: 提升政府治理能力大数据应用技术国家工程实验室2017—2018年度开放基金重点支持项目“基于NLP和深度学习的大规模政府公文智能处理技术研究”(HX20180069)。
作者简介 : 张维冲,男,1991年生,博士研究生,主要研究方向为知识发现、科学计量学
1 化柏林, 武夷山. 多“源”信息需要多“方”融合[J]. 情报学报, 2013, 32(3): 225. 2 XuW H, YuJ H. A novel approach to information fusion in multi-source datasets: A granular computing viewpoint[J]. Information Sciences, 2017, 378: 410-423. 3 郑彦宁, 刘志辉, 赵筱媛, 等. 基于多源信息与多元方法的产业竞争情报分析范式[J]. 情报学报, 2013, 32(3): 228-234. 4 化柏林, 李广建. 大数据环境下多源信息融合的理论与应用探讨[J]. 图书情报工作, 2015, 59(16): 5-10. 5 KhaleghiB, KhamisA, KarrayF O, et al. Multisensor data fusion: A review of the state-of-the-art[J]. Information Fusion, 2013, 14(1): 28-44. 6 化柏林. 多源信息融合方法研究[J]. 情报理论与实践, 2013, 36(11): 16-19. 7 KunreutherH C. Wharton on managing emerging technologies[M]. Chichester: John Wiley & Sons, 2004. 8 李欣, 谢前前, 洪志生, 等. 基于社会感知分析的新兴技术发展趋势研究——以钙钛矿太阳能电池技术为例[J]. 科技进步与对策, 2018, 35(10): 15-24. 9 袁勇, 王飞跃. 区块链技术发展现状与展望[J]. 自动化学报, 2016, 42(4): 481-494. 10 吕晨, 张旭, 赵蕴华, 等. 新兴技术选择方法研究[J]. 科技管理研究, 2012, 32(23): 228-231. 11 LiX, ZhouY, XueL, et al. Integrating bibliometrics and roadmapping methods: A case of dye-sensitized solar cell technology-based industry in China[J]. Technological Forecasting and Social Change, 2015, 97: 205-222. 12 GuoJ F, WangX F, LiQ R, et al. Subject-action-object-based morphology analysis for determining the direction of technological change[J]. Technological Forecasting and Social Change, 2016, 105: 27-40. 13 惠国保. 一种基于深度学习的多源异构数据融合方法[J]. 现代导航, 2017, 8(3): 218-223. 14 赵杰, 崔智社, 徐明进, 等. 信息融合的实质及其核心技术[J]. 情报指挥控制系统与仿真技术, 2003, 25(8): 38-42. 15 祝振媛, 李广建. “数据—信息—知识”整体视角下的知识融合初探——数据融合、信息融合、知识融合的关联与比较[J]. 情报理论与实践, 2017, 40(2): 12-18. 16 许海云, 董坤, 隗玲, 等. 科学计量中多源数据融合方法研究述评[J]. 情报学报, 2018, 37(3): 318-328. 17 于洪, 何德牛, 王国胤, 等. 大数据智能决策[J/OL]. 自动化学报, 2019, http://kns.cnki.net/kcms/detail/11.2109.TP.20190422.1029.008.html. 18 MorrisS A, YenG G. Construction of bipartite and unipartite weighted networks from collections of journal papers[OL]. https://arxiv.org/pdf/physics/0503061.pdf. 19 许海云, 董坤, 刘春江, 等. 文本主题识别关键技术研究综述[J]. 情报科学, 2017, 35(1): 153-160. 20 武华维, 罗瑞, 许海云, 等. 科学技术关联视角下的创新演化路径识别研究述评[J]. 情报理论与实践, 2018, 41(8): 137-143. 21 朱军文, 刘念才. 科研评价: 目的与方法的适切性研究[J]. 北京大学教育评论, 2012, 10(3): 47-56, 188. 22 张娴, 方曙, 肖国华, 等. 专利文献价值评价模型构建及实证分析[J]. 科技进步与对策, 2011, 28(6): 127-132. 23 国家自然科学基金委员会. 2019项目指南[EB/OL]. [2019-03-03]. http://www.nsfc.gov.cn/nsfc/cen/xmzn/2019xmzn/index.html. 24 大为公司. 大为专利搜索引擎[EB/OL]. [2019-03-04]. http://www.innojoy.com/. 25 国家图书馆. 国家图书馆馆藏目录查询系统[EB/OL]. [2019-03-05]. http://opac.nlc.cn/F/K7VJVUHEJJYJ3CCRNHSQE8SE7 CY39TCH24IC8GAXCU1A7I645M-07979?func=find-b-0. 26 LetPub. 自科基金查询LetPub最新科学基金结果查询系统[EB/OL]. [2019-03-01]. http://www.letpub.com.cn/index.php?page=grant. 27 国家社科基金. 国家社科基金项目数据库[EB/OL]. [2019-02-17]. http://fz.people.com.cn/skygb/sk/. 28 nance/blockchain. 29 国家图书馆. 中国政府公开信息整合服务平台[EB/OL]. [2019-02-17]. http://govinfo.nlc.cn/lmzz/index_4602.html?new=1. 30 中国互联网数据资讯中心. 微信指数[EB/OL]. [2019-02-18]. http://www.199it.com/wechat_index. 31 MehtaP, MajumderP. Effective aggregation of various summarization techniques[J]. Information Processing & Management, 2018, 54(2): 145-158. 32 傅瑶, 孙玉涛, 刘凤朝. 美国主要技术领域发展轨迹及生命周期研究——基于S曲线的分析[J]. 科学学研究, 2013, 31(2): 209-216. 33 马天旗. 专利分析——方法、图表解读与情报挖掘[M]. 北京: 知识产权出版社, 2015. 34 从中文文本中自动提取关键词和摘要[EB/OL]. [2019-01-20]. https://github.com/letiantian/TextRank4ZH. 35 WenY J, YuanH, ZhangP Z. Research on keyword extraction based on word2vec weighted TextRank[C]// Proceedings of the 2nd IEEE International Conference on Computer and Communications. New York: IEEE, 2016. 36 周群, 化柏林. 基于多源数据融合的科技决策需求主题识别研究[J]. 情报理论与实践, 2019, 42(3): 107-113. 37 郑彦宁, 许晓阳, 刘志辉. 基于关键词共现的研究前沿识别方法研究[J]. 图书情报工作, 2016, 60(4): 85-92.
[1]
张俐, 马敏象, 杜军, 谭鹏, 普康晶, 吴斌. 基于文献计量与标引统计的医疗领域区块链技术应用发展趋势研究 [J]. 情报学报, 2021, 40(9): 962-973.
[2]
王晰巍, 张柳, 黄博, 韦雅楠. 基于区块链的网络谣言甄别模型及仿真研究 [J]. 情报学报, 2021, 40(2): 194-203.
[3]
丁晓蔚. 数字金融时代的金融情报学:学科状况、学科内涵和研究方向 [J]. 情报学报, 2021, 40(11): 1176-1194.
[4]
卢小宾, 杨冠灿, 徐硕, 张杨燚. 计量与演化视角下的新兴技术识别研究进展评述 [J]. 情报学报, 2020, 39(6): 651-661.
[5]
郑荣, 杨竞雄, 张薇, 常泽宇. 多源数据驱动的产业竞争情报智慧服务研究 [J]. 情报学报, 2020, 39(12): 1295-1304.
[6]
黄璐, 朱一鹤, 张嶷. 基于加权网络链路预测的新兴技术主题识别研究 [J]. 情报学报, 2019, 38(4): 335-341.
[7]
谷俊, 许鑫. 人文社科数据共享模型的设计与实现——以联盟链技术为例 [J]. 情报学报, 2019, 38(4): 354-367.
[8]
丁晓蔚, 苏新宁. 基于区块链可信大数据人工智能的金融安全情报分析 [J]. 情报学报, 2019, 38(12): 1297-1309.
[9]
刘自强, 许海云, 罗瑞, 董坤, 朱礼军. 基于主题关联分析的科技互动模式识别方法研究 [J]. 情报学报, 2019, 38(10): 997-1011.
[10]
陈云伟. 社会网络分析方法在情报分析中的应用研究 [J]. 情报学报, 2019, 38(1): 21-28.
[11]
章成志, 童甜甜, 周清清. 整合不同评论平台的图书综合影响力评价研究 [J]. 情报学报, 2018, 37(9): 861-873.
[12]
周源, 刘宇飞, 薛澜. 一种基于机器学习的新兴技术识别方法: 以机器人技术为例 [J]. 情报学报, 2018, 37(9): 939-955.
[13]
李瑞茜, 陈向东. 基于专利共类的关键技术识别及技术发展模式研究 [J]. 情报学报, 2018, 37(5): 495-502.
[14]
许海云, 董坤, 隗玲, 王超, 岳增慧. 科学计量中多源数据融合方法研究述评 [J]. 情报学报, 2018, 37(3): 318-328.