基于CLIP-LDAGV 多模态信息融合的颠覆性技术主题识别研究——以新能源领域为例
吕鲲1,2 , 张未旭3 , 靖继鹏4
1.宁波大学商学院,宁波 315211 2.宁波大学“商帮经济与文化”智能计算实验室,宁波 315211 3.国防科技大学计算机学院,长沙 410073 4.吉林大学商学与管理学院,长春 130012
Research on Disruptive Technology Topic Recognition Based on CLIP-LDAGV Multimodal Information Fusion — A Case Study of the New Energy Field
Lyu Kun1,2 , Zhang Weixu3 , Jing Jipeng4
1.Business School, Ningbo University, Ningbo 315211 2.Merchants’ Guild Economics and Cultural Intelligent Computing Laboratory of Ningbo University, Ningbo 315211 3.College of Computer, National University of Defense Technology, Changsha 410073 4.School of Business and Management, Jilin University, Changchun 130012
摘要 当前,全球科技创新呈现高速发展和高度融合的态势。准确识别出颠覆性技术主题以推动全面创新已成为科学技术发展和经济增长的关键动力。然而,传统的颠覆性技术主题识别方法主要依赖于单一模态数据,存在一定的局限性。本文基于CLIP(contrastive language-image pre-training)和LDAGV(linear discriminant analysis & global vectors for word representation)模型构建新闻文本与图像特征融合向量,通过k -means聚类迭代并结合3个颠覆性技术主题指标进行筛选,实现了多模态信息的融合以及主题的精准识别。以新能源领域为例,验证了该模型在颠覆性技术主题识别方面的可行性和有效性。与其他单一模态模型相比,多模态信息融合模型在颠覆性技术主题识别方面更具优势。
关键词 :
颠覆性技术 ,
主题识别 ,
多模态融合 ,
CLIP-LDAGV模型
收稿日期: 2024-07-08
基金资助: 国家社会科学基金青年项目“‘双碳’目标下‘技术-经济-区域’信息融合的创新生态系统构建及其协同演化研究”(22CTQ028)。
作者简介 : 吕鲲,男,1988年生,博士,副教授,硕士生导师,主要研究领域为信息分析与技术创新;张未旭,男,2003年生,硕士研究生,主要研究领域为数据挖掘与分析;靖继鹏,通信作者,男,1942年生,教授,博士生导师,主要研究领域为情报理论方法,E-mail:351941281@qq.com;
1 中国科学院颠覆性技术创新研究组. 颠覆性技术创新研究: 能源领域[M]. 北京: 科学出版社, 2023: 1-2. 2 霍朝光, 卢小宾, 杨冠灿, 等. 数据驱动的产业技术情报分析方法体系框架构建[J]. 图书情报知识, 2022, 39(1): 73-83. 3 苏鹏, 苏成, 潘云涛. 颠覆性技术识别方法发展现状及启示[J]. 图书情报工作, 2019, 63(20): 129-138. 4 张佳维, 董瑜. 颠覆性技术识别指标的研究进展[J]. 情报理论与实践, 2020, 43(6): 194-199, 193. 5 Nagy D, Schuessler J, Dubinsky A. Defining and identifying disruptive innovations[J]. Industrial Marketing Management, 2016, 57: 119-126. 6 刘安蓉, 李莉, 曹晓阳, 等. 颠覆性技术概念的战略内涵及政策启示[J]. 中国工程科学, 2018, 20(6): 7-13. 7 Paap J, Katz R. Anticipating disruptive innovation[J]. IEEE Engineering Management Review, 2004, 32(4): 74-85. 8 Dan Y, Chieh H C. A reflective review of disruptive innovation theory[C]// Proceedings of the 2008 Portland International Conference on Management of Engineering & Technology. Piscataway: IEEE, 2008: 402-414. 9 王志勇, 党晓玲, 刘长利, 等. 颠覆性技术的基本特征与国外研究的主要做法[J]. 国防科技, 2015, 36(3): 14-17, 22. 10 李乾瑞, 郭俊芳, 黄颖, 等. 基于专利计量的颠覆性技术识别方法研究[J]. 科学学研究, 2021, 39(7): 1166-1175. 11 Christensen C M. The innovator’s dilemma: when new technologies cause great firms to fail[M]. Boston: Harvard Business School Press, 1997: 1-179. 12 李晓龙, 鲁平, 李存斌. 基于Delphi和DEMATEL法影响国网的颠覆性创新技术影响因素综合排序分析[J]. 科技管理研究, 2017, 37(6): 127-133. 13 孙永福, 王礼恒, 孙棕檀, 等. 引发产业变革的颠覆性技术内涵与遴选研究[J]. 中国工程科学, 2017, 19(5): 9-16. 14 卢小宾, 朱庆华, 查先进, 等. 信息分析导论[M]. 武汉: 武汉大学出版社, 2020. 15 卢小宾, 霍帆帆, 王壮, 等. 数智时代的信息分析方法: 数据驱动、知识驱动及融合驱动[J]. 中国图书馆学报, 2024, 50(1): 29-44. 16 冯立杰, 秦浩, 王金凤, 等. 融合专利数据与社交媒体数据的潜在颠覆性技术识别——基于深度学习模型[J]. 情报学报, 2024, 43(2): 181-197. 17 马永红, 孔令凯, 林超然, 等. 基于异构数据的颠覆性技术识别研究——以智能制造装备领域为例[J]. 现代情报, 2022, 42(7): 92-104. 18 吕鲲, 项旻昊, 靖继鹏. 基于LDA2vec和DTM模型的颠覆性技术主题识别研究——以能源科技领域为例[J]. 图书情报工作, 2023, 67(12): 89-102. 19 李牧南, 赖华鹏, 王良, 等. 基于主题强度突变检测的颠覆性技术识别[J]. 情报杂志, 2023, 42(12): 111-118. 20 Dieng A B, Ruiz F J R, Blei D M. Topic modeling in embedding spaces[J]. Transactions of the Association for Computational Linguistics, 2020, 8: 439-453. 21 Dotsika F, Watkins A. Identifying potentially disruptive trends by means of keyword network analysis[J]. Technological Forecasting and Social Change, 2017, 119: 114-127. 22 陈育新, 李健, 韩毅. 核心—边缘理论视角下的颠覆性技术识别研究[J]. 情报理论与实践, 2022, 45(8): 121-129. 23 Min C, Bu Y, Sun J J. Predicting scientific breakthroughs based on knowledge structure variations[J]. Technological Forecasting and Social Change, 2021, 164: 120502. 24 Xu H Y, Luo R, Winnink J, et al. A methodology for identifying breakthrough topics using structural entropy[J]. Information Processing & Management, 2022, 59(2): 102862. 25 何郁冰, 林欣慧. 基于复杂网络演化博弈的颠覆性技术扩散研究[J]. 软科学, 2024, 38(6): 28-36. 26 龚志, 邵曦. 基于多模态的音乐推荐系统[J]. 南京信息工程大学学报(自然科学版), 2019, 11(1): 68-76. 27 Shorten C, Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(1): Article No.60. 28 穰雨辰, 马静. 基于图像字幕的多模态对齐情感分析模型[J]. 数据分析与知识发现, 2025, 9(1): 100-109. 29 陈巧红, 孙佳锦, 漏杨波, 等. 基于多任务学习与层叠Transformer的多模态情感分析模型[J]. 浙江大学学报(工学版), 2023, 57(12): 2421-2429. 30 强子珊, 顾益军. 基于多模态异质图的社交媒体谣言检测模型[J]. 数据分析与知识发现, 2023, 7(11): 68-78. 31 王壮, 隋杰. 基于多级融合的多模态谣言检测模型[J]. 计算机工程与设计, 2022, 43(6): 1756-1761. 32 韩普, 叶东宇, 陈文祺, 等. 面向多模态医疗健康数据的知识组织模式研究[J]. 现代情报, 2023, 43(10): 27-34, 151. 33 Pennington J, Socher R, Manning C. GloVe: global vectors for word representation[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2014: 1532-1543. 34 Yang L B, Cai X Y, Pan S R, et al. Multi-document summarization based on sentence cluster using non-negative matrix factorization[J]. Journal of Intelligent & Fuzzy Systems, 33(3): 1867-1879. 35 王秀红, 高敏. 基于BERT-LDA的关键技术识别方法及其实证研究——以农业机器人为例[J]. 图书情报工作, 2021, 65(22): 114-125. 36 王海军, 于佳文. 基于专利发展路径的颠覆性技术识别: 以智能语音领域为例[J]. 科技管理研究, 2022, 42(6): 170-181. 37 黄鲁成, 蒋林杉, 吴菲菲. 萌芽期颠覆性技术识别研究[J]. 科技进步与对策, 2019, 36(1): 10-17. 38 周萌, 朱相丽. 新兴技术概念辨析及其识别方法研究进展[J]. 情报理论与实践, 2019, 42(10): 162-169. 39 Jia W F, Wang S, Xie Y P, et al. Disruptive technology identification of intelligent logistics robots in AIoT industry: based on attributes and functions analysis[J]. Systems Research and Behavioral Science, 2022, 39(3): 557-568. 40 谭晓, 西桂权, 苏娜, 等. 科学—技术—项目联动视角下颠覆性技术识别研究[J]. 情报杂志, 2023, 42(2): 82-91. 41 Verhoeven D, Bakker J, Veugelers R. Measuring technological novelty with patent-based indicators[J]. Research Policy, 2016, 45(3): 707-723. 42 Shane S. Technological opportunities and new firm creation[J]. Management Science, 2001, 47(2): 205-220. 43 Khattar D, Goud J S, Gupta M, et al. MVAE: multimodal variational autoencoder for fake news detection[C]// Proceedings of the World Wide Web Conference. New York: ACM Press, 2019: 2915-2921. 44 Liu Z, Shen Y, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2018: 2247-2256. 45 倪亮, 吴鹏, 周雪晴. 基于深度学习的多模态新闻数据主题发现研究[J]. 数据分析与知识发现, 2024, 8(3): 85-97.
[1]
王益成, 蒋星宇, 秦晴, 刘雨农, 郑彦宁. 基于投融资事件的技术主题识别研究 [J]. 情报学报, 2025, 44(2): 234-245.
[2]
王康, 陈悦, 王玉奇, 韩盟. 颠覆性技术识别与扩散趋势预测:概念模型与实证分析 [J]. 情报学报, 2024, 43(8): 899-913.
[3]
郑德俊, 程为. 基于三维主题特征测度的新兴主题识别研究 [J]. 情报学报, 2024, 43(2): 167-180.
[4]
冯立杰, 秦浩, 王金凤, 刘鹏, 仵轩, 张芷芯. 融合专利数据与社交媒体数据的潜在颠覆性技术识别——基于深度学习模型 [J]. 情报学报, 2024, 43(2): 181-197.
[5]
宋凯, 陈悦. 技术主题动态演化分析的一种新方法:DPL-BMM 模型 [J]. 情报学报, 2024, 43(1): 25-33.
[6]
王曰芬, 王柳虹, 巴志超, 岑咏华, 王琦. 政府科技新闻中科技成果转化的主题识别与时空扩散分析 [J]. 情报学报, 2023, 42(8): 939-951.
[7]
许海云, 王超, 陈亮, 徐硕, 杨冠灿, 朱礼军. 颠覆性技术的科学- 技术- 产业互动模式识别与分析 [J]. 情报学报, 2023, 42(7): 816-831.
[8]
梁镇涛, 毛进, 李纲. 融合“科学-技术”知识关联的高颠覆性专利预测方法 [J]. 情报学报, 2023, 42(6): 649-662.
[9]
窦永香, 开庆, 王佳敏. 一种基于图表示学习的潜在颠覆性技术识别方法 [J]. 情报学报, 2023, 42(6): 637-648.
[10]
王震宇, 朱学芳. 基于多模态Transformer 的虚假新闻检测研究 [J]. 情报学报, 2023, 42(12): 1477-1486.
[11]
刘俊婉, 庞博, 徐硕. 基于弱信号的颠覆性技术早期识别研究 [J]. 情报学报, 2023, 42(12): 1395-1411.
[12]
周波, 冷伏海. 演绎逻辑与归纳逻辑视角下的颠覆性技术识别方法研究述评 [J]. 情报学报, 2022, 41(9): 980-990.
[13]
王超, 马铭, 王海燕, 夏冬, 许海云. 生命周期视角下颠覆性技术的扩散特征研究 [J]. 情报学报, 2022, 41(8): 845-859.
[14]
孙佳佳, 李雅静. 基于关键词价值细分的高价值热点主题识别方法研究 [J]. 情报学报, 2022, 41(2): 118-129.
[15]
陈育新, 卢俊, 韩毅. 基于专利文献的颠覆性技术识别研究 [J]. 情报学报, 2022, 41(11): 1124-1133.