基于关键词重要性和近邻传播聚类的主题分析研究
李海林1,2 , 万校基1 , 林春培1
1. 华侨大学工商管理学院,泉州 362021; 2. 华侨大学现代应用统计与大数据研究中心,厦门 361021
Theme Analysis Based on Keyword Importance and Affinity Propagation Clustering
Li Hailin1,2 , Wan Xiaoji1 , Lin Chunpei1
1. College of Business Administration, Huaqiao University, Quanzhou 362021; 2. Research Center of Applied Statistics and Big Data, Huaqiao University, Xiamen 361021
摘要 鉴于传统科学计量方法存在共现分析缺少考虑关键词重要性和主题分析手段不能自适应地抽取核心主题等问题,本文提出一种基于关键词重要性和近邻传播聚类的主题分析方法。该方法依据大多数作者的潜在行为会按照与研究内容相关性的强弱顺序提供论文关键词,计算关键词在每个文献中的重要程度,构建主要关键词之间的相似性矩阵,结合能够反馈最优簇成员代表性结果的近邻传播聚类实现核心主题的提取与分析。本研究对图书情报类某刊物2012-2016年期间的文献关键词进行数据挖掘,使用新方法实现了基于重要性度量的主要关键词聚类,分析和研究了主要关键词和核心主题的演化趋势。提出的方法不仅能够考虑关键词重要性和自动识别核心主题,还可以为文献主题分析提供新的数据挖掘方法,也能有效提高期刊和学科等相关领域的主题识别效果。
关键词 :
主题分析 ,
重要性 ,
近邻传播聚类 ,
核心主题
收稿日期: 2017-12-08
基金资助: 国家自然科学基金项目“高维时间序列数据聚类分析及应用研究”(71771094); 福建省社会科学规划项目“基于时间序列数据挖掘的期刊参考文献和引证文献分析研究”(FJ2017B065)
作者简介 : 李海林,男,1982年生,博士,副教授,主要研究方向为数据挖掘和文献分析,E-mail: hailin@mail.dlut.edu.cn;万校基,男,1984年生,博士,讲师,主要研究方向为文献分析和网络借贷;林春培,男,1985年生,副教授,主要研究方向为创新管理与情报分析。
[1] 郑晓月, 牟冬梅, 琚沅红, 等. 学科知识结构主题演化模式研究——以图书情报学领域“计量学”主题为例[J]. 图书情报工作, 2017, 61(12): 32-41. [2] 李明鑫, 王松. 近十年国内知识图谱研究脉络及主题分析[J]. 图书情报知识, 2016(4): 93-101 [3] 张春博, 王续琨. 主题裂变:科学技术管理学的新走势[J]. 科学学与科学技术管理, 2012, 33(7): 5-11. [4] 唐果媛, 张薇. 基于共词分析法的学科主题演化研究进展与分析[J]. 图书情报工作, 2015, 59(5): 128-136. [5] 刘自强, 王效岳, 白如江. 多维度视角下学科主题演化可视化分析方法研究——以我国图书情报领域大数据研究为例[J]. 中国图书馆学报, 2016, 42(6): 67-84. [6] 方龙, 李信, 黄永, 等. 学术文本的结构功能识别——在关键词自动抽取中的应用[J]. 情报学报, 2017, 36(6): 599-605. [7] 李思志, 李佳骏, 李艳红. 管理科学与工程领域的创新轨迹研究——基于TOP期刊的文献计量和文本挖掘视角[J]. 中国管理科学, 2014, 22(S1): 56-62. [8] 巴志超, 李纲, 朱世伟. 共现分析中的关键词选择与语义度量方法研究[J]. 情报学报, 2016, 35(2): 197-207. [9] 王沙沙, 丰景春, 薛松, 等. 基于知识图谱的PPP研究热点主题分析[J]. 科技管理研究, 2017, 37(17): 167-173. [10] 秦春秀, 祝婷, 赵捧未, 等. 自然语言语义分析研究进展[J]. 图书情报工作, 2014, 58(22): 130-137. [11] 张敏, 罗梅芬, 张艳. 国际文本挖掘研究主题群识别与演化趋势分析[J]. 图书馆学研究, 2017(2): 15-21. [12] 赵京胜, 朱巧明, 周国栋, 等. 自动关键词抽取研究综述[J]. 软件学报, 2017, 28(9): 2431-2449. [13] 李纲, 李轶. 一种基于关键词加权的共词分析方法[J]. 情报科学, 2011, 29(3): 321-324. [14] Frey B J, Dueck D.Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976. [15] 查先进, 张晋朝, 严亚兰, 等. 网络信息行为研究现状及发展动态述评[J]. 中国图书馆学报, 2014, 40(4): 100-115. [16] Guan R C, Shi X H, Marchese M, et al.Text clustering with seeds affinity propagation[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(4): 627-637. [17] Sun L L, Guo C H, Liu C R, et al.Fast affinity propagation clustering based on incomplete similarity matrix[J]. Knowledge and Information Systems, 2017, 51(3): 941-963.