基于天际线算法的主题排序方法研究
万校基1,2 , 李海林1 , 龚燕燕1 , 林海龙1
1.华侨大学工商管理学院,泉州 362021 2.华侨大学东方企业管理研究中心,泉州 362021
Ranking Method of Topic Popularity Based on Skyline Algorithm
Wan Xiaoji1,2 , Li Hailin1 , Gong Yanyan1 , Lin Hailong1
1.College of Business Administration, Huaqiao University, Quanzhou 362021 2.Business Management Research Center, Huaqiao University, Quanzhou 362021
摘要 针对现有主题排序偏主观、高维数据复杂难处理等问题,提出一种基于近邻传播聚类和天际线算法的主题排序方法。结合关键词重要性和近邻传播聚类算法自适应获取文献初始核心主题,借助平均相似性系数进一步对初始主题簇进行二次近邻传播聚类。以簇中心代表关键词的篇均被引量和篇均下载量为主题热度表征指标,利用天际线算法获取主题天际线集合,通过主成分分析法实现主题排序。对中国知网2010—2020年与供应链相关的期刊文献进行数据处理和挖掘时发现,本文提出的新方法可以有效地识别供应链领域研究主题及其热度,不仅可为相关科研人员的科学选题提供指导意见,也可为相关期刊的精准选稿提供决策支持。
关键词 :
主题热度 ,
天际线算法 ,
近邻传播聚类 ,
主成分分析
收稿日期: 2021-07-21
基金资助: 国家自然科学基金项目“高维时间序列数据聚类分析及应用研究”(71771094);福建省社会科学规划项目“基于文献主题时间序列数据挖掘的技术预见研究”(FJ2020B088)。
作者简介 : 万校基,男,1984年生,博士,讲师,主要研究方向为文献主题分析和技术预见;李海林,男,1982年生,教授,博士生导师,主要研究方向为数据挖掘和文献情报分析,E-mail:hailin@hqu.edu.cn;龚燕燕,女,2000年生,本科生,主要研究方向为文献主题分析;林海龙,男,2000年生,本科生,主要研究方向为数据挖;
引用本文:
万校基, 李海林, 龚燕燕, 林海龙. 基于天际线算法的主题排序方法研究[J]. 情报学报, 2022, 41(4): 388-400.
Wan Xiaoji, Li Hailin, Gong Yanyan, Lin Hailong. Ranking Method of Topic Popularity Based on Skyline Algorithm. 情报学报, 2022, 41(4): 388-400.
链接本文:
https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2022.04.006 或 https://qbxb.istic.ac.cn/CN/Y2022/V41/I4/388
1 周耀林, 柴昊, 赵跃. 国际图情领域大数据研究现状与趋势探析[J]. 图书馆杂志, 2019, 38(12): 16-27, 44. 2 胡阿沛, 张静, 雷孝平, 等. 基于文本挖掘的专利技术主题分析研究综述[J]. 情报杂志, 2013, 32(12): 88-92, 61. 3 段现蓉, 赵捧未. 基于共引与共词分析的国内移动商务核心知识与热点识别[J]. 情报科学, 2016, 34(12): 64-69. 4 林涛, 赵璨. 最近邻优化的k-means聚类算法[J]. 计算机科学, 2019, 46(S2): 216-219. 5 刘江华. 一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J]. 情报科学, 2017, 35(2): 16-21, 26. 6 华辉有, 陈启买, 刘海, 等. 一种融合Kmeans和KNN的网络入侵检测算法[J]. 计算机科学, 2016, 43(3): 158-162. 7 Frey B J, Dueck D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976. 8 韦修喜, 黄华娟, 周永权. 基于AP聚类的约简孪生支持向量机快速分类算法[J]. 计算机工程与科学, 2019, 41(10): 1899-1904. 9 李海林, 黄思雨. 时间序列聚类的期刊参考文献与引证文献来源分析研究[J]. 情报科学, 2019, 37(10): 53-59. 10 刘自豪, 张斌, 祝宁, 等. 基于改进AP聚类算法的自学习应用层DDoS检测方法[J]. 计算机研究与发展, 2018, 55(6): 1236-1246. 11 Cui W W, Liu S X, Tan L, et al. TextFlow: towards better understanding of evolving topics in text[J]. IEEE Transactions on Visualization and Computer Graphics, 2011, 17(12): 2412-2421. 12 Blei D M. Probabilistic topic models[J]. Communications of the ACM, 2012, 55(4): 77-84. 13 Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022. 14 李秀霞, 程结晶, 韩霞. 发文趋势与引文趋势融合的学科研究主题优先级排序——以我国情报学学科主题为例[J]. 图书情报工作, 2019, 63(11): 88-95. 15 蒋卓人, 高良才, 赵星, 等. 中英文科技主题排序相关性的比较研究: 以计算机领域为例[J]. 情报学报, 2017, 36(9): 940-953. 16 李海林, 邬先利. 基于时间序列聚类的主题发现与演化分析研究[J]. 情报学报, 2019, 38(10): 1041-1050. 17 Hall D, Jurafsky D, Manning C D. Studying the history of ideas using topic models[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2008: 363-371. 18 朱琳, 关佶红, 周水庚. Skyline计算研究综述[J]. 计算机工程与应用, 2008, 44(6): 160-165. 19 Li M M, Wang H F, Yang L F, et al. Fast hybrid dimensionality reduction method for classification based on feature selection and grouped feature extraction[J]. Expert Systems with Applications, 2020, 150: 113277. 20 李海林, 万校基, 林春培. 基于关键词重要性和近邻传播聚类的主题分析研究[J]. 情报学报, 2018, 37(5): 533-542. 21 邢长征, 刘剑. 基于近邻传播与密度相融合的进化数据流聚类算法[J]. 计算机应用, 2015, 35(7): 1927-1932, 1949. 22 杨立龙, 董一鸿, 何贤芒, 等. Skyline代表点的选择[J]. 模式识别与人工智能, 2015, 28(3): 239-246. 23 Sidiropoulos A, Gogoglou A, Katsaros D, et al. Gazing at the skyline for star scientists[J]. Journal of Informetrics, 2016, 10(3): 789-813. 24 林强. 世界一流目标下我国图情学科国际论文产出情况对比分析[J]. 图书馆工作与研究, 2018(10): 88-94. 25 白燕飞, 翟冬雪, 吴德林, 等. 基于区块链的供应链金融平台优化策略研究[J]. 金融经济学研究, 2020, 35(4): 119-132. 26 崔玉泉, 张宪. 非对称信息下供应链应急管理和信息价值研究[J]. 中国管理科学, 2016, 24(4): 83-93. 27 赵青松, 谭跃进, 杨克巍, 等. 面向价值网络的物联网产业协同竞争博弈模型[J]. 系统工程, 2016, 34(5): 30-35. 28 肖静华, 谢康, 吴瑶, 等. 从面向合作伙伴到面向消费者的供应链转型——电商企业供应链双案例研究[J]. 管理世界, 2015(4): 137-154, 188. 29 王知津, 李博雅. 我国情报学研究热点及问题分析——基于2010—2014年情报学核心期刊[J]. 情报理论与实践, 2016, 39(9): 7-13. 30 彭莉, 彭燕, 汤小伟, 等. 1990年-2017年国际胰腺病学领域最具影响力的100篇文献分析[J]. 临床肝胆病杂志, 2019, 35(5): 1027-1031. 31 刁心薇, 曾珍香, 孙丞. 混合碳政策下两产品供应链的协同研究[J]. 中国管理科学, 2021, 29(2): 149-159.
[1]
李勤敏, 郭进利. 基于主成分分析和神经网络对作者影响力的评估 [J]. 情报学报, 2019, 38(7): 709-715.
[2]
王菲菲, 王筱涵, 刘扬. 三维引文关联融合视角下的学者学术影响力评价研究——以基因编辑领域为例 [J]. 情报学报, 2018, 37(6): 610-620.
[3]
李海林, 万校基, 林春培. 基于关键词重要性和近邻传播聚类的主题分析研究 [J]. 情报学报, 2018, 37(5): 533-542.