摘要对作者关键词进行价值细分研究,有助于识别学科高价值研究热点主题,帮助研究者们精确把握高价值研究主题和学科研究前沿。本文引入营销领域客户价值细分RFM(recency,frequency,monetary)模型,对各个指标进行动态加权,多次实验后,形成多组关键词价值细分结果;从关键词生命周期的角度,结合医学领域的生存分析方法,使用Kaplan-Meier曲线和Logrank检验验证,识别出最优价值细分结果;依据帕累托原则和聚类算法得到高价值热点主题。数据源选择CSSCI(Chinese Social Sciences Citation Index)收录的图情档领域期刊论文,对1998—2019年的题录数据进行实验。相较于已有的热点主题识别方法,本文的识别结果考虑了关键词的价值属性和分类,较好地识别了高价值热点主题。
孙佳佳, 李雅静. 基于关键词价值细分的高价值热点主题识别方法研究[J]. 情报学报, 2022, 41(2): 118-129.
Sun Jiajia, Li Yajing. Recognition of High-Value Hot Topics Based on Value Segmentation of Keywords. 情报学报, 2022, 41(2): 118-129.
1 冯璐, 冷伏海. 共词分析方法理论进展[J]. 中国图书馆学报, 2006, 32(2): 88-92. 2 姜鑫, 王德庄, 马海群. 关键词词频变化视角下我国“科学数据”领域研究主题演化分析[J]. 现代情报, 2018, 38(1): 141-146, 161. 3 邱均平, 吕红. 近五年国际图书情报学研究热点、前沿及其知识基础——基于17种外文期刊知识图谱的可视化分析[J]. 图书情报知识, 2013(3): 4-15, 58. 4 奉国和, 孔泳欣. 基于时间加权关键词词频分析的学科热点研究[J]. 情报学报, 2020, 39(1): 100-110. 5 刘智锋, 李信. 作者关键词生存分析——以国内图情领域为例[J]. 图书馆杂志, 2020, 39(7): 48-57. 6 李海林, 万校基, 林春培. 基于关键词重要性和近邻传播聚类的主题分析研究[J]. 情报学报, 2018, 37(5): 533-542. 7 胡少东. 客户细分方法探析[J]. 工业技术经济, 2005, 24(7): 66-69. 8 陈添源. 高校图书馆座位管理系统客户细分实证研究[C]//2016中国图书馆学会年会论文集. 北京: 中国图书馆学会, 2016: 136-146. 9 徐翔斌, 王佳强, 涂欢, 等. 基于改进RFM模型的电子商务客户细分[J]. 计算机应用, 2012, 32(5): 1439-1442. 10 彭非, 王伟. 生存分析[M]. 北京: 中国人民大学出版社, 2004. 11 范少萍, 安新颖, 单连慧, 等. 基于医学文献的主题演化类型与演化路径识别方法研究[J]. 情报理论与实践, 2019, 42(3): 114-119. 12 朱世琴, 蒋辛未. 基于CSSCI的人文社科期刊文献老化风险率研究[J]. 情报学报, 2017, 36(10): 1031-1037. 13 陈宇奇, 施国良, 张潇潇, 等. 基于修正RFM模型的高校图书馆热门图书评价体系及影响因素研究[J]. 图书馆学研究, 2020(10): 58-68. 14 张海营. 基于RFM模型的图书馆图书评价系统研究[J]. 图书馆, 2012(3): 60-62. 15 乐承毅, 王曦. 基于改进RFM聚类的高校图书馆用户画像研究[J]. 图书馆理论与实践, 2020(2): 75-79, 93. 16 赵洪波. 基于RFM模型的高校图书馆精准服务研究[J]. 情报探索, 2016(12): 77-81. 17 邢海龙, 翟丽丽, 张树臣. 大数据服务平台用户价值识别与细分研究——基于RFM修正模型[J]. 情报理论与实践, 2019, 42(10): 131-136, 145. 18 李杭. RFM模型在图书质量评价系统中的应用[J]. 农业图书情报学刊, 2014, 26(2): 54-57. 19 Peset F, Garzón‐Farinós F, González L M, et al. Survival analysis of author keywords: an application to the library and information sciences area[J]. Journal of the Association for Information Science and Technology, 2020, 71(4): 462-473. 20 张中文, 徐天和, 董秀芬, 等. 学术期刊论文生存被引次数的定义与应用[J]. 编辑学报, 2015, 27(4): 316-319. 21 宋爽, 陈向东. 信息技术领域专利维持状况及影响因素研究[J]. 图书情报工作, 2013, 57(18): 98-103, 132. 22 郑为益. 基于生存分析的客户流失模型研究[D]. 广州: 华南理工大学, 2011. 23 赖院根, 刘砺利. 基于生存分析的信息用户流失研究与实证[J]. 情报杂志, 2011, 30(4): 129-132, 171. 24 Ai W, Li K L, Li K Q. An effective hot topic detection method for microblog on spark[J]. Applied Soft Computing, 2018, 70: 1010-1023. 25 Sun Q D, Wang Q, Qiao H L. The algorithm of short message hot topic detection based on feature association[J]. Information Technology Journal, 2009, 8(2): 236-240. 26 Zhu Z L, Liang J, Li D Y, et al. Hot topic detection based on a refined TF-IDF algorithm[J]. IEEE Access, 2019, 7: 26996-27007. 27 张申旭, 黄震华. 基于多特征的微博热点主题发现算法的研究[J]. 现代计算机(专业版), 2017(19): 3-7. 28 陆蓓, 程肖, 谌志群. 基于改进蚁群聚类的热点主题发现算法研究[J]. 现代图书情报技术, 2010(4): 66-71. 29 王林, 戴冠中. 基于复杂网络社区结构的论坛热点主题发现[J]. 计算机工程, 2008, 34(11): 214-216, 224. 30 唐果, 陈宏刚. 基于BBS热点主题发现的文本聚类方法[J]. 计算机工程, 2010, 36(7): 79-81. 31 吴立峰. BBS网络的自相似性及其热点主题发现[J]. 情报杂志, 2009, 28(9): 152-154. 32 Pareto V. Cours d'économie politique[M]. Geneva: Librairie Droz, 1964. 33 Nishikido T, Sunayama W, Nishihara Y. Valuable change detection in keyword map animation[C]// Proceedings of the Canadian Conference on Artificial Intelligence. Heidelberg: Springer, 2009: 233-236. 34 Byers J W, Mitzenmacher M, Zervas G. Adaptive weighing designs for keyword value computation[C]// Proceedings of the Third ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2010: 331-340. 35 Hou L W, Wang L P, Yang J G. Evolutionary prediction of online keywords bidding[C]// Proceedings of the International Conference on Electronic Commerce and Web Technologies. Heidelberg: Springer, 2008: 124-133. 36 李剑锋. 价值: 客体主体化后的功能和属性[M]. 西安: 陕西师范大学出版社, 1988. 37 Kamakura W A, Mazzon J A. Value segmentation: a model for the measurement of values and value systems[J]. Journal of Consumer Research, 1991, 18(2): 208-218. 38 秦嘉杭. 图书馆、情报与文献学热点研究主题分布及其发展趋势——基于2011—2013年国家社科基金项目分析[J]. 图书与情报, 2013(6): 112-115. 39 Hughes A M. Strategic database marketing: the masterplan for starting and managing a profitable, customer-based marketing program[M]. New York: McGraw-Hill, 2000. 40 杨辰毓妍, 赵旭. “图书馆、情报与档案管理”学科知识结构布局分析——基于国家基金项目计量分析视角[J]. 情报科学, 2017, 35(3): 63-68. 41 张蒙, 刘春艳. 2012—2018年国家社会科学基金项目图书馆、情报与文献学学科热点可视化分析[J]. 图书馆研究与工作, 2020(10): 33-36, 48. 42 王效岳, 刘自强, 白如江, 等. 基于基金项目数据的研究前沿主题探测方法[J]. 图书情报工作, 2017, 61(13): 87-98. 43 Ha S H, Park S C. Application of data mining tools to hotel data mart on the Intranet for database marketing[J]. Expert Systems with Applications, 1998, 15(1): 1-31. 44 杨琳, 寇勇刚, 白钊, 等. 基于改进RFM模型对民航客户的细分研究[J]. 数学的实践与认识, 2021, 51(1): 33-39. 45 Wu J, Lin Z. Research on customer segmentation model by clustering[C]// Proceedings of the 7th International Conference on Electronic Commerce. New York: ACM Press, 2005: 316-318. 46 季晓芬, 贾真. 基于RFM行为模型的服装企业VIP顾客数据挖掘[J]. 浙江理工大学学报, 2015, 34(4): 131-135. 47 林盛, 肖旭. 基于RFM的电信客户市场细分方法[J]. 哈尔滨工业大学学报, 2006, 38(5): 758-760. 48 蒋国瑞, 刘沛, 黄梯云. 一种基于AHP方法的客户价值细分研究[J]. 计算机工程与应用, 2007, 43(8): 238-241. 49 陈东清, 叶翀, 黄章树. 基于熵权法改进RFM模型的电商客户价值细分研究[J]. 西安电子科技大学学报(社会科学版), 2020, 30(2): 39-45. 50 Kaplan E L, Meier P. Nonparametric estimation from incomplete observations[J]. Journal of the American Statistical Association, 1958, 53(282): 457-481. 51 Meyer B D. Unemployment insurance and unemployment spells[R]. National Bureau of Economic Research, 1988. 52 宋娜, 郭晶晶, 陈喆. 近三十年来图书馆、情报与文献学学科的研究热点及主题演变情况——基于国家社会科学基金项目[J]. 图书馆理论与实践, 2020(4): 132-136. 53 赵蓉英, 赵浚吟, 陈必坤. 透视“图书馆、情报与档案管理”学科的研究主题与趋势——以2001—2012年国家科学基金为研究视角[J]. 情报理论与实践, 2014, 37(2): 1-5.