融合依存句法网络和PageRank 的检索词推荐方法研究
楼雯1,2,3 , 马昕钰1 , 苏子龙1
1.华东师范大学经济与管理学院信息管理系,上海 200062 2.华东师范大学学术评价与促进研究中心, 上海 200241 3.华东师范大学统计与数据科学前沿理论及应用教育部重点实验室,上海 200062
A Method of Search Term Recommendation Based on Dependency Syntactic Network Combined with PageRank
Lou Wen1,2,3 , Ma Xinyu1 , Su Zilong1
1.Department of Information Management, School of Economics and Management, East China Normal University, Shanghai 200062 2.Institute for Academic Evaluation and Development in East China Normal University, Shanghai 200241 3.Key Laboratory of Advanced Theory and Application in Statistics and Data Science (East China Normal University), Ministry of Education, Shanghai 200062
摘要 面对信息过载的深化和交叉研究的兴起等问题,提升信息检索系统的过滤能力是提供有效的检索词推荐服务等相关研究的重要议题。本文提出将PageRank算法与依存句法网络融合进行知识库的检索词推荐,通过构建检索词集合与依存句法网络,采用PageRank算法对检索词排序以实现检索词推荐,用Web of Science中124516篇information science & library science(LIS)领域的文献摘要数据对该方法进行验证。邀请10位LIS领域的图书情报专业硕士研究生进行用户研究,并与已有的相似方法和系统对比。研究结果显示,本文方法推荐准确率为80%,推荐列表表内平均Cosine相似性为0.530,表内平均Jaccard相似性为0.395,表内检索词具有较相似系统更优的多样性和惊喜度等特征,说明该方法能够扩大推荐检索词对用户信息需求的覆盖面,可为信息检索结果的表现方式提供新的参考方法和视角,可直接用于信息检索的后端词汇组织方式,也可间接用于知识发现与跨学科研究。
关键词 :
依存句法分析 ,
语言网络 ,
检索词推荐 ,
信息检索 ,
复杂网络
收稿日期: 2023-01-02
基金资助: 上海市哲学社会科学基金青年项目“基于大规模学术数据的正式科学用语的异化现象研究”(2021ETQ002)。
作者简介 : 楼雯,女,1988年生,博士,副教授,博/硕士生导师,主要研究领域为信息计量与科学交流,E-mail:wlou@infor.ecnu.edu.cn;马昕钰,女,1999年生,硕士研究生,主要研究领域为知识组织与科学交流;苏子龙,男,1995年生,硕士,主要研究领域为知识组织与科学交流;
1 宋艳辉, 朱李, 舒非, 等. 中美图情学博士学位论文主题跨学科发展比较研究[J]. 情报学报, 2022, 41(5): 536-548. 2 熊文靓, 付慧真. 基于主题挖掘模型的跨学科性研究主题及其演化研究[J]. 情报科学, 2021, 39(11): 117-126. 3 崔育宝, 李金龙, 张淑林. 交叉学科建设: 内涵论析、实施困境与推进策略[J]. 中国高教研究, 2022(4): 16-22. 4 汪东芳, 曹燕, 曾文. 面向科技查新的词表构建研究[J]. 图书馆学研究, 2020(19): 50-57. 5 张海涛, 张枭慧, 魏萍, 等. 网络用户信息检索行为研究进展[J]. 情报科学, 2020, 38(5): 169-176. 6 张海涛, 徐海玲, 张枭慧, 等. 国内外图书情报领域用户画像研究现状及展望[J]. 图书情报工作, 2019, 63(7): 127-134. 7 汤志康, 李春英, 汤庸, 等. 学术社交平台论文推荐方法[J]. 计算机与数字工程, 2017, 45(2): 221-225. 8 郭佳, 黄程松. 国外网络环境中信息过载研究进展[J]. 情报科学, 2018, 36(7): 170-176. 9 肖丽平, 娄策群. 互联网发展环境下“信息超限”问题研究[J]. 图书馆学研究, 2018(10): 16-21, 29. 10 赵怿怡, 刘海涛. 基于网络观的语言研究[J]. 厦门大学学报(哲学社会科学版), 2014(6): 127-136. 11 刘知远, 郑亚斌, 孙茂松. 汉语依存句法网络的复杂网络性质[J]. 复杂系统与复杂性科学, 2008, 5(2): 37-45. 12 Ren Z Y, Peng B, Schleyer T K, et al. Hybrid collaborative filtering methods for recommending search terms to clinicians[J]. Journal of Biomedical Informatics, 2021, 113: 103635. 13 赵俊逸, 庄福振, 敖翔, 等. 协同过滤推荐系统综述[J]. 信息安全学报, 2021, 6(5): 17-34. 14 纪文璐, 王海龙, 苏贵斌, 等. 基于关联规则算法的推荐方法研究综述[J]. 计算机工程与应用, 2020, 56(22): 33-41. 15 范圆圆, 王曰芬. 基于学术社交网络用户关系的文献搜索推荐研究[J]. 现代情报, 2021, 41(9): 32-39. 16 张洋, 高艳华, 郭晓坤. 使用关联检索缓和推荐系统中的稀疏性问题[J]. 计算机仿真, 2021, 38(9): 495-500. 17 Nair A M, Benny O, George J. Content based scientific article recommendation system using deep learning technique[C]// Proceedings of ICISC 2021: Inventive Systems and Control. Singapore: Springer, 2021: 965-977. 18 魏玲, 郭新悦. 融合用户画像与协同过滤的知识付费平台个性化推荐模型[J]. 情报理论与实践, 2021, 44(3): 188-193. 19 贾凡, 康舒雅, 江为强, 等. 基于相似性的多用户漏洞推荐算法[J]. 清华大学学报(自然科学版), 2023, 63(9): 1399-1407. 20 Osadchiy T, Poliakov I, Olivier P, et al. Recommender system based on pairwise association rules[J]. Expert Systems with Applications, 2019, 115: 535-542. 21 郭伟光. 基于农产品本体的语义检索推荐系统框架[J]. 电脑知识与技术, 2019, 15(17): 191-193. 22 熊回香, 李晓敏, 杜瑾. 基于学术关键词与共被引的学者推荐研究[J]. 情报学报, 2021, 40(7): 725-733. 23 杨辰, 刘婷婷, 刘雷, 等. 融合语义和社交特征的电子文献资源推荐方法研究[J]. 情报学报, 2019, 38(6): 632-640. 24 熊回香, 孟璇, 叶佳鑫. 基于关键词语义类型和文献老化的学术论文推荐[J]. 现代情报, 2021, 41(1): 13-23. 25 丁浩, 胡广伟, 齐江蕾, 等. 基于随机森林和关键词查询扩展的医学文献推荐方法[J]. 数据分析与知识发现, 2022, 6(7): 32-43. 26 袁仁进, 陈刚, 李锋, 等. 基于VSM和Bisecting k-means聚类的新闻推荐方法[J]. 北京邮电大学学报, 2019, 42(1): 114-119. 27 Andra D, Baizal A B. E-commerce recommender system using PCA and k-means clustering[J]. Jurnal RESTI (Rekayasa Sistem Dan Teknologi Informasi), 2022, 6(1): 57-63. 28 聂永丹, 王斌, 张岩. 基于改进PageRank算法的文献相关度排序方法[J]. 吉林大学学报(信息科学版), 2022, 40(3): 464-470. 29 Page L, Brin S, Motwani R, et al. The PageRank citation ranking: bringing order to the Web[R]. Palo Alto: Stanford University, 1999: 1-14. 30 王丹. 基于PageRank改进的文献排名算法研究[J]. 计算机时代, 2019(1): 59-62, 66. 31 张勇, 杨赛军, 黄华. CiteRank算法在文献多指标排序中的应用[J]. 中国科技资源导刊, 2021, 53(4): 32-37. 32 华一雄, 张执南. 基于文本相似度和入出比的改进PageRank科研文献搜索方法[J]. 机械设计与研究, 2021, 37(1): 6-9. 33 常家伟, 戴牡红. 基于PageRank和谱方法的个性化推荐算法[J]. 计算机科学, 2018, 45(S2): 398-401. 34 Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine[J]. Computer Networks and ISDN Systems, 1998, 30(1-7): 107-117. 35 Hadhiatma A, Azhari A, Suyanto Y. A scientific paper recommendation framework based on multi-topic communities and modified PageRank[J]. IEEE Access, 2023, 11: 25303-25317. 36 王子茹, 宋尚文, 阎红灿. 协同过滤推荐算法的性能对比与分析[J]. 计算机仿真, 2022, 39(9): 435-440. 37 宁泽飞, 孙静宇, 王欣娟. 基于知识图谱和标签感知的推荐算法[J]. 计算机科学, 2021, 48(11): 192-198. 38 温有奎. 信息检索系统的关联关键词推荐研究[J]. 数字图书馆论坛, 2016(4): 11-14. 39 刘军, 杨军, 宋姗姗. 基于用户购买意愿力的协同过滤推荐算法[J]. 吉林大学学报(理学版), 2021, 59(6): 1432-1438. 40 Liu G G. An ecommerce recommendation algorithm based on link prediction[J]. Alexandria Engineering Journal, 2022, 61(1): 905-910. 41 AricHagberg, DanSchult, PieterSwart. NetworkX reference[DB/OL]. [2018-01-22]. https://networkx.github.io/documentation/stable/_downloads/networkx_reference.pdf. 42 李航. 统计学习方法[M]. 2版. 北京: 清华大学出版社, 2019. 43 汪志伟, 邹艳妮, 吴舒霞. PageRank算法应用在文献检索排序中的研究及改进[J]. 情报理论与实践, 2016, 39(11): 126-130, 144. 44 王春才, 邢晖, 李英韬. 推荐系统评测方法和指标分析[J]. 信息技术与标准化, 2015(7): 27-29, 44. 45 黄泽明. 基于主题模型的学术论文推荐系统研究[D]. 大连: 大连海事大学, 2013.
[1]
习海旭, 何胜, 黄纯国. 融合语步和文本多特征的科技论文结构化摘要生成 [J]. 情报学报, 2023, 42(10): 1176-1186.
[2]
梁柱, 沈思, 叶文豪, 王东波. 基于结构内容特征的裁判文书自动推荐研究 [J]. 情报学报, 2022, 41(2): 167-175.
[3]
牛奉高, 高旭霞. 基于加权网络改进的中文短文本相似性度量模型 [J]. 情报学报, 2021, 40(3): 278-285.
[4]
石进, 韩进, 赵小柯, 刘千里. 基于语境概念核心词提取算法研究 [J]. 情报学报, 2019, 38(11): 1177-1186.
[5]
余传明, 蔡林, 胡莎莎, 安璐. 基于深度学习的查询扩展研究 [J]. 情报学报, 2019, 38(10): 1066-1077.
[6]
韩正彪. 国外信息检索系统用户心智模型研究述评与展望 [J]. 情报学报, 2018, 37(7): 668-677.
[7]
邹永利, 王皓. 标点符号在网络中文学术文献识别与检索中的作用 [J]. 情报学报, 2018, 37(1): 25-30.
[8]
吴江, 贺超城, 朱侯. 集成复杂网络与多智能体仿真的人肉搜索效率研究 [J]. 情报学报, 2018, 37(1): 68-75.