科技情报用户画像标签生成与推荐
赵辉, 化柏林, 何鸿魏
北京大学信息管理系,北京 100871
User Profile Tag Generation and Information Recommendations for Science and Tencnology Intelligence
Zhao Hui, Hua Bolin, He Hongwei
Department of Information Management, Peking University, Beijing 100871
摘要 科技管理部门是科技情报的重要用户,如何主动地了解科技管理部门的情报需求,成为大数据时代快速地提供精准情报服务的重要内容,而用户画像的方法为这项工作提供了可能。通过多源数据的采集与分析,为情报用户打标签,用标签来刻画用户特征与需求,并实施推荐。基于上述目的,本文采用自然语言处理的相关方法生成标签,在文本中抽取出关键词,采用直接抽取、词对匹配、主题词抽取、基于TF-IDF的生成方案、组合词生成方案共五种方法。标签生成后,根据词林表中的词间关系分析标签之间的关联和相似度。然后采用协同过滤、基于常识、标签关联等推荐算法为不同的用户推荐标签,并建立了初步的用户画像。通过研究与实证发现,利用这一套方法能够有效勾勒出科技管理部门的情报需求特征,对于科技情报工作而言,推荐的内容也具备一定的启示性。
关键词 :
科技情报 ,
用户画像 ,
标签生成 ,
推荐算法
收稿日期: 2020-02-06
基金资助: 国家社会科学基金项目“基于多源数据融合的情报用户需求探测研究”(17BTQ066)。
作者简介 : 赵辉,男,1993年生,硕士研究生,主要研究方向为文本挖掘;化柏林,男,1977年生,博士,助理教授,硕士生导师,主要研究方向为大数据情报分析、文本挖掘,E-mail:huabolin@pku.edu.cn;何鸿魏,本科生,主要研究方向为文本挖;
1 王晋, 李辉, 尹明理, 等. 科技情报工作的目标定位、核心与时代工作重点[J]. 情报理论与实践, 2018, 41(4): 13-15, 12. 2 Teixeira C, Pinto J S, Martins J A. User profiles in organizational environments[J]. Campus-Wide Information Systems, 2008, 25(3): 128-144. 3 高扬, 池雪花, 章成志, 等. 杰出人才精准画像构建研究——以智能制造领域为例[J]. 图书馆论坛, 2019, 39(6): 90-97. 4 刘海鸥, 孙晶晶, 苏妍嫄, 等. 基于用户画像的旅游情境化推荐服务研究[J]. 情报理论与实践, 2018, 41(10): 87-92. 5 单晓红, 张晓月, 刘晓燕. 基于在线评论的用户画像研究——以携程酒店为例[J]. 情报理论与实践, 2018, 41(4): 99-104, 149. 6 化柏林. 科技信息大数据在情报研究服务中的应用[J]. 图书情报工作, 2017, 61(16): 150-156. 7 许鹏程, 毕强, 张晗, 等. 数据驱动下数字图书馆用户画像模型构建[J]. 图书情报工作, 2019, 63(3): 30-37. 8 熊回香, 杨雪萍. 社会化标注系统中的个性化信息推荐研究[J]. 情报学报, 2016, 35(5): 549-560. 9 李兴华, 陈冬林, 杨爱民, 等. 基于用户兴趣-标签的混合推荐方法研究[J]. 情报学报, 2015, 34(5): 466-470. 10 吴小兰, 章成志. 结合用户关系网和标签共现网的微博用户标签推荐研究[J]. 情报学报, 2015, 34(5): 459-465. 11 贾君枝, 孙智超, 邰杨芳. 基于受控词表的医学资源社会化标签推荐研究[J]. 情报学报, 2013, 32(12): 1326-1332. 12 胡潜, 林鑫. 社会化标注系统中基于标签和项目的兴趣建模比较研究[J]. 情报学报, 2015, 34(12): 1296-1303. 13 Henczel S. Creating user profiles to improve information quality[J]. Online, 2004, 28(3): 30-33. 14 Bishop J, Lewis P R. BLAISE-LINE and the British National Bibliography: Profiles of users and uses[J]. Journal of Librarianship and Information Science, 1985, 17(2): 119-136. 15 Rumpler B. A study of the impact of the user profile in documentary systems[J]. Online Information Review, 2001, 25(6): 359-365. 16 储节旺, 是沁. 省级科技情报机构服务于创新驱动发展的策略研究[J]. 情报理论与实践, 2017, 40(7): 1-5. 17 杨彬, 韩庆文, 雷敏, 等. 基于改进的TF-IDF权重的短文本分类算法[J]. 重庆理工大学学报(自然科学), 2016, 30(12): 108-113. 18 路永和, 李焰锋. 改进TF-IDF算法的文本特征项权值计算方法[J]. 图书情报工作, 2013, 57(3): 90-95. 19 朱新华, 马润聪, 孙柳, 等. 基于知网与词林的词语语义相似度计算[J]. 中文信息学报, 2016, 30(4): 29-36. 20 Konstan J A, Miller B N, Maltz D, et al. GroupLens: Applying collaborative filtering to Usenet news[J]. Communications of the ACM, 1997, 40(3): 77-87.
[1]
赵志耘, 曾文, 王忠军, 于伟. 需求导向的中国科技情报研究方法探索与思考 [J]. 情报学报, 2022, 41(1): 1-9.
[2]
陈果, 王盼停, 王曰芬. 文献集规模对科技领域情报分析的影响:多种任务场景下的实证分析 [J]. 情报学报, 2021, 40(8): 869-878.
[3]
陈烨, 王乐, 陈天雨, 郭勇. 基于社会网络分析的社会化问答平台用户画像研究 [J]. 情报学报, 2021, 40(4): 414-423.
[4]
盛姝, 黄奇, 郑姝雅, 杨洋, 解绮雯, 张戈, 秦新国. 在线健康社区中用户画像及主题特征分布下信息需求研究——以医享网结直肠癌圈数据为例 [J]. 情报学报, 2021, 40(3): 308-320.
[5]
姜婷婷, 许艳闰. 国外过滤气泡研究:基础、脉络与展望 [J]. 情报学报, 2021, 40(10): 1108-1117.
[6]
赵康. 技术尽职调查同科技情报业务的比较与融合发展 [J]. 情报学报, 2020, 39(11): 1144-1153.
[7]
陈果, 邵雨, 王曰芬. 科技领域情报分析中文献集构造方式比较研究:一致性与可靠性问题 [J]. 情报学报, 2020, 39(10): 1034-1045.
[8]
曾建勋. 基于国家科技管理平台的科技情报事业发展思考 [J]. 情报学报, 2019, 38(3): 227-238.
[9]
张亚楠, 黄晶丽, 王刚. 考虑全局和局部信息的科研人员科研行为立体精准画像构建方法 [J]. 情报学报, 2019, 38(10): 1012-1021.
[10]
张艳丰, 彭丽徽, 刘金承, 洪闯. 新媒体环境下移动社交媒体倦怠用户画像实证研究 [J]. 情报学报, 2019, 38(10): 1092-1101.
[11]
刘如, 吴晨生, 刘彦君, 李辉, 李梦辉. 中国科技情报工作的传承与发展 [J]. 情报学报, 2019, 38(1): 38-45.
[12]
张海涛, 崔阳, 王丹, 宋拓. 基于概念格的在线健康社区用户画像研究 [J]. 情报学报, 2018, 37(9): 912-922.
[13]
赵柯然, 王延飞. 国家科技情报治理中的赋能评估研究 [J]. 情报学报, 2018, 37(8): 768-773.
[14]
王延飞, 陈美华, 赵柯然, 刘记. 国家科技情报治理的研究解析 [J]. 情报学报, 2018, 37(8): 753-759.
[15]
刘记, 陈美华, 王延飞. 国家科技情报治理的途径探索研究——以美国科技情报治理历史与现状为例 [J]. 情报学报, 2018, 37(8): 760-767.