带摘要目录

2025年 第44卷 第9期
刊出日期:2025-09-24

专题
情报理论与方法
情报技术与应用
情报综述与述评
情报用户与行为
专题
1075 创新情报:时代背景、概念内涵与功效作用 Hot!
曾建勋, 卢春江, 林鑫, 袁伟
DOI: 10.3772/j.issn.1000-0135.2025.09.001
随着我国创新型国家建设不断深入、创新驱动发展战略的加快实施,科技情报中的创新情报工作受到越来越多的关注。为厘清创新情报研究与实践的基本理论问题,本文从时代背景、概念内涵与作用功能对创新情报展开学理分析。首先,分析了创新情报发展的时代背景,包括科研竞跑阶段的科研范式变革、大国科技博弈下“卡脖子”技术突破、新质生产力高质量发展;其次,在此基础上,界定了创新情报的概念,分析了其内涵范畴和基本特点;最后,从面向创新主体的可计算情报服务、面向创新治理的决策情报支撑、面向跟踪监测的创新前沿感知与风险防范支持、面向创新生态建设的开放情报协同四个方面归纳总结了创新情报的功效作用。
2025 Vol. 44 (9): 1075-1082 [摘要] ( 9 ) HTML (73 KB)  PDF (685 KB)  ( 7 )
情报理论与方法
1083 基于大语言模型的成语隐喻式构词方法及其应用:知识重组、回溯与发现 Hot!
张卫, 王东波, 刘浏
DOI: 10.3772/j.issn.1000-0135.2025.09.002
数智时代下,生成式人工智能(generative artificial intelligence,GenAI)为传统人文知识组织、挖掘与生产赋予了新动能。利用人工智能生成内容(artificial intelligence generated content,AIGC)范式将古人对典籍文献进行的成语摘引、沿用、固化等信息行为重塑为智能化构词模式,对于现有人文知识体系的结构重组、历史回溯、概念发现具有重要意义。本文从文化基因理论与构词法视角提出一套基于大语言模型的成语隐喻式构词方法。首先,面向成语出处定义<短语结构,物象标签(源域),情感标签(目标域)>的隐喻式构词知识体系,利用“出处-构词体系”对照语料构造问答数据集;其次,引入生成式大模型进行短语抽取、隐喻识别的成语构词多任务学习,并重点探索依存句法知识注入下构词大模型指令微调的增强效果。研究发现,训练后的大模型能够面向成语出处文本实现隐喻式构词结构的有效生成,“荀子”模型在多个任务的各项指标上均优于qwen7b、llama3_8b、GPT-4o等通用大模型;依存句法知识能够有效激发大模型理解能力,使得词汇结构、物象标签、情感标签识别准确率分别进一步提升至86.11%、87.82%、85.39%。以《全唐诗》为例展开大模型数字人文应用可知,诗句内的成语识别可实现“成语—诗歌—诗人”链式知识重组,大模型生成结果的时间序列分析实现了130个成语出处的知识回溯(最多向前回溯1000余年),并在成语隐喻文化基因继承下完成了大规模新短语的知识发现,编纂出具有文化产业实践价值的意象主题词表。
2025 Vol. 44 (9): 1083-1098 [摘要] ( 8 ) HTML (178 KB)  PDF (7297 KB)  ( 15 )
1099 大模型驱动的科技论文新颖性测度探索 Hot!
张琳, 李思佳, 施顺顺, 苟震宇, 黄颖
DOI: 10.3772/j.issn.1000-0135.2025.09.003
科技论文的新颖性测度是创新性评价的重要组成部分,为了分析和提高大模型在科技论文新颖性测度任务中的可用性和可解释性,本文从科技论文的研究问题、研究方法、研究结论等知识单元出发,探索性地提出一种大模型驱动的科技论文新颖性测度方法。本文设计了面向科技论文知识单元抽取任务的提示模板,使用有监督微调(supervised fine-tuning,SFT)和直接偏好优化(direct preference optimization,DPO)技术微调Qwen2-72B-Instruct开源大语言模型,抽取科技论文中的“问题”“方法”和“结论”知识单元;实现知识单元的语义嵌入,并引入平均聚合思想实现知识单元组合的语义嵌入,通过比较“新”论文与“旧”参照论文集间的语义嵌入向量来测度“新”论文的新颖性。研究结果表明,在科技论文知识单元抽取任务中,微调后的模型效果优于基线模型;相较于已有的论文新颖性计算方法,本文提出的基于知识单元的科技论文新颖性测度模型能从知识单元及其组合的语义层面捕获更为精细的新颖性差异。综合来看,大模型驱动的科技论文新颖性测度方法能够较好地完成科技论文新颖性测度任务,丰富论文新颖性测度方法。本文仅在计算机科学与技术学科中文论文摘要集上展开实验,对于其他领域的可用性有待进一步讨论,同时在使用大模型时仍需要人工辅助以提高结果的可解释性和可靠性。
2025 Vol. 44 (9): 1099-1113 [摘要] ( 9 ) HTML (173 KB)  PDF (2554 KB)  ( 21 )
1114 基于生成式人工智能的事后解释型推荐模型研究 Hot!
李伟卿, 王伟军, 黄英辉, 黄炜, 张瑞
DOI: 10.3772/j.issn.1000-0135.2025.09.004
本文提出一种基于生成式人工智能(generative artificial intelligence,GenAI)的事后解释型推荐模型,并将消费价值观理论应用于推荐系统中,在提升推荐效果的同时,为用户生成个性化的文字解释。首先,采用GenAI提示工程方法,评估商品评论中体现的细粒度消费价值观倾向,包括功能性价值、象征性价值、经济性价值和情感性价值。其次,以此构建用户-项目(价值观)-偏好的交互矩阵,并实现基于用户价值观的推荐模型。最后,将推荐结果及相关用户和项目的消费价值观倾向得分输入基于GenAI的解释机器人中,生成推荐解释。研究结果表明,基于GenAI的打分机器人在准确率、一致性和差异性方面表现良好,可有效评估消费价值观倾向,为推荐模型和解释系统提供重要支持。本文提出的推荐模型通过融合消费价值观显著提升了推荐结果的准确率和多样性,并在冷启动和数据稀疏性场景下表现优异,为解决推荐系统的“信息茧房”和过度特化问题提供了思路。此外,基于GenAI的解释机器人生成的推荐解释语句流畅且多样化,能够有效揭示推荐机制与价值观倾向,相较于传统方法,其更为灵活、高效且个性化,为提升推荐系统的透明性和用户信任度提供了新路径。
2025 Vol. 44 (9): 1114-1127 [摘要] ( 6 ) HTML (174 KB)  PDF (2322 KB)  ( 12 )
1128 基于异质信息网络的领域知识簇网络特征分析 Hot!
杨欣谊, 杨建林, 叶文豪
DOI: 10.3772/j.issn.1000-0135.2025.09.005
多主体参与的领域知识聚类能够从宏观和微观、内容与结构等多维度展现领域知识结构,对于认知领域知识的完整体系具有重要意义。本研究利用异质信息网络建构学者、论文及期刊等多类型知识实体与关系,形成知识的异质信息网络;在网络聚类中,引入图神经网络框架,融合网络结构特征与文本内容特征学习节点向量表示,利用节点表示更新连边权重,结合网络社团检测算法和社团归并、裂变策略识别领域知识簇。最后,从文本内容和网络特征两个方面分析领域知识簇,认知领域知识构成。以数据库/数据挖掘/内容检索(database, data mining, content retrieval,DBDMIR)领域的数据集为例进行实证,本研究的聚类流程改善了聚类效果,识别了语义明确、社团结构显著的领域知识簇。领域知识簇的文本特征表述了领域内的研究主题,拓扑特征反映了知识簇的形成机制和发展情况,比如,以论文发表在期刊的关系形成的星形知识簇揭示了领域内重要期刊的研究焦点,引用关系密集的网状知识簇代表了相对成熟的方向,而引用关系稀疏、依赖作者-论文间的异质关系连通的网状知识簇代表了新兴的研究方向。簇间关联分析表明,知识簇间的偏好连接将领域知识划分为多个子领域,异质连接偏好展示了知识簇间的知识交流方式。文本和网络特征的综合分析展示了领域知识发展的全貌,展现了多主体参与的领域知识簇在预测新兴主题方面的潜力。
2025 Vol. 44 (9): 1128-1143 [摘要] ( 9 ) HTML (190 KB)  PDF (6640 KB)  ( 6 )
1144 医疗数据价值释放动力机制研究 Hot!
牟冬梅, 张萌
DOI: 10.3772/j.issn.1000-0135.2025.09.006
本研究旨在剖析医疗数据价值释放的关键因素和潜在动力,为医疗数据资源的高效转化与内在价值释放提供策略指导。基于数据价值链理论,构建医疗数据价值释放逻辑框架,进行数据资产化、商品化和资本化阶段核心主体的演化博弈,并结合系统动力学模型仿真模拟不同策略下医疗数据价值释放的动态趋势。本研究发现,仅靠医疗机构的积极参与,不足以有效推进数据资产化、商品化和资本化进程;而医疗机构和政府的积极参与,以及数据市场的有效调控,将使医疗数据的价值释放显著增强。适当的数据资源量的增加、政府监管成本控制和市场调控收益优化,均有助于推动医疗数据的资产化、商品化和资本化,从而促进价值的快速累积和释放。此外,研究结果表明,信任危机的提高与降低对医疗数据价值释放均产生负向影响,而降低数据整合风险以及合理调控监管交易风险对医疗数据价值释放具有正向影响。
2025 Vol. 44 (9): 1144-1158 [摘要] ( 8 ) HTML (168 KB)  PDF (3664 KB)  ( 3 )
情报技术与应用
1159 大模型驱动的学术文本挖掘 Hot!
刘寅鹏, 陆伟, 石湘, 刘家伟, 程齐凯, 黄永
DOI: 10.3772/j.issn.1000-0135.2025.09.007
学术文本深度理解能力已成为情报工作重要支撑,大模型在此类工作中展现了巨大的潜力。大模型可以从推理端和调优端两个方向提升模型的知识挖掘和利用能力。当前,在领域深度相关的学术文本挖掘任务上,推理端的各类指令工程技术仍难以充分发挥大模型的深度语义理解能力,因此,在调优端使用参数高效微调技术面向领域任务对模型参数进行适配,成为大模型赋能学术文本挖掘的关键。目前尚未形成对模型应用不同调优方法的性能和效益的系统性探索。本研究构建了面向学术文本挖掘的参数高效微调框架和性能效益评测体系,通过对7类指令调优模型应用8项调优方法后的性能指标与成本效益进行评估,对参数高效微调策略与调优模型在学术文本挖掘任务上的能力边界进行探索。研究结果表明,在各类调优方法中,全量微调性能最优,但其领先优势并不显著;QLoRA(quantized low-rank adaptation)的计算成本最低,成为综合效益最高的调优方法。不同规模和架构的大模型调优后的性能差异不大,Mistral-7B-Instruct-v0.1等规模较小的模型使用QLoRA调优后可取得与百亿级模型相当的性能指标。调优后的大模型在引文功能识别、科技实体抽取、科技文本推理3类任务上的性能指标均大幅领先于其在指令端的表现;相比于传统深度学习模型,大模型在学术文本推理任务上全面领先,在科技实体抽取和引文功能识别任务上与小模型性能相近。由此可见,大模型在难度较高的复杂任务上表现更好,而对于简单的序列标注任务和分类任务,使用小模型的收益更高。
2025 Vol. 44 (9): 1159-1172 [摘要] ( 5 ) HTML (164 KB)  PDF (2653 KB)  ( 29 )
1173 基于改进词移嵌入的文本表示方法研究 Hot!
岑咏华, 李文敬, 刘贤祖
DOI: 10.3772/j.issn.1000-0135.2025.09.008
文本表示是文本处理和分析的基础工作,在情感分析、文本分类等下游任务中发挥关键作用。鉴于传统模型存在语义精度不足、上下文窗口受限等局限性,基于词移距离(word mover's distance,WMD)和词移嵌入(word mover's embedding,WME)的文本表示模型近年来受到特别关注。本文提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)初始化和WFR(Wasserstein-Fisher-Rao)文本距离的改进词移嵌入表示方法LDA-WFR-WME。该方法通过LDA建模初始化嵌入维度,弥补一般词移嵌入模型通过随机文档表征嵌入维度时由均匀分布采样导致语义偏差的缺陷;引入WFR文本距离,解决文档间语义细节因差异过大而引起的距离失真问题。本文以多组短文本情感分析、长文本分类以及文本聚类任务为例,以Doc2Vec(document to vector)、Attention-BiLSTM(bidirectional long short-term memory)、BERT(bidirectional encoder representations from transformers)、Attention-BiGRU-CNN(attention-bidirectional gated recurrent unit - convolutional neural network)、BiGAT(bidirectional graph attention network)等为竞争模型,进行实验对比分析。结果表明,LDA-WFR-WME方法在文本篇章的嵌入式表示方面体现出更优的性能。
2025 Vol. 44 (9): 1173-1191 [摘要] ( 11 ) HTML (312 KB)  PDF (3028 KB)  ( 7 )
情报用户与行为
1192 面向学术信息推荐的用户信任可解释模型构建 Hot!
陈韵怡, 吴丹, 夏子硕
DOI: 10.3772/j.issn.1000-0135.2025.09.009
随着人工智能先进程度的提高,无法解释的“黑匣”正在阻碍人们对系统的理解和信任,限制了人与人工智能的合作关系。本文以提升人工智能的可解释性为核心,面向学术信息智能推荐这一应用场景,提出并验证了分阶段的、以问题为导向的、面向学术信息推荐的用户信任可解释模型。该模型从人机交互的过程出发,将交互全流程划分为初次接触、开始交互、深入协作三阶段,规定了各阶段应对哪些问题进行解释,以实现提升用户信任、促进人机交互的效果。然后,验证了该模型的有效性与合理性,并基于扎根理论对访谈内容进行开放式编码、主轴式编码、选择性编码三级编码,采用编码结果对模型进行阐释与完善,提出可解释实践优化策略。本文提出的分阶段、问题导向的可解释模型能够多层面提升用户信任,其解释内容、呈现形式、语言风格与用户的系统认知、使用意愿和使用行为之间存在映射关系。基于此,本文针对各阶段解释问题,从解释内容和呈现形式两个方面提出各交互阶段的具体指导策略,以期为可解释人工智能的构建提供助力。
2025 Vol. 44 (9): 1192-1203 [摘要] ( 6 ) HTML (148 KB)  PDF (1461 KB)  ( 6 )
情报综述与述评
1204 科学劳动分工测度研究综述 Hot!
田雪灿, 陈莉玥, 丁洁兰
DOI: 10.3772/j.issn.1000-0135.2025.09.010
科学合作是科研人员开展研究活动的重要模式,科学劳动分工作为科研合作的基础,对优化团队组织、提升科研效率和完善贡献评价机制具有重要意义。本文对科学计量学领域科学劳动分工的分类、识别与应用相关研究进行系统性梳理,为后续研究提供脉络参考。首先,本文从科学劳动分工的分类框架出发,系统调研和梳理了学术组织、学术期刊、研究学者所提出的劳动分工分类方式;其次,梳理了科学劳动分工的识别方法,分为基于小规模数据的人工识别方法和基于大规模数据的自动识别方法两个层面;再其次,从分布特征、结构和效用研究3个层面对科学劳动分工的应用研究进行梳理和评述;最后,论述人工智能作为新型劳动分工主体的前沿趋势。研究结果表明,现有科学劳动分工分类框架较为零散,以面向应用场景为主,缺乏系统理论研究;劳动分工识别方法逐步从人工标注转向文本挖掘与机器学习,但应用大语言模型的研究相对较少;在应用研究上,已有研究主要停留在特征揭示层面,科学劳动分工的组织模式及其效应研究相对较少。此外,人工智能作为新型分工主体引发了关于科研合作模式的全新思考。
2025 Vol. 44 (9): 1204-1216 [摘要] ( 4 ) HTML (162 KB)  PDF (1611 KB)  ( 42 )