带摘要目录

2023年 第42卷 第2期
刊出日期:2023-02-24

情报理论与方法
情报技术与应用
情报用户与行为
情报学科发展与建设
情报理论与方法
127 基于微信公众号文章的失真健康信息识别方法比较与优化 Hot!
王雷, 宋士杰, 朱庆华
DOI: 10.3772/j.issn.1000-0135.2023.02.001
近年来,大量失真健康信息以微信公众号文章的方式在社交平台上广为传播,严重影响了用户对健康知识的获取和利用健康信息做医疗决策的效果。为了抑制失真健康信息的传播,有必要对失真健康信息进行自动化的识别与检测。本文以科普中国、丁香医生等公众号发布的健康类文章和经过辟谣的健康类文章为样本,通过分词、去停用词、语法特征提取和文本分类等步骤对失真健康信息进行识别,并通过分类准确率、精确率、召回率、训练时间等性能指标选出效果最佳的分类器。另外,针对文本分类中“一词多义”和“多词一义”的问题,本文通过LDA(latent Dirichlet allocation)主题分析提取文本的语义特征,进而提出一种“语法+语义”的特征提取方法,经过实验验证,各性能指标比基于语义的特征提取方法以及以往相关模型都有了一定的提升。本文为微信公众号文章中失真健康信息的识别提出了一种新的方法和工具,有利于对失真健康信息开展进一步的监测和治理。
2023 Vol. 42 (2): 127-135 [摘要] ( 275 ) HTML (132 KB)  PDF (1878 KB)  ( 416 )
136 仿真模拟方法:大数据时代图情学科复杂场景的系统建模 Hot!
黄晓, 吴江, 贺超城, 巴志超
DOI: 10.3772/j.issn.1000-0135.2023.02.002
仿真模拟方法能够对复杂社会问题进行系统建模并开展计算实验以揭示其背后的机制与原理。在大数据时代,图情学科面临着研究对象、应用场景、研究范式等多方面的转变,仿真模拟方法将助力图情学科变革。本文阐述了将仿真模拟方法引入图情学科研究中的基本思路,以满足大数据时代图情学科复杂场景的系统建模需求。首先,本文厘清了仿真模拟方法应用的基本逻辑,包括仿真模拟方法可解决的关键问题与实施步骤。其次,总结了多智能体仿真、系统动力学、复杂网络等在信息传播与网络舆情、知识管理、科学合作与评价、竞争情报等图情学科相关领域的应用现状及关键难点。再其次,指出了仿真模拟方法与图情学科研究的匹配关键在于复杂场景的现象复现、逻辑推断、策略演练与情景预测,并提出了数据驱动的系统建模方案来解决上述关键难点。最后,本文探讨了仿真模拟方法在推动图情学科向数据密集型研究范式转型与支撑图情学科服务国家治理现代化需求上的重要作用。
2023 Vol. 42 (2): 136-149 [摘要] ( 317 ) HTML (151 KB)  PDF (2153 KB)  ( 280 )
150 融合结构特性的语义增强式古籍句读识别方法研究 Hot!
李佩琪, 王昊, 任秋彤, 范涛
DOI: 10.3772/j.issn.1000-0135.2023.02.003
数字人文概念的提出扩展了古文自动化处理的内涵与外延,实现古籍文本语义的深层理解成为首要任务。因此,本文重点探索古籍句读识别任务中的语义增强模式,以提升主流BBiC模型(BERT-BiLSTM-CRF)表征古籍文本语义的能力。本文融合结构特性从文本与模型两个维度实现古籍文本语义的深层表征,提出引入细粒度文本知识的BBiC-EK(BBiC-external knowledge)模型与融合文本结构特征的BBiCC-EK模型(BBiC-CNN-EK),并从模型结构化角度探究CNN与BiLSTM的最优连接方式以及外部知识编码的最优引入位置,多方位探究模型提升效果。研究结果表明,采用BBiC-EK模型中的最优外部知识组合模式,相较于基线BBiC模型能将句读识别准确率提升0.83个百分点;进一步融合CNN并探究最优模型结构下的BBiCC-EK(Se)模型能将BBiC模型的识别准确率提升1.36个百分点。本文通过融合结构特性的语义增强技术,实现了古籍文本句读识别准确率的提升,为古籍文本的自动化语义理解提供了新思路。
2023 Vol. 42 (2): 150-163 [摘要] ( 209 ) HTML (161 KB)  PDF (4091 KB)  ( 164 )
情报技术与应用
164 基于SAO的技术主题创新演化路径识别及其可视化研究 Hot!
刘春江, 刘自强, 方曙
DOI: 10.3772/j.issn.1000-0135.2023.02.004
利用专利文献数据识别技术领域的技术主题演化发展路径并分析其发展趋势,对于科技界、企业界进行专利技术创新具有重要的意义。首先,使用Open IE 5.1进行SAO(subject-action-object)三元组抽取,基于LDA(latent Dirichlet allocation)模型进行主题识别,根据TRIZ技术创新思想,基于action语义词典将技术主题划分到四个维度;然后,通过计算SAO三元组之间的相似度来测度技术主题之间的语义关联构建技术主题创新演化路径,并利用可视化技术构建技术主题创新演化路径可视化图谱,利用该图谱辅助分析技术主题演化脉络及其发展趋势。最后,通过石墨烯超级电容器(集流体)领域的实证,对该领域的技术问题(problem to problem,P-P)主题、技术功能(solution to solution,S-S)主题、解决方案(problem to solution,P-S)主题和技术效果(solution to problem,S-P)主题的创新演化路径进行解读分析,验证了本研究提出方法的可行性和有效性。
2023 Vol. 42 (2): 164-175 [摘要] ( 135 ) HTML (130 KB)  PDF (4135 KB)  ( 481 )
176 大数据下基于跨域多源信息融合的竞争对手识别模型研究 Hot!
宋新平, 陈梦梦, 吕国栋, 申彦
DOI: 10.3772/j.issn.1000-0135.2023.02.005
大数据下竞争对手识别模式发生了显著转变,催生了新型竞争对手识别研究范式。本文以该新范式为导向,借鉴企业生态位理论与互联网下的顾客价值理论,对传统经典陈明哲竞争分析框架进行拓展,提出了基于大数据下的市场共通性和资源能力优势度的竞争对手识别指标体系框架。该框架整合了行业与市场双元视角下的财务、专利、产品、客户等多方跨域信息源,使用模糊C均值聚类构建模型,并以新能源汽车行业为例开展仿真实验研究。结果表明,基于跨域多源信息融合的模型可有效提高竞争对手识别的准确性和全面性。
2023 Vol. 42 (2): 176-188 [摘要] ( 222 ) HTML (193 KB)  PDF (4637 KB)  ( 183 )
189 基于机器学习模型的科技论文潜在“精品”识别研究 Hot!
胡泽文, 任萍, 崔静静
DOI: 10.3772/j.issn.1000-0135.2023.02.006
综合运用科技文献特征向量空间和机器学习模型实现海量文献中潜在“精品”的自动识别与推荐,能够提升海量科技文献的科学影响和其科技发展促进作用。设计和实现基于机器学习的科技文献潜在“精品”识别分类器和模型框架,测度出国际高影响力期刊和国内图书情报与档案管理期刊论文的原文及引文特征,运用特征工程构建科技论文特征向量空间;然后分别采用支持向量机和朴素贝叶斯等传统机器学习模型,以及深度置信网络和多层感知机等深度学习模型进行潜在“精品”的自动识别,并基于ROC曲线(receiver operating characteristic curve)和混淆矩阵构建评价模型识别效果的指标体系。研究结果显示:①深度学习模型在潜在“精品”识别方面的效果较差,而传统机器学习模型的识别效果较优,其中随机森林和支持向量机的潜在“精品”识别效果最佳,决策树识别效果次之,朴素贝叶斯识别效果较差且稳定性不足。②影响因子越高的期刊潜在“精品”识别效果越好;无论国际自然科学领域高影响力期刊,还是国内社会科学领域图书情报与档案管理期刊,识别出的“精品”论文全部为被引频次较高的论文且综述论文的占比较低,国内期刊的“精品”论文中仅有1篇为综述论文。③“精品”论文的计量特征值与总体论文样本相比,呈现较大差异,即“精品”论文的首次响应时间较短且拥有基金资助,参考文献数量、关键词数量和被引频次较多,摘要和论文篇幅较长且偏向多作者论文。实证结果表明,机器学习模型能够准确识别科技文献中的潜在“精品”,并提升潜在“精品”识别的自动化程度,为海量文献中潜在“精品”文献的自动识别与传播利用提供理论参考与方法支撑。
2023 Vol. 42 (2): 189-202 [摘要] ( 189 ) HTML (203 KB)  PDF (1784 KB)  ( 337 )
203 HanNER:一个面向汉语古籍语料命名实体自动抽取的通用框架 Hot!
严承希, 唐雪梅, 杨浩, 苏祺, 王军
DOI: 10.3772/j.issn.1000-0135.2023.02.007
古籍数字化整理是推动我国汉语古籍数据库建设及相关资源整合和利用的基础性工作。作为关键的技术环节之一,面向古籍命名实体的自动化抽取备受国内外学界和业界的关注。但是一些制约汉语古籍实体抽取方法的“卡脖子”问题仍未得到有效解决,包括少样本学习问题、标注成本管理问题和数据质量控制问题。本研究提出了一个面向古籍资源命名实体自动化抽取的通用框架——HanNER,包括“基于规则的实体预标注”“基于深度主动学习的迭代实体抽取”以及“人机交互模式下的标注决策”三个主要部分。多组实验比较证明了HanNER的可行性和优势,包括基于深度主动学习模型CNN-BiLSTM-CRF+margin的优势、多功能标注模块“标注查询”与“自动推荐”的积极作用以及ZenCrowd-II算法的优势。最后,本研究基于优化后的BERT-CNN-BiLSTM-CRF模型开发了在线的汉语古籍的实体自动抽取系统。HanNER的提出有利于推进汉语古籍实体抽取工作及相关任务在方法与技术上的发展,而且从工程化角度为古籍实体抽取产品的落地提供了借鉴和启发。
2023 Vol. 42 (2): 203-216 [摘要] ( 260 ) HTML (175 KB)  PDF (3146 KB)  ( 207 )
情报用户与行为
217 智慧图书馆在线聊天机器人使用行为影响因素及实证研究 Hot!
王晰巍, 罗然, 刘宇桐, 乌吉斯古楞
DOI: 10.3772/j.issn.1000-0135.2023.02.008
智慧图书馆在线聊天机器人是人工智能连接读者与智慧图书馆的新媒介,构建智慧图书馆在线聊天机器人用户使用行为影响因素模型,能够对智慧虚拟参考咨询服务以及智慧图书馆建设发展起到重要的理论及实践推动作用。本研究基于“刺激-机体-反应”框架,结合信息系统成功模型和社会反应理论,从功能特征和社会特征两个维度分析用户使用智慧图书馆在线聊天机器人的影响因素前因变量,构建了智慧图书馆在线聊天机器人用户使用行为影响因素模型,研究图书馆建设发展中在线聊天机器人如何在智慧图书馆情景下影响用户的内在反应和使用行为,从而为智慧图书馆在线聊天机器人用户使用行为研究提供新的研究视角和行为分析的理论框架。实证研究结果表明,智慧图书馆在线聊天机器人的信息质量和同理心对满意度有正向影响,同理心和友好度对信任度产生正向影响,满意度和信任度对使用行为产生正向影响;用户对智慧图书馆在线聊天机器人的信任度对用户使用行为产生的影响最大,而在线聊天机器人的系统质量对满意度不产生影响。本研究对智慧图书馆建设中构建新型人机关系、实现公共文化服务均等化、促进传统图书馆向智慧图书馆转型,具有一定的理论和现实意义。
2023 Vol. 42 (2): 217-230 [摘要] ( 205 ) HTML (183 KB)  PDF (1223 KB)  ( 295 )
情报学科发展与建设
231 我国高校信息管理院系大数据管理与应用专业联合建设路径分析 Hot!
叶光辉, 曹高辉, 夏立新
DOI: 10.3772/j.issn.1000-0135.2023.02.009
大数据管理与应用专业是服务国家大数据发展战略而增设的新专业,是支撑图书情报人才培养的新载体和新支点。当前我国高校该专业建设院系各异,信息管理院系整体规模不大,特色彰显不够;该专业课程设置各院系自成体系,缺乏系统的顶层设计和规范的开课指导,专业建设质量标准亟待出台。在充分调研已有研究现状的基础之上,本文从组织及专业质量认证标准建设、资源共建共享、专家建设效果评价等维度,探究信息管理院系大数据管理与应用专业联合建设路径:专业组织及标准部分重点强调创新专业联合建设组织模式和出台专业认证标准,专业资源部分突出说明了教学资源、实训资源、学科资源联合共建共享形式,专业建设效果部分集中描述了评价指标设计、评价指标体系构建、评价等级说明等量化分析步骤,最后指出现阶段专业建设实施方向。该路径探析将为信息管理院系高质量培养大数据管理与应用专业人才提供有效参考。
2023 Vol. 42 (2): 231-240 [摘要] ( 250 ) HTML (87 KB)  PDF (1429 KB)  ( 199 )
241 我国情报学学科教材资源建设情况分析 Hot!
梁继文, 王伟, 杨建林
DOI: 10.3772/j.issn.1000-0135.2023.02.010
学科教材资源建设水平是影响学科教育质量的核心因素,从多角度全面分析我国情报学教材资源建设情况,能够为情报学学科建设与情报学教育长效发展提供参考。本研究通过文献调研、网络调研等方法全面采集我国情报学及相关学科教材资源建设信息,采用统计分析法与内容分析法从教材出版时间、主题类别、系列名称、教材作者与编写方式等多角度进行分析。研究结果表明,情报学专业教材资源目前尚存在情报元素缺失、主题分布失衡、适用层次模糊、内容体系断档等问题。基于此,本研究围绕完善顶层设计、做好多元平衡、规范编写原则、构建储备机制这四个方面提出相应的教材资源建设提升路径。
2023 Vol. 42 (2): 241-254 [摘要] ( 149 ) HTML (142 KB)  PDF (2657 KB)  ( 241 )