带摘要目录

2022年 第41卷 第10期
刊出日期:2022-10-24

情报理论与方法
情报技术与应用
情报学科发展与建设
情报理论与方法
1003 基于语义关联与模糊聚类的共词分析方法 Hot!
陆泉, 曹越, 陈静
DOI: 10.3772/j.issn.1000-0135.2022.10.001
共词分析是文本内容分析的重要基础方法,但已有共词分析方法存在两方面不足,一是在关键词共词矩阵构建中未考虑词对的语义关联,二是在共词矩阵聚类分析中不支持词汇主题归属的多元性。本文提出基于语义关联与模糊聚类的共词分析方法,结合高频低频词界分公式和词频g指数抽取领域关键词,利用词嵌入模型学习关键词的语义向量表示,进而构建语义加权共词矩阵,以综合共现特征与语义关联来度量词对间相关性;结合模糊C均值聚类算法与因子降维对语义加权共词矩阵进行关键词模糊聚类,以弥补硬聚类中词汇主题归属单一化的不足,提高类团的信息质量并揭示类团之间的联系。选择“感染性疾病学和传染病学类”期刊文献开展实验,结果验证了本文方法的有效性和优越性。
2022 Vol. 41 (10): 1003-1014 [摘要] ( 405 ) HTML (188 KB)  PDF (3187 KB)  ( 415 )
1015 基于组合概率的技术主题新颖性研究 Hot!
孙晓玲, 陈娜, 丁堃
DOI: 10.3772/j.issn.1000-0135.2022.10.002
技术新颖性被认为是突破性创新的重要动力,全面衡量技术主题内容新颖性,有助于尽早识别新颖性专利并降低新兴关键技术延迟识别的风险。主题词作为技术的知识元之一,能很好地表征技术发明的主题内容和方法。本文提出一种从组合概率视角测度技术主题内容新颖性的方法,融合了专利主题词的直接组合次数、间接组合概率和语义相似度三个方面。以人工智能领域的发明专利为例,验证该方法能够捕捉主题词组合之间的潜在距离,比单一指标能够识别出更多新颖性组合。本文发现高新颖性/高常规性组合专利具有较高的平均被引次数,高新颖性专利成为高被引专利的概率最大。
2022 Vol. 41 (10): 1015-1023 [摘要] ( 243 ) HTML (147 KB)  PDF (1631 KB)  ( 273 )
1024 城市-大学群高被引论文作者学术产出力分布规律研究 Hot!
张贵兰, 潘云涛, 郑楚华, 王海燕, 马峥
DOI: 10.3772/j.issn.1000-0135.2022.10.003
开放的科研生态系统环境中,科研人员的成长与发展具有一定的自选择性和自组织性,从而呈现一定的分布规律。大学和城市的融合发展构成了科研人员成长发展的外部生态环境,进一步影响着科研人员的成长与发展。本研究基于城市的经济发展水平和大学建设科研水平,提出不同层次的城市-大学群,并研究不同层次城市-大学群科研人员学术产出力的分布规律。本研究以人工智能领域的高被引论文作者为例,结合数据挖掘全面获取高被引论文作者的基本信息、工作信息、承担项目数据、论文产出数据和专利产出数据,利用可视化分析、倾向值匹配等方法探究其学术产出能力的分布规律,并进一步分析城市-大学对其学术产出的综合影响。研究结果发现,高被引论文作者主要集中在排名靠前的高等学校中,高校排名与其拥有高被引论文作者数量满足a为负数的幂函数分布规律;从学术产出力分布来看,不同城市-大学群的高被引论文作者在学术产出上具有一定的差异性,层次较高的城市-大学群的学术产出力明显高于层次较低的,且离散程度较大;大学和城市对论文作者的学术产出有双重影响,且大学发展水平对学术产出的影响高于城市发展水平,大学的优质平台会弥补城市经济水平对科研人员学术产出造成的影响。
2022 Vol. 41 (10): 1024-1033 [摘要] ( 222 ) HTML (129 KB)  PDF (2032 KB)  ( 404 )
1034 面向用户生成内容的多粒度知识组织研究 Hot!
王忠义, 郑鑫, 王珂莹
DOI: 10.3772/j.issn.1000-0135.2022.10.004
作为大数据时代网络信息资源中的重要资源,用户生成内容(user generated content,UGC)日益受到各领域学者的广泛关注。与传统信息资源不同,UGC的海量碎片化特征导致对其进行知识组织更为困难。为解决这一问题,本文以知识元为单位,提出了一种面向UGC的多粒度知识组织模型,通过对碎片化UGC知识元进行抽取、多粒度关联以及多粒度索引的建立,对碎片化的UGC进行从点到面、从局部到整体的多粒度组织。一方面,以与“检索”相关的碎片化UGC为实验对象,开发了一个多粒度知识组织原型系统,并提供用户接口完成相关的知识检索服务;另一方面,通过实验证明了本文所提出的多粒度知识组织模型的有效性和科学性。
2022 Vol. 41 (10): 1034-1043 [摘要] ( 358 ) HTML (86 KB)  PDF (2024 KB)  ( 157 )
1044 网络计量学和替代计量学的挑战及其社会影响的稳健和非稳健计量评价 Hot!
刘廷元, 刘纾曼
DOI: 10.3772/j.issn.1000-0135.2022.10.005
面对越来越广泛的科学成果的影响证据,网络计量学、替代计量学及其社会影响评价的挑战也在不断增加。作为社会影响的网络-替代计量数据,普遍存在高零值(左侧)、多异常值(右侧)和极端右偏斜分布,使数据集的真实性、合理性及其信息计量方法和结果的抗差性、可靠性和稳定性,面临诸多重大挑战。在本研究中,面对高零值,采用四分位零值缩减法进行检定,提出的精确计算公式具有很好的一致性和抗差性,是异常值合理修正及其稳健计量的重要基础;四分位零值率基于四分位距进行定义和推导,其最大缩减的实际危险率处于较低水平,属于理想的位置参数估计点。对多异常值,采用缩尾求稳方法进行修正,并与非稳健方法对比,修正后的数据集更具耐抗性和可靠性。对极端右偏斜分布,釆用基于缩尾均值的线性比例方法进行无量纲化,使映射和转换的结果更加稳定和一致,并与基于均值的线性比例方法对比;权重系数求解基于主观权重有机融入客观权重方法,将G1法(主观)、客观G1法、半客观G1法的权重集看作一个三角模糊数进行去模糊化处理,使权重值具有主观-客观双实现机制,从而提高综合评价结果的可靠性和稳定性。与非稳健计量评价方法对比,稳健计量评价的稳定性、可靠性和抗差性都大大提高,有利于促进信息计量学和评价学向复杂性精确科学发展。
2022 Vol. 41 (10): 1044-1058 [摘要] ( 289 ) HTML (219 KB)  PDF (952 KB)  ( 519 )
情报技术与应用
1059 新兴技术识别中的不均衡分类研究 Hot!
卢小宾, 张杨燚, 杨冠灿, 行佳鑫
DOI: 10.3772/j.issn.1000-0135.2022.10.006
基于大规模专利数据和专利特征指标开展自动化的前瞻性预测已逐渐成为新兴技术识别的研究重点,机器学习方法的引入也让海量技术发明涌现为新兴技术这一小概率事件是一种典型的不均衡分类问题的本质受到关注。本研究目标在于通过优化分类策略改善新兴技术识别中不均衡数据集造成的分类偏向多数类别的识别效果,提出了综合数据、算法和评估三个层面的新兴技术识别不均衡分类优化框架,并以预测癌症药物领域专利是否有成为新兴技术潜质的二分类场景为例开展实证分析。具体改进之处在于:数据层面采纳渐进式重采样思路;算法层面构建代价敏感的随机森林;评估层面引入代价敏感思想,探究在缺乏专家经验时的代价矩阵验证方式。研究结果表明,基于1∶2均衡比例随机欠采样、以ROC-Youden指数阈值代价矩阵构建的代价敏感随机森林在对应的新兴技术识别目标中能正确预测出82.8%的新兴技术和81.6%的普通技术,显著优于本文对照组及现有相关成果,对未来深入挖掘新兴技术识别中不均衡分类问题的本质具有参考价值。
2022 Vol. 41 (10): 1059-1070 [摘要] ( 295 ) HTML (177 KB)  PDF (1648 KB)  ( 247 )
1071 基于联盟区块链的政府数据协同治理平台框架研究 Hot!
郑荣, 高志豪, 魏明珠, 孙艳飞
DOI: 10.3772/j.issn.1000-0135.2022.10.007
国家安全观背景下的政府数据协同治理已经成为社会治理和国家治理的重要一环。本文基于文献分析与现状调研结果,以协同理论为指导,采用联盟区块链技术构建政府数据协同治理平台,以期实现多主体和多源数据下政府数据治理的最大协同效应,保证政府数据治理各元素之间的共生、共享、共治以及政府数据的安全稳定。本文聚焦政府数据协同治理的困境,采用“技术框架搭建—平台模型构建—运行机理剖析”的研究范式,以全国碳排放交易市场为实际应用场景,阐释平台在政府数据协同治理中的价值。案例分析证明,该平台可实现政府数据治理主体和政府数据的协同,打破数据壁垒,提升数据安全性、可信度和可追溯性,明确数据协同治理过程中的数据标准、归属权等问题,为政府数据安全和政府数据价值增值提供平台支撑和技术保障。
2022 Vol. 41 (10): 1071-1084 [摘要] ( 335 ) HTML (106 KB)  PDF (5745 KB)  ( 366 )
1085 突发事件下社交媒体网络舆情风险识别及预警模型研究 Hot!
李玥琪, 王晰巍, 王楠阿雪, 王小天
DOI: 10.3772/j.issn.1000-0135.2022.10.008
全球自然灾害及突发公共卫生事件频发,突发事件下社交媒体网络舆情的风险危机逐渐增多,如何有效的对突发事件社交媒体中网络舆情的风险进行识别及预警,是突发事件应急管理中的关键环节。本文从强化重大问题研判和风险预警需求出发,构建基于ISM-BN的突发事件社交媒体网络舆情风险识别及预警模型。采纳知识图谱对突发事件社交媒体风险案例知识库进行构建;使用解释结构模型(interpretative structural modeling,ISM)对突发事件社交媒体网络舆情的风险因素进行因果路径及层级关系的识别;采用贝叶斯网络模型(Bayesian network,BN)对突发事件社交媒体风险进行预警,实现突发事件社交媒体网络舆情风险知识获取、知识分析及预警决策的闭环决策过程。研究为突发事件环境下社交媒体风险管理提供新的理论及方法,为相关舆情监管机构提供舆情风险识别和预警的决策支持。
2022 Vol. 41 (10): 1085-1099 [摘要] ( 665 ) HTML (205 KB)  PDF (5097 KB)  ( 828 )
情报学科发展与建设
1100 数智时代情报学与情报工作的发展透视 Hot!
许鑫, 叶丁菱
DOI: 10.3772/j.issn.1000-0135.2022.10.009
数智时代变革情报学与情报工作的内核,需要系统审视情报学与情报工作的实际变化,为实现情报学与情报工作在数智时代的同行共进提供参考和发展指引。本文从情报流程入手,系统分析了大数据、云计算、人工智能、区块链和5G技术以及技术集成环境对情报学与情报工作在需求和规划、检索和采集、融合和组织、分析和凝练、呈现和传递阶段的影响,并提出有关数智技术和情报学关系发展、数智技术自身发展以及数智技术和情报学理论发展的若干思考。
2022 Vol. 41 (10): 1100-1110 [摘要] ( 318 ) HTML (94 KB)  PDF (2157 KB)  ( 650 )