摘要
社交媒体的快速发展深刻影响和变革了科学交流模式,开放科学这一新的科研范式的兴起为研究睡美人论文的特征及影响力提供了新的视角和途径,对其进行基于多源异构数据的量化识别和影响因素分析能够充分挖掘其潜在科研价值。本文以经济学和计算机科学分别作为社会科学和自然科学领域的代表性学科,利用从Web of Science及Altmetrics.com获取的海量引文数据、题录数据和替代计量数据,识别两个学科在1996—2014年发表的睡美人论文,从睡眠特征、唤醒机制和期刊特征3个方面进行描述性分析,并对睡美人论文影响因素进行剖析和比较。实证结果表明:①将反映学术关注度的论文被引频次与反映社会关注度的Altmetrics数据相结合作为睡美人论文识别的原始数据是有必要且有意义的;②自然科学领域更容易出现睡眠特征明显的睡美人论文;两类领域研究都注重论文在理论方面突出的创新性和价值,同时,自然科学领域更加注重对前人算法或技术等方面的应用和完善;社会科学领域发表在高水平期刊上的论文也可能面临沉睡多年后才被唤醒的情况,而自然科学领域睡美人论文多出现在低水平期刊上;③对于国外睡美人论文,期刊影响力、新闻提及、社交平台阅读量对社会科学领域睡美人论文的唤醒具有显著影响,基金资助对自然科学领域睡美人论文的唤醒具有显著影响,政策文本提及在两个领域均起到关键作用;④相对于国外资源库建设成果,中国应该继续发展适应本土的替代计量数据集成平台。
0 引 言
20世纪60年代以后,学者们注意到一种现象,即有些论文由于超出所处时代的科学认知范围导致发表初期很少被关注和认同,但在一段时间后获得普遍的认可,这些论文被认为是“resisted discoveries
2021年11月23日,联合国教科文组织通过的《开放科学建议书》对开放科学的含义进行了明确界定,认为开放科学是在学术自由、研究诚信和科学卓越等基础上建立的一种新的科研范式,重点强调了其包容性、开放性、共享性、合作性等特点;对开放科学的推广和实施能够促进知识全民化和民主化,实现全球科学系统中科学发现更快、更有效地创造和流
1 文献综述与基本问题解析
1.1 开放科学研究现状
以“开放科学”为主题词,在中国知网(China National Knowledge Infrastructure,CNKI)上进行中文社会科学引文索引(Chinese Social Sciences Citation Index,CSSCI)期刊论文检索,关键词共现图谱如

图1 CNKI开放科学关键词共现知识图谱

图2 WoS开放科学关键词共现知识图谱
此外,国内学者在开放科学发展全球态势、期刊发展态势、开放科学治理框架等方面进行了初步探索。杨卫
替代计量是开放科学和社交网络环境下科学计量学新的学科增长
1.2 睡美人论文识别方法与特征分析研究现状
自2004年van Raa
作者 | 识别类型 | 识别方法 | 数据 | 不足 |
---|---|---|---|---|
Costas | 参数识别 | 基于四分位标准 | 1980—2008年WoS数据库收录的所有文章 | 数据统计困难;阈值设置门槛低导致结果不精准 |
Li | 引文曲线拟合 | 根据引文曲线变化识别睡美人论文全要素 | 4篇《自然》文章 | 缺少实证量化分析 |
Li | 无参数识别 | 提出并使用基尼系数的调整Gs指数 | 1900—2000年诺贝尔奖获得者发表的论文 | 在衡量被引分布不平等方面存在局限性 |
Ke | 无参数识别 | 美丽系数B值 | 2200万篇所有学科发表的科学论文 | 不便于比较不同学科或不同年龄论文的美丽程度 |
Teixeira | 无参数识别 | K值 | 1951—2014年WoS数据库中经过关键词和研究领域过滤得到的52373篇论文 | — |
Du | 无参数识别 | Bcp指数 | 1970—2005年发表在《自然》和《科学》杂志上的睡美人论文 | 指数计算可能受到引文窗口长度的影响 |
向菲 | 无参数识别 | ASB指数 | 在Altmetrics Explorer上获取的“医疗与健康科学”领域的47510篇论文 | — |
除此之外,2016年Min
对3类识别方法进行梳理和分析得到,曲线拟合方法相对直观,但由于操作过程中数据量大,耗时耗力;有参数识别方法易于理解,但阈值的设定具有强主观性,缺乏灵活性和科学性;无参数方法可以避免人为对主观参数阈值的设定,通过综合考虑文献的相关引文数据来对睡美人论文进行判定,但仍存在计算公式较为复杂的问题。近年来,学者们认识到已有识别方法的上述不足,开始考虑运用机器学习模型对高价值文献特征向量空间进行训练,并将训练后的模型应用于海量文献的精品识别研
同时,研究者在睡美人论文的特征分析方面也进行了一定的探索。Chi
1.3 开放科学与睡美人论文研究的关联解析
开放科学推动了科学交流和科研范式的变
替代计量学通过特定指标分析学术成果在互联网平台上被获得、阅读、讨论、分享和推荐的情况,来衡量学术成果在社交媒体上的影响。Altmetrics数据作为开放科学发展的产物及替代计量的量化指标,本质是对开放科学发展程度以及成果影响力的测
睡美人论文作为高影响力论
本文认为非开放科学环境下的睡美人论文,即从发表在非开放获取期刊上的论文中识别得到的睡美人论文,其唤醒的直接因素仅为被引频次的突增;而在开放科学环境下,对于部分开放获取期刊论文而言,除了高校和科研机构,普通公众也能免费获取自己感兴趣的论文,拥有了阅读及在社交平台上发表见解的机会,此时,睡美人论文被唤醒的直接原因,除了被引频次的突增外,还可能包括社交平台上社会关注度的突然提升。上述表明新的科研范式和科研环境为睡美人论文的识别提供了全新角度的逻辑思路和数据支持,本文试图通过海量数据采集、处理和实证分析,验证上述猜想,进一步探索不同学科睡美人论文形成的影响因素差异,并进行国内外数据分析的对比,以贴近中国本土实际,提出合理思考和启示。
1.4 研究述评
作为蓬勃发展的科研交流新范式,开放科学研究领域被学者广泛关注,研究角度丰富多样。开放科学和社交网络的共同发展推动替代计量学研究的进步,Altmetrics数据作为替代计量的量化指标,在指标影响因素、与传统引文指标的关系、特征分析、主题演化、影响力评价等方面的量化实证研究中发挥了重要作
综上所述,开放科学与睡美人论文研究在以下几个方面有待进一步探索和实践:第一,将反映论文学术关注度的被引频次数据与反映论文社交媒体关注度的Altmetrics数据相结合,应用于睡美人论文的量化识别过程中;第二,不同学科睡美人论文在多个角度的特征差异对比;第三,分析开放科学环境下与睡美人论文形成有关的多维影响因素和影响机制;第四,对比社会科学和自然科学领域睡美人论文的影响因素差异,并与中国期刊上的睡美人论文进行对比,以助力国内学科发展和资源库建设。
因此,本文在运用综合学术关注度和社会关注度两个方面的量化数据的基础上,以合理的识别方法识别睡美人论文。首先,进行描述性的睡美人论文特征分析;其次,从论文的期刊影响力、论文原文及社交媒体关注3个方面提取可能与睡美人论文有关的指标,用于分析开放科学环境下与睡美人论文形成有关的影响因素,并基于实证结果提出建议和启示。研究框架如

图3 研究框架
2 开放科学环境下睡美人论文识别
本文以经济学和计算机科学分别作为社会科学和自然科学领域的代表性学科,实证部分的逻辑路线如下:检索WoS核心合集中经济学学科和计算机科学学科1996—2014年发表的开放获取英文论文,获取检索结果对应的引证报告、题录数据,以及Altmetrics.com平台中对应的替代计量数据,进行数据预处理后,计算各样本的睡美人论文无参数指数值,并结合三指标法进行睡美人论文的进一步筛选。
2.1 睡美人论文识别方法确定
无参数方法可以避免人为对主观参数阈值的设定,通过综合考虑论文的相关引文数据来对睡美人论文进行判定。其中,论文K值识别法公式简单、易于理解且具有较高的识别准确度,Bcp值识别法目前发展较为成熟,因此,本文选择这两种无参数方法分别对睡美人论文进行初步确定。为提高识别的准确性,进一步使用三指标法这一有参数的识别方法对初步确定的论文进行主观判断,以实现更精确的识别。
(1)K值识别法
K值识别法是Teixeira
(1) |
其中,i表示年份;yop表示文献的出版年份;noci表示文献在第i年的被引次数;N表示经历的时间(年)跨度。
K值识别法是基于类标准差的思想提出的,公式简单,易于理解和实
(2)Bcp值识别法
2015年,有学者提出美丽系数B值,用于反映论文从发表年到引文峰值年之间历年被引频次的变化情况,但未考虑论文完整的引文窗口。Bcp指数是杜建
(2) |
其中,t表示距离论文出版年的年跨度;tm表示经历的时间年跨度;c0论文发表年累计被引频次百分比;ct表示论文发表后第t年累计被引频次百分比。
(3)三指标法
三指标法是荷兰科学家van Raa
2.2 数据预处理
睡美人论文设定最少10年的观察时间窗口,因此,论文发表时间范围初步设定为1996—2014年,观察期时间范围设定为1996—2023年。在WoS核心合集中,将“web of science categories”设置为“Econimics”,限制发表年份范围为1996—2014年,文献类型为“Article”,开放获取类型为“open access”,语言为“English”,共获得54762条数据。在Altmetrics.com中采取检索设置,共获得54471条数据。计算机科学领域的数据采集采用相似的步骤,共获得111735条WoS引文数据和270312条Altmetrics数据。数据检索时间为2024年4月。
2010年以前,Altmetrics.com中的数据不完整,因此,社交媒体关注度数据的观察期时间窗口设定为2010—2023年。社交平台提及频次以AAS(altmetric attention score)值计量,AAS计算公式采用Altmetrics.com网站中给出的加权公式
AAS=8×News+5×Blog+3×Policy document+3×Patent+3×Wikipedia+1×Peer review+1×Weibo+1×Google+1×F1000+1×Syllabi+0.5×LinkedIn+0.25×X+0.25×Facebook+0.25×Reddit+0.25×Pinterest+0.25×Q&A+0.25×YouTube。
其中,各指标表示不同来源平台上的关注计数。
以经济学学科(economics,EC)为例,数据预处理过程如下。
通过人工检查的方式删去无效数据行、进行必要数据项对齐等预处理程序,以论文DOI(digital object identifier)进行两个表格的关联合并,最终得到22269条样本数据集。被引频次反映论文的学术关注度,AAS值反映论文的社交媒体关注度,分别计算单篇论文占所有样本总量的被引频次百分比与AAS值百分比并求和获得论文总关注度,降序排序,绘制横坐标为文章序号、纵坐标为总关注度的折线图,如

图4 经济学学科和计算机科学学科睡美人论文总关注度分布情况
整理样本集841篇论文原始数据,将各样本历年被引频次与社交平台关注度求和,总结为“EC历年关注度计数”数据表,对应求得的历年累计百分比数据总结为“EC历年累计百分比”数据表,得到单篇论文历年被关注情况,作为后续分别计算K值和Bcp值的数据基础。由于结合了Altmetrics数据,部分论文在发表年之前就获得了社会关注,参考文献[
以相似方式处理111736条计算机科学(computer science,CS)学科原始数据,得到的睡美人论文总关注度分布情况如
2.3 睡美人论文识别
(1)K值识别结果
由于K值公式中noci表示文献在第i年的被引次数,因此,类比到本文中,我们利用“EC历年关注度计数”数据计算841篇经济学学科样本论文的K值,计算结果的取值范围为0.308~0.984,取值分布如

图5 经济学学科睡美人论文K值和Bcp值分布
(2)Bcp值识别结果
由于Bcp值公式中ct表示论文发表后第t年累计被引频次百分比,因此,类比到本文中,我们利用“EC累计百分比”数据计算841篇样本论文的Bcp值,计算结果的取值范围为-1.975~6.181,取值分布如
(3)识别结果对比
首先,对K值和Bcp值识别结果进行对比。经济学学科K值的识别结果中,排名前10位的论文发表年集中于2006—2013年,Bcp值对应结果为1999—2010年;计算机科学学科K值的识别结果中,排名前10位的论文发表年集中于2006—2013年,Bcp值对应结果为1997—2009年。这表明在社会科学和自然科学两类学科的量化识别过程中,相比于K值,Bcp值能识别出平均年龄较大的睡美人论文。经济学学科两种无参数指标排名前10位的样本信息如
论文序号 | DOI | 发表年份 | 发表期刊 | 排名 | |
---|---|---|---|---|---|
K值 | Bcp值 | ||||
1 | 10.2202/1935-1682.2438 | 2010 | The B.E. Journal of Economic Analysis & Policy | 1 | 4 |
2 | 10.1016/j.econedurev.2012.12.005 | 2013 | Economics of Education Review | 2 | 28 |
3 | 10.1086/589702 | 2009 | The Journal of Law & Economics | 3 | 3 |
4 | 10.1017/S0022050707000472 | 2007 | The Journal of Economic History | 4 | 2 |
5 | 10.1016/j.jpubeco.2005.01.002 | 2006 | Journal of Public Economics | 5 | 1 |
6 | 10.1016/j.jeconom.2007.05.010 | 2008 | Journal of Econometrics | 6 | 6 |
7 | 10.1080/00036840600749623 | 2007 | Applied Economics | 7 | 5 |
8 | 10.1162/rest.91.3.523 | 2009 | The Review of Economics and Statistics | 8 | 22 |
9 | 10.1111/j.1540-6261.2010.01589.x | 2010 | The Journal of Finance | 9 | 25 |
10 | 10.1016/j.jmacro.2006.12.001 | 2008 | Journal of Macroeconomics | 10 | 18 |
11 | 10.1023/B:PUCH.0000035859.20258.e0 | 2004 | Public Choice | 38 | 7 |
12 | 10.1257/0895330053147994 | 2005 | Journal of Economic Perspectives | 19 | 8 |
13 | 10.1257/089533005775196732 | 2005 | Journal of Economic Perspectives | 25 | 9 |
14 | 10.1086/250109 | 1999 | Journal of Political Economy | 725 | 10 |
论文序号 | DOI | 发表年份 | 发表期刊 | 排名 | |
---|---|---|---|---|---|
K值 | Bcp值 | ||||
1 | 10.1109/TNN.2008.2005605 | 2009 | IEEE Transactions on Neural Networks | 1 | 7 |
2 | 10.1093/bioinformatics/btq170 | 2010 | Bioinformatics | 2 | 12 |
3 | 10.1108/00012531211215178 | 2012 | Aslib Proceedings | 3 | 31 |
4 | 10.1007/s11192-009-0146-3 | 2010 | Scientometrics | 4 | 15 |
5 | 10.1093/bioinformatics/btq134 | 2010 | Bioinformatics | 5 | 20 |
6 | 10.1016/j.dss.2013.07.001 | 2013 | Decision Support Systems | 6 | 59 |
7 | 10.1609/aimag.v30i3.2254 | 2009 | AI Magazine | 7 | 18 |
8 | 10.1093/bioinformatics/btt473 | 2013 | Bioinformatics | 8 | 76 |
9 | 10.1002/asi.20317 | 2006 | Journal of the American Society for Information Science and Technology | 9 | 5 |
10 | 10.1016/j.intcom.2009.12.001 | 2010 | Interacting with Computers | 10 | 27 |
11 | 10.1145/335191.335388 | 2000 | SIGMOD Record | 131 | 1 |
12 | 10.1162/105474601300343603 | 2001 | PRESENCE: Virtual and Augmented Reality | 129 | 2 |
13 | 10.1006/jcss.1997.1504 | 1997 | Journal of Computer and System Sciences | 668 | 3 |
14 | 10.1093/bioinformatics/bti430 | 2005 | Bioinformatics | 15 | 4 |
15 | 10.1007/s10994-006-6226-1 | 2006 | Machine Learning | 12 | 6 |
16 | 10.1093/bioinformatics/bth315 | 2004 | Bioinformatics | 25 | 8 |
17 | 10.1093/bioinformatics/btm254 | 2007 | Bioinformatics | 11 | 9 |
18 | 10.1093/bioinformatics/btl242 | 2006 | Bioinformatics | 17 | 10 |
在

图6 论文14关注度累计百分比
同样地,K值识别法也存在一些不足。通过观察K值识别结果中未被Bcp值识别到的样本的关注曲线,发现K值识别结果可能存在沉睡时长过短的现象;而Bcp值默认论文的累计百分比曲线为J形,曲线前段切线斜率越低,即论文发表初期保持持续低被引或零被引状态,曲线整体曲度越大,论文将获得越大的指标值。上述分析表明,Bcp值中百分比的数据处理方式也占据一定优势,因此,本文认为通过两种方法实现的综合识别具有更好的识别效果。取两组识别结果均大于计算数值位于上四分位数处的样本,得到同时满足K值和Bcp值取值前列的142篇论文,作为下文经济学学科睡美人论文特征分析和比较的实证研究对象。同理,获得174篇计算机科学学科睡美人论文。
其次,将被引频次与Altmetrics关注度数据结合的识别方式与仅基于被引频次这单一数据的识别方式进行结果的对比。如
综上所述,论文关注度不仅包括学术关注度,也包括社会关注度,仅用论文被引频次来评价学术论文的影响是片面的;将论文在学术上的被引频次数据与社交媒体层面上的Altmetrics关注度数据相结合进行睡美人论文的识别是必要的,体现了在开放科学环境下进行睡美人论文识别研究的意义与价值。
3 开放科学环境下睡美人论文特征与影响因素分析
3.1 特征指标选取
由
本文借鉴文献[
其中,影响因素的确定将从期刊影响力、论文原文和社交平台关注3个方面细分特征指标,与睡美人论文K值进行相应的相关性分析和因果推断,用于发现和对比不同学科背景下影响开放科学环境下睡美人论文产生的因素。3个方面特征的细分指标如下:期刊影响力包括JCR(JournaI Citation Reports)期刊分区指标,各样本对应数值由人工检索补充,Q1~Q4分别记为1~4;原文特征包括作者数量(author)、关键词数量(Keyword)、摘要长度(Abstract)、基金资助(Fund)、参考文献数量(Reference)和篇幅(Page)6个指标,对应数值由题录数据计算得到;社交平台关注包括新闻提及(News)、博客提及(Blog)、政策提及(Policy)、维基百科(Wikipedia)、推特提及(X)、脸书提及(Facebook)和Mendeley读者数量(Mendeley)7个指标,对应数值由Altmetrics.com官网下载得到。数据分析过程基于Python和SPSS Statistics 27实现。
3.2 睡美人论文特征分析
3.2.1 经济学学科睡美人论文特征分析
(1)睡眠特征
经济学学科142篇睡美人论文发表时间年限为2004—2014年,沉睡时长从5年到15年不等,均值为7.68,有37篇超过10年,总体来看,沉睡时长相对较短。睡眠强度范围为0.17~2次,其中50篇论文睡眠期的年均被引频次小于等于1,睡眠期表现为深度睡眠状态。论文被唤醒后,唤醒强度均值达到9.38,从侧面反映了识别出的睡美人论文质量较好,论文潜在价值已被领域内学者发掘和扩散。
(2)唤醒机制
分别选取4个分区中的2个样本,同时满足深度睡眠且唤醒强度排名靠前的条件。分析这8个样本在施引文献中出现的位置和发挥的作用,以进行经济学学科睡美人论文的唤醒机制分析。
分析结果表明,经济学领域睡美人论文的唤醒机制包括:引言和综述部分对研究方法的评价,对观点和核心理论的引用,或与其他相关研究的比较;实证部分对方法的借鉴应用和改进创新,以及对数据来源、指标或影响因素等的参考;结论部分作为相近结论的参考。
(3)期刊分布特征
经济学学科142篇睡美人论文中,所在期刊影响因子涵盖范围为0.50~12.8,期刊分区包含Q1(45.5%)、Q2(26.9%)、Q3(19.8%)和Q4(7.8%),且Q3和Q4分区的期刊占比达到27.6%,充分说明发表在低影响力期刊中的部分论文仍存在一定的潜在价值。
3.2.2 计算机科学学科睡美人论文特征分析
(1)睡眠特征
计算机科学领域174篇睡美人论文发表时间年限为2000—2014年,沉睡时长从5年到17年不等,均值为8.73,有29篇超过10年,总体来看,沉睡时长相对较短。睡眠强度范围为0~2次,其中51篇论文睡眠期的年均被引频次小于等于1,睡眠期表现为深度睡眠状态。论文被唤醒后,唤醒强度均值达到15.33。
(2)唤醒机制
计算机科学领域睡美人论文唤醒机制包括:引言和综述部分说明相关研究的充分性,对应用技术的分类,对研究价值的评价,指出算法存在的局限性;实证部分对算法、思想或数据集进行借鉴或改进,作为实验步骤中一个环节的技术参考,或与相关方法进行对比;结论部分作为观点佐证,或作为可能的应用框架;讨论部分作为思路扩展的参考。
(3)期刊分布特征
计算机科学学科174篇睡美人论文中,所在期刊影响因子涵盖范围为0.3~35.6,期刊分区包含Q1(22.9%)、Q2(13.6%)、Q3(22.9%)和Q4(40.7%),且Q3和Q4分区的期刊占比达到63.6%,发表在等级较低期刊的睡美人论文超过半数。
3.3 睡美人论文影响因素分析
本节分析思路如下:首先,对睡美人论文样本的14个特征与对应K值数据进行指标相关分析,确定变量间是否存在相关关系;其次,通过回归分析判断相关的变量间是否存在显著因果关系。
3.3.1 经济学学科睡美人论文影响因素分析
本节对经济学学科的数据分析结果进行解析。经济学学科指标相关性热力图和显著性结果分别如

图7 WoS经济学学科睡美人论文特征与K值的相关性热力图
特征指标 | 相关性 | p值 | 特征指标 | 相关性 | p值 | ||
---|---|---|---|---|---|---|---|
K值 | JCR |
0.29 | <0.001 | K值 | News |
0.33 | <0.001 |
Author | -0.125 | 0.138 | Blog | -0.113 | 0.181 | ||
Keyword | 0.102 | 0.226 | Policy |
-0.55 | <0.001 | ||
Abstract | 0.118 | 0.163 | Wikipedia |
-0.26 | 0.002 | ||
Fund | 0.148 | 0.079 | X | -0.104 | 0.217 | ||
Reference | -0.107 | 0.206 | 0.088 | 0.297 | |||
Page | -0.153 | 0.069 | Mendeley |
-0.45 | <0.001 |
注: **表示具有显著相关性。
特征指标 | 标准化系数 | t值 | 显著性 | 共线性统计 | |
---|---|---|---|---|---|
β值 | 容差 | VIF (variance inflation factor) | |||
(常量) | — | 71.644 | <0.001 | — | — |
JCR | 0.240 | 3.163 | 0.002 | 0.914 | 1.094 |
News | 0.269 | 3.375 | <0.001 | 0.826 | 1.211 |
Policy | -0.204 | -2.494 | 0.014 | 0.782 | 1.279 |
Wikipedia | -0.142 | -1.782 | 0.077 | 0.821 | 1.218 |
Mendeley | -0.201 | -2.434 | 0.016 | 0.771 | 1.298 |
回归分析显著性小于0.05时,表明因果关系成立。由
较高的K值反映的是较强的沉睡特征和唤醒特征,基于此,对经济学学科的指标回归分析结果做进一步解释。对于JCR指标,期刊等级越低则K值越高,即经济学学科发表在较低影响力期刊的论文可能因为期刊影响力和话语权不强而更容易获得更明显的沉睡表现。一方面,说明学者可以通过在论文中凸显研究的新颖性和价值来获得高质量期刊的青睐,在一定程度上降低论文沉睡的可能性;另一方面,启示学者在低影响力期刊上也可能存在具有闪光点的研究,识别到这些研究并加以引用推广,对促进领域研究和学科发展具有重要意义。对于News指标,新闻提及量越多则K值越高,即新闻对于经济学学科睡美人论文的提及可以使其快速获得关注,实现唤醒,说明学者在进行学术研究时不必拘泥于时下热点,需要提高学术视野的前瞻性,即使所做研究在当下未被广泛认可,有价值的文章假以时日也有被发掘的机会。对于Policy指标和Mendeley指标,政策和社交平台读者对论文的关注度越高,经济学学科论文表现出的睡美人论文特征越不明显,即论文成为睡美人论文的可能性越低,说明在研究过程中经济学学科学者对国家政策的把握以及通过在社交平台上的宣传来提高读者阅读量,对于降低文章成为睡美人论文的概率也具有明显效果。
3.3.2 计算机科学学科睡美人论文影响因素分析
本节对计算机科学学科的数据进行解析。计算机科学学科指标相关性热力图和显著性结果分别如

图8 WoS计算机科学学科睡美人论文特征与K值的相关性热力图
特征指标 | 相关性 | p值 | 特征指标 | 相关性 | p值 | ||
---|---|---|---|---|---|---|---|
K值 | JCR | -0.040 | 0.603 | K值 | News |
0.28 | <0.001 |
Author | 0.081 | 0.289 | Blog |
0.26 | <0.001 | ||
Keyword | -0.063 | 0.406 | Policy | 0.099 | 0.193 | ||
Abstract | 0.065 | 0.395 | Wikipedia | -0.006 | 0.935 | ||
Fund |
0.23 | 0.002 | X |
0.29 | <0.001 | ||
Reference | 0.045 | 0.557 | 0.086 | 0.261 | |||
Page | -0.084 | 0.273 | Mendeley | 0.118 | 0.122 |
注: **表示具有显著相关性。
特征指标 | 标准化系数 | t值 | 显著性 | 共线性统计 | |
---|---|---|---|---|---|
β值 | 容差 | VIF | |||
(常量) | — | 163.210 | <0.001 | — | — |
Fund | 0.176 | 2.039 | 0.043 | 0.753 | 1.328 |
News | 0.085 | 0.894 | 0.372 | 0.615 | 1.626 |
Blog | 0.166 | 1.298 | 0.196 | 0.342 | 2.921 |
X | 0.003 | 0.038 | 0.970 | 0.876 | 1.142 |
Policy | 0.178 | 2.002 | 0.047 | 0.713 | 1.403 |
3.4 与中国睡美人论文对比
中国尚未建立完善的替代计量指标数据平台,相关数据不易获取,因此,本文仅选取《计算机科学与探索》这一被DOAJ收录的开放获取期刊在2007—2014年发表的论文,作为开放科学环境下中国睡美人论文研究的数据基础,将其与国外计算机科学学科的研究结果进行对比分析。
在CNKI引文数据库中进行检索,得到满足限定条件的577篇期刊论文的历年被引频次数据(作为学术关注度指标)与各篇论文的总下载量(作为社会关注度指标)。利用被引频次数据计算各样本的K值,探索577篇论文K值与作者数、关键词数、摘要长度、国家基金、下载量这5个指标的相关关系。其中,对于基金资助指标,若论文有国家级基金资助,则记为1,其余记为0。相关性分析结果显示,仅有下载量与K值呈现显著正相关关系。回归分析结果如
特征指标 | 标准化系数 | t | 显著性 | 共线性统计 | |
---|---|---|---|---|---|
β值 | 容差 | VIF | |||
(常量) | — | 10.238 | <0.001 | — | — |
下载量 | 0.211 | 5.033 | <0.001 | 0.951 | 1.052 |
作者数 | -0.040 | -0.930 | 0.353 | 0.906 | 1.104 |
关键词数 | -0.018 | -0.426 | 0.670 | 0.944 | 1.059 |
摘要长度 | 0.090 | 2.110 | 0.035 | 0.927 | 1.078 |
国家基金 | 0.084 | 2.008 | 0.045 | 0.951 | 1.052 |
由
4 结论与展望
对开放科学环境下睡美人论文进行量化识别和影响因素研究,有助于提前发现科技领域潜在的变革性研究成果,缩短重大科学发现的认可时滞,进而使有价值的论文获得更广泛、更深刻的学术影响和社会影响。本文以经济学学科代表社会科学领域、以计算机科学学科代表自然科学领域,从WoS核心合集中检索1996—2014年各学科发表的开放获取论文,创新性地将论文被引频次与开放科学环境下的Altmetrics指标数据相结合进行睡美人论文的识别,用于从整体上反映论文的沉睡和唤醒。随后,从睡眠特征、唤醒机制和期刊分布3个方面描述性地概括了睡美人论文基本特征,同时细分指标深入探索各特征指标与睡美人论文K值之间的相关性和回归性,对比了国外社会科学与自然科学睡美人论文的特征和影响因素差异。最后,将国外自然科学领域分析结果与中国CNKI数据库开放获取期刊中识别到的睡美人论文进行比较,为中国学科发展和资源库建设提供启发和帮助。通过实证部分的研究,得出以下结论。
第一,针对睡美人论文识别方法,将反映学术关注度的论文被引频次与反映社会关注度的Altmetrics数据相结合作为睡美人论文识别的原始数据是有必要且有意义的。在开放科学的新范式下,睡美人论文的沉睡和唤醒被赋予了新的含义,一些还未获得学术界广泛认可的学术论文可能因为颇高的社会关注度而被唤醒,进而得以展示其蕴含的价值。
第二,根据睡美人论文睡眠特征分析,自然科学领域更容易出现引文特征更加明显的睡美人论文。根据睡美人论文唤醒机制分析,自然科学和社会科学领域的研究都注重文章在理论方面突出的创新性和价值;同时,自然科学领域更加注重对前人算法或技术等方面的应用和完善。具备这些核心价值的睡美人论文虽然出现了沉睡现象,但是仍然可以在几年后被研究者识别和挖掘。根据睡美人论文期刊分布特征分析,社会科学领域发表在高水平期刊上的论文也可能面临沉睡多年后才被唤醒的情况,而自然科学领域睡美人论文通常出现在低水平期刊中,具有较高的学术价值。
第三,国外睡美人论文特征分析及影响因素的回归分析结果得出:对于社会科学领域,期刊影响力、新闻提及对社会科学领域睡美人论文的唤醒具有正向影响,社交平台上的阅读量对降低沉睡概率具有正向影响。一方面,社会科学领域学者在进行学术研究时,除了抓住领域热点外,也可以通过开阔自身学术视野、提升所做研究的新颖性和价值、主动在社交平台上分享研究成果等措施使得论文价值得到及时关注;另一方面,启示学者在“破五唯”的学术背景下,低影响力的期刊也应该予以关注和重视。对于自然科学领域,具有基金资助的睡美人论文具有较大的被唤醒潜力,启示学者积极参与国家基金资助项目,提升自身科研创新能力和学术成果质量。另外,政策文本的提及对两种不同领域睡美人论文的唤醒均具有显著影响,在社会科学领域表现为降低沉睡概率,在自然科学领域表现为对唤醒起到关键作用,表明学者在进行学术研究的过程中,还应该关注国家颁布的相关政策文件,立足本国实际国情开展研究。
第四,国内睡美人论文影响因素的回归结果得出:国家级基金的支持均对中国计算机科学学科睡美人论文唤醒起到了助推作用,进一步论证了基金资助对于自然科学领域论文的显著影响。同时,国内自然科学领域睡美人论文的唤醒还受下载量和摘要长度的影响。相对于国外资源库建设成果,中国应该继续发展适应本土的替代计量数据集成平
本文存在的局限和未来展望:第一,仅通过Altmetrics指标指代开放科学环境所产生的影响,然而开放科学评价不仅仅是科学影响力评价,还涉及众多领域,未来研究可以寻求更完善的开放科学环境下的可用数据;第二,可以进一步基于全文本分析等方法对睡美人论文在施引文献及社交媒体平台中的提及位置、提及强度、提及情感等方面的具体数据,探索这一特殊类型学术论文的学术影响力和社会影响力的二维变化情况,为睡美人论文唤醒机制的深入研究助力。
参 考 文 献
Barber B. Resistance by scientists to scientific discovery[J]. American Journal of Clinical Hypnosis, 2011, 5(4): 326-335. [百度学术]
Stent G S. Prematurity and uniqueness in scientific discovery[J]. Scientific American, 1972, 227(6): 84-93. [百度学术]
Garfield E. Premature discovery or delayed recognition - why?[J]. Current Contents, 1980, 21: 5-10. [百度学术]
van Raan A F J. Sleeping beauties in science[J]. Scientometrics, 2004, 59(3): 467-472. [百度学术]
叶鹰. “睡美人”释义[J]. 中国图书馆学报, 2014, 40(2): 49. [百度学术]
高健航, 高继平, 师丽娟. 国内外“睡美人”现象研究的兴起与进展[J]. 情报杂志, 2022, 41(6): 148-156. [百度学术]
曾建勋. 国家科研论文和科技信息高端交流平台构建研究[J]. 中国图书馆学报, 2024, 50(1): 66-78. [百度学术]
Zong Q J, Huang Z H, Huang J R. Do open science badges work? Estimating the effects of open science badges on an article’s social media attention and research impacts[J]. Scientometrics, 2023, 128(6): 3627-3648. [百度学术]
宋丽萍, 王建芳. 开放科学环境下负责任评价实现路径研究[J]. 中国图书馆学报, 2024, 50(2): 115-127. [百度学术]
González-Teruel A, López-Borrull A, Santos-Hermosa G, et al. Drivers and barriers in the transition to open science: the perspective of stakeholders in the Spanish scientific community[J]. Profesional de la Información, 2022, 31(3): e310305. [百度学术]
Zhang L W, Ma L. Is open science a double-edged sword? Data sharing and the changing citation pattern of Chinese economics articles[J]. Scientometrics, 2023, 128(5): 2803-2818. [百度学术]
汪舒, 韩毅. 开放科学语境下Altmetrics数据可用性研究评述[J]. 情报理论与实践, 2023, 46(11): 182-188. [百度学术]
Tay A. The open-science movement for sharing laboratory materials gains momentum[J]. Nature, 2024, 625(7996): 841-843. [百度学术]
Ferguson J, Littman R, Christensen G, et al. Survey of open science practices and attitudes in the social sciences[J]. Nature Communications, 2023, 14(1): Article No.5401. [百度学术]
McKiernan E C, Bourne P E, Brown C T, et al. How open science helps researchers succeed[J]. eLife, 2016, 5: e16800. [百度学术]
杨卫, 刘细文, 黄金霞, 等. 我国开放科学政策体系构建研究[J]. 中国科学院院刊, 2023, 38(6): 829-844. [百度学术]
张智雄, 张梦婷, 林歆, 等. 开放科学环境下全球科技期刊的发展态势[J]. 中国科学院院刊, 2023, 38(6): 795-805. [百度学术]
袁亚湘, 魏鑫, 汪洋, 等. 我国开放科学治理框架研究[J]. 中国科学院院刊, 2023, 38(6): 818-828. [百度学术]
余厚强. 替代计量学的理论框架研究[J]. 情报学报, 2022, 41(8): 775-785. [百度学术]
曾燕, 杨晓, 吴京晶. 替代计量指标的应用、问题和反思——基于发达国家科技评价政策和实践的调查[J]. 情报理论与实践, 2022, 45(6): 74-83, 97. [百度学术]
王贵海, 朱学芳. 我国替代计量学研究: 现状、演进、热点与趋势[J]. 图书馆论坛, 2020, 40(8): 43-53. [百度学术]
余厚强, 李龙飞. 政策文件替代计量指标影响因素研究[J]. 情报理论与实践, 2021, 44(7): 28-36. [百度学术]
余厚强, 章玮, 曹雪婷. 学术成果的脸书提及量分布特征研究[J]. 情报学报, 2021, 40(10): 1079-1091. [百度学术]
余厚强, 李佳桐. 作为替代计量数据源的中国新闻平台特点研究[J]. 现代情报, 2022, 42(6): 138-147, 159. [百度学术]
Costas R, van Leeuwen T N, van Raan A F J. Is scientific literature subject to a ‘sell-by-date’? A general methodology to analyze the ‘durability’ of scientific documents[J]. Journal of the American Society for Information Science and Technology, 2010, 61(2): 329-339. [百度学术]
Li J, Ye F Y. The phenomenon of all-elements-sleeping-beauties in scientific literature[J]. Scientometrics, 2012, 92(3): 795-799. [百度学术]
Li J, Shi D B, Zhao S X, et al. A study of the “heartbeat spectra” for “sleeping beauties”[J]. Journal of Informetrics, 2014, 8(3): 493-502. [百度学术]
Ke Q, Ferrara E, Radicchi F, et al. Defining and identifying Sleeping Beauties in science[J]. Proceedings of the National Academy of Sciences of the United States of America, 2015, 112(24): 7426-7431. [百度学术]
Teixeira A A C, Vieira P C, Abreu A P. Sleeping Beauties and their princes in innovation studies[J]. Scientometrics, 2017, 110(2): 541-580. [百度学术]
Du J, Wu Y S. A parameter-free index for identifying under-cited sleeping beauties in science[J]. Scientometrics, 2018, 116(2): 959-971. [百度学术]
向菲, 陈华芳, 沈桐, 等. 基于Altmetrics的睡美人文献识别方法研究[J]. 情报学报, 2023, 42(10): 1166-1175. [百度学术]
Min C, Sun J J, Pei L, et al. Measuring delayed recognition for papers: uneven weighted summation and total citations[J]. Journal of Informetrics, 2016, 10(4): 1153-1165. [百度学术]
崔静静, 胡泽文, 任萍. 基于决策树和逻辑回归模型的人工智能领域潜在“精品”论文识别研究[J]. 情报科学, 2022, 40(5): 90-96. [百度学术]
胡泽文, 任萍, 崔静静. 基于机器学习模型的科技论文潜在“精品”识别研究[J]. 情报学报, 2023, 42(2): 189-202. [百度学术]
胡泽文, 金昕悦, 崔静静. 基于改进BP神经网络和函数拟合的细胞生物学领域“睡美人”识别与典型应用探测[J]. 情报学报, 2023, 42(6): 711-728. [百度学术]
Chi Y X, Tang X Y, Liu Y J. Exploring the “awakening effect” in knowledge diffusion: a case study of publications in the library and information science domain[J]. Journal of Informetrics, 2022, 16(4): 101342. [百度学术]
向菲, 曹广, 沈桐, 等. 基于Altmetrics的睡美人文献特征与唤醒研究[J]. 情报学报, 2023, 42(11): 1276-1288. [百度学术]
王旭. 多元融合视域下中国学术期刊话语权评价研究[J]. 重庆大学学报(社会科学版), 2022, 28(6): 114-131. [百度学术]
陈传夫. 开放科学的价值观与制度逻辑[J]. 武汉大学学报(哲学社会科学版), 2023, 76(6): 173-184. [百度学术]
邱均平, 刘亚飞, 魏开洋. 科学交流视角下学术论文影响力多维评价[J]. 情报理论与实践, 2023, 46(6): 47-54. [百度学术]
侯剑华, 李昊, 张洋, 等. Altmetrics视角下科学睡美人的演化特征分析[J]. 情报学报, 2021, 40(9): 934-952. [百度学术]
Wang X. Research on the discourse power evaluation of academic journals from the perspective of multiple fusion: taking medicine, general and internal journals as an example[J]. Journal of Information Science, 2024, 50(4): 811-830. [百度学术]
Hou J H, Li H, Zhang Y. Identifying the princes base on altmetrics: an awakening mechanism of sleeping beauties from the perspective of social media[J]. PLoS One, 2020, 15(11): e0241772. [百度学术]
李秀霞, 邵作运, 刘超. 基于K值算法的图书情报领域“睡美人”文献识别[J]. 图书情报工作, 2017, 61(21): 114-122. [百度学术]
杜建, 武夷山. 一个用于识别睡美人文献的新的无参数指标——基于Science和Nature上睡美人文献的验证[J]. 情报理论与实践, 2017, 40(2): 19-25. [百度学术]
唐洁, 曾静静. 应用变异系数识别睡美人文献研究[J]. 图书情报工作, 2021, 65(6): 93-101. [百度学术]
胡泽文, 任萍, 沈佳慧. 融合K值算法与三指标的神经科学领域“睡美人”论文识别及影响因素探析[J]. 现代情报, 2022, 42(3): 147-156. [百度学术]
关娇, 胡光元. 基金资助对科研产出的影响——基于合成生物学领域的分析[J]. 中国科技论坛, 2022(10): 1-13. [百度学术]
曾建勋. 国际“高端交流平台”成功路径分析[J]. 图书情报知识, 2024, 41(4): 87-97, 109. [百度学术]