en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
英)J.D.贝尔纳. 科学的社会功能[M]. 陈体芳, 译. 北京: 商务印书馆, 1982.
参考文献 2
PiwowarH, PriemJ, LarivièreV, et al. The state of OA: A large-scale analysis of the prevalence and impact of Open Access articles[J]. PeerJ, 2018, 6: e4375.
参考文献 3
GlänzelW, SchoepflinU. A bibliometric study of reference literature in the sciences and social sciences[J]. Information Processing & Management, 1999, 35(1): 31-44.
参考文献 4
LawrenceS. Online or invisible[J]. Nature, 2001, 411: 521.
参考文献 5
CraigI D, PlumeA M, McVeighM E, et al. Do open access articles have greater citation impact?: A critical review of the literature[J]. Journal of Informetrics, 2007, 1(3): 239-248.
参考文献 6
DavisP M. Open access, readership, citations: a randomized controlled trial of scientific journal publishing[J]. The FASEB Journal, 2011, 25(7): 2129-2134.
参考文献 7
GargouriY, HajjemC, LarivièreV, et al. Self-selected or mandated, open access increases citation impact for higher quality research[J]. PLoS ONE, 2010, 5(10): e13636.
参考文献 8
MoedH F. The effect of “open access” on citation impact: An analysis of ArXiv’s condensed matter section[J]. Journal of the American Society for Information Science and Technology, 2014, 58(13): 2047-2054.
参考文献 9
LarivièreV, SugimotoC R, MacalusoB, et al. arXiv e-prints and the journal of record: An analysis of roles and relationships[J]. Journal of the American Society for Information Science and Technology, 2014, 65(6): 1157-1169.
参考文献 10
MetcalfeT S. The citation impact of digital preprint archives for solar physics papers[J]. Solar Physics, 2006, 239(1-2): 549-553.
参考文献 11
SchwarzG J, R C JrKennicutt. Demographic and citation trends in astrophysical journal papers and preprints[OL]. https://arxiv.org/abs/astro-ph/0411275.
参考文献 12
DavisP M, FromerthM J. Does the arXiv lead to higher citations and reduced publisher downloads for mathematics articles?[J]. Scientometrics, 2006, 71(2): 203-215.
参考文献 13
ChenY, WangZ, TanJ, et al. The position of preprint in scholarly communication: A biliometric and empirical study of arXiv[C]// Proceedings of the 16th Conference on International Society of Scientometrics and Informetrics, 2017: 799-809.
参考文献 14
ThelwallM, KoushaK. ResearchGate versus Google Scholar: Which finds more early citations?[J]. Scientometrics, 2017, 112(1): 1-7.
参考文献 15
ThelwallM. Dimensions: A competitor to Scopus and the Web of Science?[J]. Journal of Informetrics, 2018, 12(2): 430-435.
参考文献 16
HarzingA W, AlakangasS. Google Scholar, Scopus and the Web of Science: A longitudinal and cross-disciplinary comparison[J]. Scientometrics, 2016, 106(2): 787-804.
参考文献 17
Martín-MartínA, Orduna-MaleaE, López-CózarE D. Coverage of highly-cited documents in Google Scholar, Web of Science, and Scopus: A multidisciplinary comparison[J]. Scientometrics, 2018, 116(3): 2175-2188.
参考文献 18
GlänzelW, ThijsB, DebackereK. Productivity, performance, efficiency, impact—What do we measure anyway?[J]. Journal of Informetrics, 2016, 10(2): 658-660.
参考文献 19
GlänzelW, GorraizJ. Usage metrics versus altmetrics: Confusing terminology?[J]. Scientometrics, 2015, 102(3): 2161-2164.
参考文献 20
王贤文, 方志超, 胡志刚. 科学论文的科学计量分析: 数据、方法与用途的整合框架[J]. 图书情报工作, 2015, 59(16): 74-82.
参考文献 21
HausteinS, LarivièreV, ThelwallM, et al. Tweets vs. Mendeley readers: How do these two social media metrics differ?[J]. Information Technology, 2014, 56(5): 207-215.
参考文献 22
CostasR, ZahediZ, WoutersP. Do “altmetrics” correlate with citations? Extensive comparison of altmetric indicators with citations from a multidisciplinary perspective[J]. Journal of the Association for Information Science and Technology, 2015, 66(10): 2003-2019.
参考文献 23
LiX, ThelwallM, GiustiniD. Validating online reference managers for scholarly impact measurement[J]. Scientometrics, 2012, 91(2): 461-471.
参考文献 24
ThelwallM, WilsonP. Mendeley readership altmetrics for medical articles: An analysis of 45 fields[J]. Journal of the Association for Information Science and Technology, 2016, 67(8): 1962-1972..
参考文献 25
MohammadiE, ThelwallM. Mendeley readership altmetrics for the social sciences and humanities: Research evaluation and knowledge flows[J]. Journal of the Association for Information Science and Technology, 2014, 65(8): 1627-1638.
参考文献 26
ThelwallM, KoushaK. ResearchGate articles: Age, discipline, audience size, and impact[J]. Journal of the Association for Information Science and Technology, 2017, 68(2): 468-479.
参考文献 27
ThelwallM. Are Mendeley reader counts useful impact indicators in all fields?[J]. Scientometrics, 2017, 113(3): 1721-1731.
参考文献 28
MaflahiN, ThelwallM. When are readership counts as useful as citation counts? Scopus versus Mendeley for LIS journals[J]. Journal of the Association for Information Science and Technology, 2016, 67(1): 191-199.
参考文献 29
ThelwallM. Can Microsoft Academic be used for citation analysis of preprint archives? The case of the Social Science Research Network[J]. Scientometrics, 2018, 115(2): 913-928.
参考文献 30
WangX W, LiuC, MaoW L, et al. The open access advantage considering citation, article usage and social media attention[J]. Scientometrics, 2015, 103(2): 555-564.
参考文献 31
ShuaiX, PepeA, BollenJ. How the scientific community reacts to newly submitted preprints: Article downloads, Twitter mentions, and citations[J]. PLoS ONE, 2012, 7(11): e47523.
参考文献 32
BrodyT, HarnadS, CarrL. Earlier web usage statistics as predictors of later citation impact[J]. Journal of the Association for Information Science and Technology, 2010, 57(8): 1060-1072.
参考文献 33
ChiP S, GlänzelW. An empirical investigation of the associations among usage, scientific collaboration and citation impact[J]. Scientometrics, 2017, 112(1): 403-412.
参考文献 34
WangX, MaoW, XuS, et al. Usage history of scientific literature: Nature metrics, and metrics of Nature, publications[J]. Scientometrics, 2014, 98(3): 1923-1933.
参考文献 35
WangX, FangZ, SunX. Usage patterns of scholarly articles on Web of Science: A study on Web of Science usage count[J]. Scientometrics, 2016, 109(2): 917-926.
参考文献 36
GlänzelW, MoedH F. Opinion paper: Thoughts and facts on bibliometric indicators[J]. Scientometrics, 2013, 96: 381-394.
参考文献 37
GlänzelW, SchoepflinU. A bibliometric study on ageing and reception process of scientific literature[J]. Journal of Information Science, 1995, 21(1): 37-53.
参考文献 38
GlänzelW, ThijsB, ChiP S. The challenges to expand bibliometric studies from periodical literature to monographic literature with a new data source: The book citation index[J]. Scientometrics, 2016, 109(3): 2165-2179.
参考文献 39
SudP, ThelwallM. Evaluating altmetrics[J]. Scientometrics, 2014, 98(2): 1131-1143.
参考文献 40
ThelwallM, FaircloughR. The influence of time and discipline on the magnitude of correlations between citation counts and quality scores[J]. Journal of Informetrics, 2015, 9(3): 529-541.
目录 contents

    摘要

    以图书情报领域的550篇arXiv论文和5782篇non-arXiv论文(2005—2017年)为主要分析对象,运用文献计量学理论与方法,从引用度和关注度两个层面对论文的影响力进行比较分析。研究结果表明,arXiv论文在Web of Science(WoS)、Scopus和Google Scholar数据库中均具有显著的引用优势;关注度优势主要体现在Mendeley读者数上,其在WoS使用量和Twitter转载量上表现并不明显;补充计量指标的发展有利于推动学术资源的开放获取,预印本的Mendeley读者数和WoS使用量均与被引量显著相关,但前者的适用性和可靠性更高。本文的研究结果揭示了图书情报预印本在科学发展和交流中的作用和地位,为构建一个更加完善的、适用于当今不同交流模式和交流载体的“多指标”评价体系提供了启示。

    Abstract

    This paper focuses on those preprints in arXiv that are also published in three major journals in Library and Information Science (LIS) and further explores the border impact of the preprints from several perspectives. In particular, the following four indicators are used to examine the 550 arXiv and 5782 non-arXiv papers: citations from the Web of Science Core Collection (CF-WoS), Scopus, and Google Scholar; usage counts in WoS (UC); Mendeley readers (MR); and Tweets (TM), which are considered proxies for social attention. The results show different citation trends for the two sets of papers, wherein preprints have an obvious citation advantage compared with the other documents. The development of altmetrics in research evaluation promotes the open access process of scientific resources. The impact advantage of arXiv papers can also be observed in MR but is hardly reflected by UC or TM. A linear regression analysis substantiates that MR and UC do strongly correlate with CF-WoS, which also holds for the relationship with Scopus and Google Scholar citations, but MR is more suitable to assist in the evaluation of the impact of preprints. The strong correlation between readers/usage and citations may be interpreted in the sense that arXiv papers gain broader attention than non-arXiv papers, not only from subscribers of the WoS. This study helps to reveal the role of preprints in LIS and provides inspiration to build a more complete evaluation index system currently suitable for different methods of scientific communication from the “multiple indicator” view.

  • 1 引 言

    科学交流(Scientific Communication)是科学知识生产过程中的重要环节,承载了知识流动、知识扩散和知识评价的重要功能。科学学奠基人J.D.贝尔[1]早在1939年就明确提出,科学交流是科学赖以存在和发展的基本机制,是科学研究不可分割的组成部分。科学知识的加速增长和更新也使得科学家迫切需要开放自由的学术交流生态系统,而近年来信息技术发展为学术交流渠道的拓展提供了发展土壤。自从1991年Paul Ginsparg 建立世界上第一个预印本电子文献仓储库(arXiv.org)起,这种以“无同行评议发表”、“免费发表”和“开放存取”为主要特征的出版模式首先在自然科学领域流行起来,涵盖的学术论文也从最初的物理学逐渐扩展到数学、计算机科学、经济学等,近些年生物医学和化学领域的预印本也得到迅速发展,bioRxiv和ChemRxiv预印本文库相继建立,中国第一个按照国际通行模式规范运行的预印本平台“中国科学院科技论文预发布平台ChinaXiv”也于2016年6月正式上线,这是中科院践行国家创新驱动发展战略的重要一。基于预印本的学术交流系统可以缩短科技成果发布周期,加强知识的互动和透明,推动科技成果的快速流转和开放获取,促进科技成果的有效转化,这些优势使得预印本不仅为科研工作者所青睐,更受到了来自政府、科研机构、项目资助机构的关注和支持,许多著名学术出版商(如Elsevier、Springer和Wiley)都明确公布了论文预印本的开放获取政策,可见预印本已经成为当今科研评价不可忽视的一个重要科研产出文本集。有研究表明,2009—2015年WoS(Web of Science)数据库收录的所有学术论文中开放获取论文的比例已经达到了36%,而其中绿色开放获取论文(Green OA)的比例约为11.5%,且这一比例在近些年呈现出稳定的增长趋[2]。开放获取的发展需要开放和多元的评价指标,全面深入分析各科研评价指标对预印本的评估作用,对于构建一个更加完善的、适用于当今不同交流模式和交流载体的“多指标”评价体系,进而充分发挥预印本在学术交流中的积极作用,促进科学交流的开放发展进程,推动国际学术合作和科技创新发展等意义深远。

    脚注
    https://chinaxiv.org
    脚注
    https://www.elsevier.com/about/policies/sharing
    脚注
    https://www.springer.com/gp/open-access/authors-rights/self-archiving-policy/2124
    脚注
    https://authorservices.wiley.com/author-resources/Journal-Authors/licensing/self-archiving.html

    论文的被引量是科研影响力评价的常用指标之[3],格式规范的论文引文数据为基于文献计量学的科研评价提供了可靠的数据来源。自从Lawrence[4]于2001年发现计算机领域的开放获取论文相比非开放获取论文的引用量高2.6倍左右,开放获取引用优势(OA citation advantage)便在学术界引起了广泛关[5,6,7],而预印本的“提前获取”性(论文在正式发表学术期刊前将论文进行自存档)对论文的被引频次也被证实具有正向积极影[8,9]。尽管预印本的引用优势已在物理[10]、天文[11]和数[12]等多个领域进行了探讨,但目前有关图书情报领域(library and information science,LIS)预印本的研究还不多见。在我们先前的研究中,WoS中图书情报学主要期刊中的预印本在WoS中的引用优势为108.95%[13]。近些年,Scopus和Google Scholar在科研评价中的地位也越来越凸[14,15]。Scopus数据库目前涵盖的被引文献条目超过14亿,其引用量被泰晤士高等教育用来评估世界大学排[16];Google Scholar涵盖的文献范围比WoS和Scopus更为广泛,尤其是在社会科学和人文科学领[17],尽管对于将Google Scholar引文数据用于作者或单篇论文的评价目前还存在争议,但是它的优势也同样突出,尤其是对论文早期影响力的评[14,16]。本研究对图书情报(LIS)领域预印本在三个数据库中的引用特征进行综合比较分析,进而对科学合理地选择评估数据库进行科研评价提供启示。

    脚注
    https://www.elsevier.com/solutions/scopus/content

    被引量通常是在论文发表2,3年后才能达到引用峰[18],更多体现的是其在学术同行中的学术影响力;而如今随着社交网络的迅速发展,论文的社会影响力受到了广泛关注,论文的下载量、读者数、转发量和讨论量等使用数据(Usage)和补充计量(Altmetrics)数据不但丰富了科研评价指标,也在一定程度上弥补了被引量具有时间滞后性的缺[19]。Usage是对论文发表后使用情况的最为直接的计量指标,在文献计量学中通常包括论文的浏览数据和下载数[20]。Altmetrics指标相比于Usage指标更关注论文在社会公众和社交媒体中的影[19],而不同的Altmetrics指标反映了论文不同方面的影响[21]。本文主要关注Mendeley读者数和Twitter转载量,这两个指标相应来源网站的开放API也为大规模的数据收集和分析提供了条件。Mendeley是一款文献管理工具,它的文献学科覆盖率高于同类工具(如CiteULike等[22,23],且论文的读者数与被引量之间的显著相关性在许多领域被证[24,25,26,27],Mendeley的读者数不但在一定程度上反映了论文在同行中的认可度,也反映了在其他群体(如初级研究者、学生、教师或者临床工作者)中的影响力。Maflahi[28]和Thelwall[29]认为Mendeley读者数适用于论文早期影响力的评价,因而可以用于对预印本的影响力进行评估。Wang[30]发现Nature Communications期刊上的OA论文在社交媒体中的提及量是non-OA论文的1.22~1.44倍。Shuai[31]研究发现预印本的早期引用量与Twitter转载量相关性更强。Brody[32]指出,论文的reading-citing循环通常需要3个月,或者1~2年的更长时间,并且早期的使用数据可以实现对后期的引用量的预测。自从WoS在2015年9月开始提供论文的使用数据后,将该指标用于科研评价的可靠性和适用性便受到关[32,33,34]。WoS中的使用量是指用户自2013年1月1日开始访问某条记录全文或是保存记录的次数。Chi[33]研究表明,社会科学和临床医学领域的WoS使用量与引用量都显著相关(R>0.5),但由于PubMed数据库的存在,使得其使用量并不如社会科学领域那么突出。而目前关于将论文自存档在arXiv预印本平台中会对论文的WoS使用量和Mendeley读者数上有何影响的研究还相对欠缺。

    本文以LIS领域arXiv论文为考察对象,从文献计量学视角出发,对其在引用度和关注度两个维度上的评价指标与non-arXiv论文进行对比分析,以期全面展现预印本在LIS领域中的作用和地位,进而为促进LIS领域的学术交流,构建更为公平合理的“多指标”论文影响力评价指标体系提供启示。基于以上讨论,本文主要关注的问题有:在LIS领域,①arXiv论文相比non-arXiv论文是否具有引用优势,表现出怎样的引用特征?②arXiv论文是否会比non-arXiv论文受到更多的关注?这种关注主要体现在哪些指标?③两种类型论文的引用度和关注度“多指标”之间的关系如何?哪些指标更适用于预印本的评价?

  • 2 数据来源及处理

    首先基于WoS数据库和arXiv预印本仓储库确定本文要考察的数据范围,并获取了其在WoS、Scopus和Google Scholar中的被引量(Cited Frequency,CF),以及WoS中的使用量(Usage Counts,UC),而对于论文的Altmetrics计量指标,本文则主要选取的是论文的Mendeley读者数(Mendeley Readers,MR)和Twitter转载数(Twitter Mentions,TM)。选择这些计量指标的原因已在本文引言中介绍。

  • 2.1  期刊选取

    将98种WoS索引中的前50种高载文量(占98种期刊总载文量39173的80%以上)的图书情报类(WC=“Information Science & Library Science”)期刊与arXiv仓储论文元数据(利用arXiv API进行收集)中“〈journal-ref〉”和“〈arxiv:comment〉”字段匹配获得25个共有期刊,其中87%的arXiv论文发表在ScientometricsSCIM)、Journal of the Association for Information Science and TechnologyJASISTJournal of InformetricsJOI)三大期刊上。本文以这三本期刊为样本数据源,将其被WoS收录的文献(article、letter和review类型)通过“标题”、“摘要”和“作者信息”与arXiv仓储论文进行相似性匹配,最终得到了570篇arXiv期刊论文预印本,包括前印本(Pre-print,论文发刊前存档在arXiv中)和后印本(Post-print,论文发刊后存档在arXiv中;表1)。

    脚注
    https://arxiv.org/help/api/user-manual
    脚注
    2013年之前该期刊名为Journal of the American Society for Information Science and Technology。

    表1 LIS领域三大期刊的arXiv载文量

    刊名(JIF 2016)arXiv 论文量(1997,2002—2018)arXiv 论文量(2005—2017)期刊载文量(2005—2017)百分比/%
    SCIM(2.147)20319431816.10
    JASIST(2.322)20219824578.06
    JOI(2.920)16515877020.52
    总计57055063328.69

    注:arXiv中的论文量统计时间为2018年3月6日;LIS三本期刊中arXiv论文的最早存储时间为2001年10月22日,此论文于2002年2月15日发表在JASIST期刊中;而arXiv论文的最早出版时间为1997年,此论文于2001年存储于arXiv中,此后到2002年才有发表的期刊论文存储于arXiv中,而直到2005年以后arXiv论文的发表时间才开始连续;2005—2017年出版的期刊论文中共有550篇同时存储在arXiv中。

  • 2.2  数据处理

    本文以2005—2017年发表的550篇arXiv期刊论文和5782篇非arXiv(non-arXiv)期刊论文作为原始数据,并根据研究的需要,对数据进行了预处理。

    arXiv论文的存储于arXiv平台的时间和期刊发表时间通常不同,本文利用Python程序爬取到arXiv论文的在线出版时间(online publication time),并对数据集进行分类(表2)。期刊开放获取论文[又称为“金色开放获取(Gold OA)”论文]相比于非Gold OA,被引量、使用量和Altmetrics指标会有不同的特征和趋[34,35],为避免这部分数据对结果造成干扰,本文清洗掉了数据集中的240篇Gold OA文献,最终剩余508篇arXiv论文和5584篇non-arXiv论文作为分析数据集。在后文中涉及与Scopus数据相关的分析时,我们清除掉了54篇并没有收录在Scopus中的non-arXiv论文(表2)。Google Scholar被引量无法通过与WoS和Scopus相似的方式直接从数据库中批量下载,我们利用Publish or Perish工获取,通过将文章标题和DOI号与原始数据源中的6332条数据进行匹配,来获取其被引量,而后在Google Scholar中人工检索并补充了近100条无法匹配的数据,最终获得了506篇arXiv论文和5575篇non-arXiv论文在Google Scholar中的引用量。arXiv和non-arXiv论文在Mendeley和Twitter中的覆盖率分别约为97%和30%。

    表2 arXivnon-arXiv论文的索引情况及在MendeleyTwitter中的覆盖率

    收录论文的数量读者数转载量
    WoSScopusGoogle ScholarMendeleyTwitter
    arXiv508508506493287
    non-arXiv55845530557553991545
    总计60926038608158921832
    覆盖率/%10099.199.8

    96.7%(WoS)

    97.6%(Scopus)

    96.9%(Google Scholar)

    30.1%(WoS)

    30.3%(Scopus)

    30.1%(Google Scholar)

    脚注
    Gold OA(即金色开放获取论文):经同行评议后的文章,且可从出版商处免费阅读和下载。
    脚注
    www.harzing.com/resources/publish-or-perish
  • 3 arXiv论文的增长趋势和引用特征

  • 3.1  arXiv论文的增长趋势

    图书情报的arXiv论文占比逐年增长。LIS领域三大期刊上发表的arXiv论文数占比为8.69%(表1),高于2011年WoS论文在arXiv中自存档的平均比例3.6%,但远低于预印本最早发起的物理学领域,该领域和数学领域的占比都高达20%以[9]。但一个事实是,arXiv论文网上提交数量和期刊发表数量都呈现总体增长趋势(图1)。arXiv期刊论文占比在逐年上升(图1a),从2005年的4.41%上升到2010年的9.77%,2017年的比例达到了11.56%。2009年和2013年,arXiv论文网上提交论文量较高(图1b),2009年峰值的形成是由于同一个作者在这一年提交了大量论文,而2013年的峰值是由于有更多的作者将论文存储到了arXiv仓储中,这在一定程度上表明图书情报学研究者通过自存档方式发表论文参与科学交流的程度在逐渐提高。arXiv论文的第一作者数量(实线,已去重)和总作者数量(虚线,已去重)的年增长趋势也印证了这一观点(图1b),第一作者的数量从2005年的4个上升到2017年的38个,总作者数量从13上升到100。

    图1
                            arXiv论文的增长趋势

    图1 arXiv论文的增长趋势

    三本期刊对经同行评议后的论文在网络中进行自存档的时间均有明确的延迟规定(Embargo Period,即经同行评审后的论文版本在论文正式发表12个月后方可将其存储到开放存储平台中。而从本文的统计结果来看,自2010年以后有70%的论文在arXiv中存储其相应的前印本,尤其是近5年,前印本比例高达80%(图1a)。前印本的存档时间比网络发表时间平均提前6个月左右,可见图书情报研究者对科研成果能够及时、迅速、广泛传播的需求越来越强,读者不仅能够通过arXiv平台快速方便地获知本领域最新的科研动态,而且作者也可以通过电子邮箱与读者进行讨论交流,以便论文在正式期刊发表之前得以改进,这也是目前“开放评议”的一种体现形式,是“同行评议”的有益补充。

    脚注
    Self-archiving policy[EB/OL]. https://www.springer.com/gp/open-access/authors-rights/self-archiving-policy/2124
  • 3.2  图书情报类arXiv论文的引用特征

    了解不同类型论文的引用老化过程(Citations Aging)对选取合适的引文时间窗口进行科研评估意义重[36,37]。Glänzel[37,38]考察跨学科的大规模引文变化趋势后认为,9年的引文窗口对分析不同学科的文献老化过程较为合适。据此,本文在原始数据集中截取2005—2009年发表的97篇arXiv期刊论文和1579篇non-arXiv期刊论文作为应用特征分析的数据对象,将其分为四种类型(图2),以比较它们在发表后9年间的篇均被引频次变化趋势与特征(图3a)。由于不同引用量级的论文会呈现出不同的老化趋[7,35],因而本文还分析了在WoS中总被引频次不少于10次的1036篇文献高被引文献(4类论文的文献量分别为46篇、45篇、65篇和880篇)的篇均被引量变化趋势(图3b)。

    图2
                            四种类型的期刊论文(2005—2009年)

    图2 四种类型的期刊论文(2005—2009年)

    注:“绿色开放获取”依据WoS数据库中识别出的Green OA文章的定义,即可免费从知识库中获取到的最终发表的文章或经过同行评审的手稿。

    图3
                            篇均被引频次变化趋势(2005—2009年)

    图3 篇均被引频次变化趋势(2005—2009年)

    3表明,arXiv论文的前印本引文趋势近似“快速增长-快速下降”模式,转折点约为发表后第三年;后印本和OA-non-arXiv论文则为“慢速增长—慢速下降”,转折点为发表后3~4年;NOA-non-arXiv论文则为“慢速增长—持续稳定”,最初稳定点为发表后4~5年;arXiv论文的篇均被引量都高于同年的non-arXiv论文;对于高被引论文,后印本与OA-non-arXiv论文的引文趋势线极为接近,说明论文在期刊发表后再进行自存档的引文分布模式介于前印本和NOA-non-arXiv论文之间。基于以上分析我们可以推测,预印本的影响力在基于短时间窗口的引文评价中优势为显著。

    WoS、Scopus和Google Scholar是当前最具有代表性的三大文献索引数据库,我们将arXiv论文和non-arXiv论文进行对比分析,从而揭示arXiv论文在这三大数据库中的引文特征。在此需要说明的是,由于我们无法从Google Scholar中获取到类似于WoS和Scopus中引用量的年度变化趋势,而为了进行可靠的对比分析,本文接下来的分析均使用论文的累积引用量,即论文自发表后到2018年3月6日的总被引频次。表3显示,arXiv论文比non-arXiv论文的篇均被引量均显示出明显的引用优势,尤其是近4年来,用来反映引用差异的CID值在三个数据中均高于70%,即arXiv篇均被引量至少是non-arXiv论文的2倍。WoS-CID近5年呈现小幅增长趋势(从2013年的52.59增长到2017年的94.81),这与本文在前文中的推测一致,即预印本在基于短时间窗口的引文评价中优势较为显著。此外,两类论文在三个数据库中的篇均被引量表明,Google Scholar能提供更多的被引证据,图3用统计学理论证实了这一现象。

    表3 arXiv相比较于non-arXiv论文的引用优势

    年份WoSScopusGoogle Scholar
    arXivnon-arXivCIDarXivnon-arXivCIDarXivnon-arXivCID
    200539.924.9646.0743.830.8334.7683.460.6431.60
    2006123.629.26123.43139.835.63118.76271.977.77111.04
    200775.6328.2491.2587.4236.4382.34150.0576.0565.46
    200849.8922.8274.4654.4726.8168.0691.4254.9449.85
    200956.1320.8791.5863.7226.682.20120.4750.9581.11
    201050.7820.5684.7258.2225.4778.27113.5445.1586.19
    201138.1218.2170.6942.9722.3163.3077.2439.6164.41
    201231.6614.1476.5135.1317.0669.2560.7231.0364.72
    201315.979.3252.5918.0511.4444.8330.6720.3140.64
    201417.167.6876.3320.489.2275.8239.7117.179.60
    201513.075.0987.8916.456.1591.1534.3311.14102.00
    20167.953.0788.579.773.9884.2218.228.770.73
    20171.990.7194.812.611.1776.196.032.486.12

    注:CID(Citation Impact Differential)指引用差异,计算公[8]为CID=100×(CPPa-CPPna)/[(CPPa-CPPna)/2]。式中,CPPa表示arXiv论文的篇均被引量,CPPna表示non-arXiv

    为了比较arXiv论文和non-arXiv论文在不同数据库中的引用差异的显著程度,我们将被引量取对数处理,以使其分布近似正态分[14],从而计算置信区间。如果三个数据库的置信区间完全不重合,则说明具有显著差异(但反过来并不成立:即使有部分重合,差异也可能是显著的)。分析结果(图4)表明,两种类型的论文在Google Scholar中的被引量总体上与WoS和Scopus中的被引量在各个年份均具有显著差异,虽然2005—2008年的arXiv论文的Google Scholar被引量的置信区间与WoS和Scopus有重合,但结合表3发现,arXiv在这三年的Google Scholar引用量大约是后二者的2倍,因而我们认为差异依然是显著的。

    图4
                            arXiv论文(左)和non-arXiv论文(右)在三大数据库中的篇均被引量误差条形图:95%置信区间。

    图4 arXiv论文(左)和non-arXiv论文(右)在三大数据库中的篇均被引量误差条形图:95%置信区间。

    不同类型的论文在不同数据库中的引文变化趋势和引文量差异程度不同,我们对这种差异程度进行量化分析,以发现不同类型论文的引用差异值的变化规律。依据公式(1)分别计算了arXiv论文和non-arXiv论文在Scopus和Google Scholar中被引量与WoS中被引量的差异(CID)(图5)。

    图5
                            论文在Scopus和Google Scholar中相比WoS中的引用差异

    图5 论文在Scopus和Google Scholar中相比WoS中的引用差异

    CID=100[CPPSC\GS-CPPWoS]/[(CPPSC\GS+CPPWoS)/2]
    (1)

    式中,CPPSC\GS表示论文在Scopus(SC)或Google Scholar(GS)中的篇均被引量;CPPWoS表示论文在Web of Science(WoS)中的篇均被引量。

    两个最为有趣的特征是:①两类论文在2005—2013年的CID曲线都呈现出稳定的平缓态势,之后差异开始显著增加(尤其是2015年以后发表的论文),可见Scopus和Google Scholar相比WoS更适用于论文早期影响力的评价,尤其是Google Scholar;②相比non-arXiv论文,arXiv论文在Scopus获得的引文增量较少,而其Google Scholar-CID值相对更小,可见,尽管Google Scholar中论文引用数据来源范围更广,但它并没有为arXiv论文提供更多的引用优势。

  • 4 图书情报类arXiv论文的关注度

    本文选取论文的WoS使用量(UC)、Mendeley读者数(MR)以及Twitter转载量(TM)作为关注度计量指标,并提出以下假设:arXiv论文在预印本仓储中的开放获取有可能减少其在WoS中的UC;MR统计的是一篇论文(所有版本)的Mendeley读者数,也就是说,arXiv论文的仓储版本(唯一arXiv 识别号)和期刊正式发表的版本(唯一DOI号)的读者数将会被合并统计,因而有可能获得更多的读者数;TM反映的是论文在社交媒体中的关注度,而arXiv论文是否具有显著的Twitter转载量优势有待检验。基于以上假设,本文对arXiv论文和non-arXiv论文的这三个关注度指标(UC、MR、TM)进行对比分析,并对它们与三个数据库引用量(CF-WoS、CF-Scopus、CF-GoogleScholar)之间的关系进行相关性和回归分析。

  • 4.1  关注度计量指标测度

    arXiv论文的MR相比non-arXiv具有显著优势(尤其是近三年发表的论文),AID最低为62%,但其UC并不高,2017年的篇均使用量为20.88,几乎与non-arXiv(19.17)一样(表4)。此外,由于本数据集中Twitter涵盖的数据范围过小(表2),接近70%的论文的TM为0,使得TM-CID计算结果波动较大(在-24.48到162之间无规律波动),因而TM相对其他两个指标对图书情报领域论文影响力评估的可靠性最弱。图6更为清晰地显示了arXiv论文在近5年相比non-arXiv论文在各计量指标上的优势差异,其UC的弱优势和CF及MR的显著优势表明,将论文自存档于开放获取平台上可以增加论文的可见性和易获取性,从而提升学术影响力。

    图6
                            arXiv vs non-arXiv论文的关注度指标优势

    图6 arXiv vs non-arXiv论文的关注度指标优势

    表4 arXivnon-arXiv论文的多重关注度指标

    年份Mendeley Readers(MR)Twitter Mentions(TM)WoS Usage(UC)
    arXivnon-arXivAIDarXivnon-arXivAIDarXivnon-arXivAID
    200542.2033.1823.930.10
    200673.7036.1268.430.20
    200793.3738.3283.600.63
    200867.1135.9960.360.05
    200974.1938.2363.970.47
    201083.6343.2663.620.370.2058.29
    201156.6437.9839.440.330.315.86
    201266.5333.5965.8215.131.59162.01
    201343.0730.2534.962.503.20-24.4851.4847.029.06
    201464.7027.8079.777.631.76124.9759.4042.3033.63
    201566.8525.0291.067.251.76121.7648.2938.5022.55
    201641.1221.6462.095.803.4052.1835.9529.4719.82
    201723.2210.8472.686.735.8314.3620.8819.178.52

    注:non-arXiv论文在2005—2009年没有Twitter转载量,2013年以后发表的论文才有WoS的使用量统计。AID(Altmetric Impact Differential)指UC、MR、TM三个指标的影响力差异,AID=100×(CPPa(UC\MR\TM)-CPPna(UC\MR\TM))/[(CPPa(UC\MR\TM)+CPPna(UC\MR\TM))/2];式中,CPPa(UC\MR\TM)表示arXivUCMRTMCPPna(UC\MR\TM)表示non-arXivUCMRTM

    此外,本文通过考察arXiv论文和non-arXiv论文的Mendeley读者的职业标签和研究领域标签发现(图7),Mendeley最大的读者群体是学生,其中博士为最主要的学生群体。读者研究领域除了图书情报和计算机科学外,还有经济管理、生态学、艺术与人文等。而更值得我们注意的是,①图7a显示,arXiv论文的第二大读者群体来自图书馆员,占比非常接近博士生,是non-arXiv论文图书馆员读者量比例的2倍左右;②图7b显示,arXiv论文有2%左右的读者研究领域为物理和天文学方向,有0.33%的读者为数学方向,而non-arXiv论文这两个领域的读者并不在前10个研究领域中(除去图书情报和计算机科学领域外)。由此可知,两类论文的读者群体存在差异。arXiv论文由于自存档在arXiv预印本仓储库中,因而获得了更多的来自物理学、天文学和数学领域研究者的关注,而图书馆员作为开放获取运动的积极支持者和推动者,对arXiv论文的关注度也较高。

    图7
                            arXiv论文和non-arXiv论文的Mendeley读者的(a)职业标签和(b)研究领域标签图书情报和计算机科学两个占比最高(均>33%)的研究领域除外。

    图7 arXiv论文和non-arXiv论文的Mendeley读者的(a)职业标签和(b)研究领域标签图书情报和计算机科学两个占比最高(均>33%)的研究领域除外。

  • 4.2  关注度计量指标的检验

    由于论文被引频次的累积效应,以及论文的使用量、读者量和社交媒体关注量不仅与论文发表时间有关,同时也会受到相应数据来源平台的发展状况(如不同国家、不同学科和科学家及公众对平台的使用程度)的影响,因而在进行相关性检验时,应当分时间段对变量进行考察,这样做的科学性和必要性已经被多个研究所证[29,39,40]。考虑到本研究数据集中每年的arXiv论文量不高,我们根据arXiv论文量将2005—2017年划分为四个时间区间以进行有效的统计分析(表5)。

    表5 依据arXiv论文数量进行的时间分区

    时间区间arXiv论文数量
    WoSScopusGoogle Scholar
    2005—2009年919190
    2010—2012年112112111
    2013—2015年178178177
    2016—2017年127127127

    相关分析结果表明(表6),arXiv和non-arXiv论文的被引量(CF)与其MR和UC均显著正向强相关(一般情况下R>0.5则认为强相[24]),且近5年发表的论文的MR与CF的相关性更高。此外,在前两个时间段(2005—2009年和2010—2012年)的arXiv论文在WoS和Scopus的CF与MR的相关系数相比于non-arXiv论文要小,但在后两个时间段(2013—2015年和2016—2017年)情况则相反。可见,在评估情报领域的预印本和非预印本论文学术影响力时,MR相比较于UC更具有可靠性,且优于TM;MR指标可以弥补CF指标对论文早期影响力评价上的不足。

    表6 WoS/Scopus/Google Scholar数据库中的CFMRTMUC的相关性

    PYMendeley ReadersTwitter MentionsUsage Counts
    arXivNon-arXivarXivNon-arXivarXivNon-arXiv
    2005-2009.724**/.739**/.733**.755**/.748**/.705**0.06/0.07/0.08
    2010-2012.678**/.702**/.755**.776**/.758**/.830**0.10/0.10/0.10↓.205**/.203**/.235**
    2013-2015.770**/.988**/.938**.647**/.672**/.699**.382**/.393**/.358**.231**/.262**/.295**.726**/.723**/.761**.524**/.527**/.514**
    2016-2017.854**/.871**/.890**.810**/.852**/.914**.202*/.196*/.268**.104**/.105**/.082*.811**/825**/.843**.622**/639**/.573**

    注:**表示在0.01水平(双尾)显著相关*表示在0.05水平(双尾)显著相关。

    为科学地使用论文学术影响力评价的各指标,在了解各指标间的相关性基础上,进一步揭示各指标与被引量间的线性关系是必要的。考虑到arXiv论文和non-arXiv论文在三大文献数据库中的被引量具有强相关性(R>0.8),且与MR和UC的相关系数相似,我们选择其中一个数据库的被引量作为参考组即可。由于WoS对本研究中的两类论文涵盖量最高,且是公认的权威引文分析数据库,因而我们最终选用WoS引用量(CF-WoS)作为参照组。

    CF-WoS与Mendeley Readers回归结果(图8)显示,两种类型论文的线性回归系数(b值)均在逐渐下降(0.75—0.45—0.19—0.19,arXiv;0.73—0.46—0.18—0.1,non-arXiv),且二者的b值在同一时间区间内相近(0.75—0.73,0.45—0.46,0.19—0.18,0.19—0.1)。论文在被大量引用前首先表现为Mendeley读者数的积累,无论是否为arXiv论文,在发表5年内引用量与读者量之间基本上是1∶5的关系,而之后渐变为1∶2,在发表后8年约为3∶4。这一结果与Maflahi[28]在2015年的有关研究结论基本一致,他们发现LIS领域论文(1996—2013年)发表7年后的Scopus引用量与Mendeley读者数接近1∶1,此后二者间的相关性维持在0.6左右的显著程度,并认为随着Mendeley用户的叠加积累效应(新用户的增加和老用户添加的参考文献的增加),引用量接近读者数的时间会被延长。

    图8
                            arXiv和non-arXiv论文的WoS被引量与Mendeley读者数之间的关系(上:arXiv论文;下:non-arXiv论文)

    图8 arXiv和non-arXiv论文的WoS被引量与Mendeley读者数之间的关系(上:arXiv论文;下:non-arXiv论文)

    CF-WoS与Usage Counts回归结果(图9)显示,在两个时间区间中,arXiv论文相比较于non-arXiv论文,其CF-WoS与UC之间的b值要更大(0.25—0.13,0.22—0.11),且arXiv论文UC的b值大于MR的b值,而non-arXiv论文二者的b值较为接近。这说明arXiv论文与non-arXiv论文相比,其读者群体更为广泛,尤其体现在相对较多的Mendeley读者数方面。

    图9
                            arXiv和non-arXiv论文的WoS被引量与使用量的关系(上:arXiv论文;下:non-arXiv论文)

    图9 arXiv和non-arXiv论文的WoS被引量与使用量的关系(上:arXiv论文;下:non-arXiv论文)

    两种类型论文的CF-WoS、UC、MC和TM的变化趋势(图10)也进一步验证了以上观点,新发表的科研成果能够吸引更多的读者,而论文的被引量却呈现相反的趋势,发表时间越长的论文其年均被引量越高。arXiv论文显然能获得更多的读者,尤其是近5年,其年均增长率达到了28.0%,而使用量增长率只有20.6%;non-arXiv论文的WoS使用量显然要高于其Mendeley读者数,前者的年均增长量为20.8%,而后者只有15.8%。二者的Twitter转载量年均量更少,这与数据集中大量论文没有在Twitter中出现有关,但即使如此,其趋势也在小幅上升。可见,被引量并不能全面反映论文的影响力,尤其是论文的早期影响力,而使用数据(Usage)和补充计量数据(Altmetrics)则可作为科研评估的有益补充,特别是对于预印本来说,这类自存档论文通常先于期刊发表时间,或者不在期刊发表,单一的引文评价会低估预印本的实际影响力,MR可以考虑作为辅助的科研评价指标之一,同时还需要注意的是,MR和CF之间的线性关系是随时间变化的。

    图10
                            arXiv论文和non-arXiv论文的CF、UC、MR和TM的变化趋势

    图10 arXiv论文和non-arXiv论文的CF、UC、MR和TM的变化趋势

  • 5 结论和启示

    本文从引用度和关注度两个层面对图书情报领域预印本的影响力进行了深入剖析。源于WoS、Scopus和Google Scholar三大文献数据库的“被引量(CF)”作为反映引用度的计量指标,关注度则主要选取“WoS使用量(UC)”、“Mendeley读者数(MR)”和“Twitter转载量(TM)”三个指标,通过对arXiv和non-arXiv两种类型论文在不同测量指标上的特征进行对比分析,科学评估了各指标对图书情报类预印本学术影响力和社会影响力两个不同影响力维度上的合理性和可靠性,得出的主要结论有:

    (1)LIS领域的arXiv论文在WoS、Scopus和Google Scholar中均具有显著的引用优势,近四年的引用优势高于70%。arXiv论文的绝对数量在逐年增加,期刊中arXiv论文的相对数量也在逐年上升,近五年80%以上的作者会将投稿期刊的论文提前存档在预印本平台中,这些预印本的篇均被引量在发表后前三年增长迅速,而后相比于non-arXiv论文具有更快速的下降趋势。尽管Google Scholar引用量显著高于WoS和Scopus引用量,但它并不能为arXiv论文提供更高的引用优势。

    (2)arXiv论文能够获得更为广泛的关注度。两类论文的读者群体不同,arXiv论文相比non-arXiv论文除了有来自图书情报和计算机领域的读者外,其物理学和数学领域的读者也有较高的显示度。更值得关注的是,arXiv论文微弱的WoS使用量优势和显著的Mendeley读者数优势说明,自存档平台拓宽了论文的获取渠道,不但促进了科学知识在科学共同体中的传播,同时也加强了科学家与社会公众间的交流互动,这体现了预印本在科学知识的科普功能。

    (3)补充计量指标的发展有利于推动学术资源的开放获取。arXiv论文和non-arXiv论文的WoS使用量和读者数与被引量间均具有显著的相关性(R>0.5),但arXiv论文的相关性更高。Mendeley读者数一方面能够弥补基于被引量的科研评估在对论文早期影响力评价中的不足;另一方面,与被引量相比,读者数体现了论文更为广泛的影响力。这两点对于预印本的评价尤为重要,其先于期刊发表和多版本(在本文中体现为arXiv自存档版本和正式发表的期刊版本)可引用和阅读的特性对评价指标的及时性、全面性提出了更高的要求,相比而言,Mendeley读者数更能充分体现预印本的影响力,其评估可靠性高于使用量,更高于Twitter量。

    本文的研究结果表明,尽管预印本的发展在图情领域起步较晚,但这种快速和高效的学术交流渠道吸引了越来越多的科研工作者。作者发表预印本不但能够获得首发登记、提前获取和开放获取优势以外,同时也能在论文发表期刊前就收到同行反馈,这种“开放评议”模式在一定程度上提高了投稿论文的质量,进而加速期刊同行评议进程,同时高质量的论文也有助于提升期刊声誉,因而如今越来越多的学术出版商开始接受甚至鼓励作者在投稿前存档预印本。在可预见的未来,学术期刊在科学交流中依然会发挥着重要的作用,但预印本作为重要的一种新型学术交流模式,它的发展正在改变着人们的思考和行为方式,推动了整个学术交流生态系统的开放性以及发展的健康性和可持续性。在当前学术信息资源的开放获取进程加速发展的国际趋势下,如何找到符合我国国情的开放获取发展模式是科研工作者、科研机构、出版商、项目资助机构和政府需要共同努力思考和解决的问题。

  • 参考文献

    • 1

      英)J.D.贝尔纳. 科学的社会功能[M]. 陈体芳, 译. 北京: 商务印书馆, 1982.

    • 2

      Piwowar H, Priem J, Larivière V, et al. The state of OA: A large-scale analysis of the prevalence and impact of Open Access articles[J]. PeerJ, 2018, 6: e4375.

    • 3

      Glänzel W, Schoepflin U. A bibliometric study of reference literature in the sciences and social sciences[J]. Information Processing & Management, 1999, 35(1): 31-44.

    • 4

      Lawrence S. Online or invisible[J]. Nature, 2001, 411: 521.

    • 5

      Craig I D, Plume A M, McVeigh M E, et al. Do open access articles have greater citation impact?: A critical review of the literature[J]. Journal of Informetrics, 2007, 1(3): 239-248.

    • 6

      Davis P M. Open access, readership, citations: a randomized controlled trial of scientific journal publishing[J]. The FASEB Journal, 2011, 25(7): 2129-2134.

    • 7

      Gargouri Y, Hajjem C, Larivière V, et al. Self-selected or mandated, open access increases citation impact for higher quality research[J]. PLoS ONE, 2010, 5(10): e13636.

    • 8

      Moed H F. The effect of “open access” on citation impact: An analysis of ArXiv’s condensed matter section[J]. Journal of the American Society for Information Science and Technology, 2014, 58(13): 2047-2054.

    • 9

      Larivière V, Sugimoto C R, Macaluso B, et al. arXiv e-prints and the journal of record: An analysis of roles and relationships[J]. Journal of the American Society for Information Science and Technology, 2014, 65(6): 1157-1169.

    • 10

      Metcalfe T S. The citation impact of digital preprint archives for solar physics papers[J]. Solar Physics, 2006, 239(1-2): 549-553.

    • 11

      Schwarz G J, Kennicutt R C Jr. Demographic and citation trends in astrophysical journal papers and preprints[OL]. https://arxiv.org/abs/astro-ph/0411275.

    • 12

      Davis P M, Fromerth M J. Does the arXiv lead to higher citations and reduced publisher downloads for mathematics articles?[J]. Scientometrics, 2006, 71(2): 203-215.

    • 13

      Chen Y, Wang Z, Tan J, et al. The position of preprint in scholarly communication: A biliometric and empirical study of arXiv[C]// Proceedings of the 16th Conference on International Society of Scientometrics and Informetrics, 2017: 799-809.

    • 14

      Thelwall M, Kousha K. ResearchGate versus Google Scholar: Which finds more early citations?[J]. Scientometrics, 2017, 112(1): 1-7.

    • 15

      Thelwall M. Dimensions: A competitor to Scopus and the Web of Science?[J]. Journal of Informetrics, 2018, 12(2): 430-435.

    • 16

      Harzing A W, Alakangas S. Google Scholar, Scopus and the Web of Science: A longitudinal and cross-disciplinary comparison[J]. Scientometrics, 2016, 106(2): 787-804.

    • 17

      Martín-Martín A, Orduna-Malea E, López-Cózar E D. Coverage of highly-cited documents in Google Scholar, Web of Science, and Scopus: A multidisciplinary comparison[J]. Scientometrics, 2018, 116(3): 2175-2188.

    • 18

      Glänzel W, Thijs B, Debackere K. Productivity, performance, efficiency, impact—What do we measure anyway?[J]. Journal of Informetrics, 2016, 10(2): 658-660.

    • 19

      Glänzel W, Gorraiz J. Usage metrics versus altmetrics: Confusing terminology?[J]. Scientometrics, 2015, 102(3): 2161-2164.

    • 20

      王贤文, 方志超, 胡志刚. 科学论文的科学计量分析: 数据、方法与用途的整合框架[J]. 图书情报工作, 2015, 59(16): 74-82.

    • 21

      Haustein S, Larivière V, Thelwall M, et al. Tweets vs. Mendeley readers: How do these two social media metrics differ?[J]. Information Technology, 2014, 56(5): 207-215.

    • 22

      Costas R, Zahedi Z, Wouters P. Do “altmetrics” correlate with citations? Extensive comparison of altmetric indicators with citations from a multidisciplinary perspective[J]. Journal of the Association for Information Science and Technology, 2015, 66(10): 2003-2019.

    • 23

      Li X, Thelwall M, Giustini D. Validating online reference managers for scholarly impact measurement[J]. Scientometrics, 2012, 91(2): 461-471.

    • 24

      Thelwall M, Wilson P. Mendeley readership altmetrics for medical articles: An analysis of 45 fields[J]. Journal of the Association for Information Science and Technology, 2016, 67(8): 1962-1972..

    • 25

      Mohammadi E, Thelwall M. Mendeley readership altmetrics for the social sciences and humanities: Research evaluation and knowledge flows[J]. Journal of the Association for Information Science and Technology, 2014, 65(8): 1627-1638.

    • 26

      Thelwall M, Kousha K. ResearchGate articles: Age, discipline, audience size, and impact[J]. Journal of the Association for Information Science and Technology, 2017, 68(2): 468-479.

    • 27

      Thelwall M. Are Mendeley reader counts useful impact indicators in all fields?[J]. Scientometrics, 2017, 113(3): 1721-1731.

    • 28

      Maflahi N, Thelwall M. When are readership counts as useful as citation counts? Scopus versus Mendeley for LIS journals[J]. Journal of the Association for Information Science and Technology, 2016, 67(1): 191-199.

    • 29

      Thelwall M. Can Microsoft Academic be used for citation analysis of preprint archives? The case of the Social Science Research Network[J]. Scientometrics, 2018, 115(2): 913-928.

    • 30

      Wang X W, Liu C, Mao W L, et al. The open access advantage considering citation, article usage and social media attention[J]. Scientometrics, 2015, 103(2): 555-564.

    • 31

      Shuai X, Pepe A, Bollen J. How the scientific community reacts to newly submitted preprints: Article downloads, Twitter mentions, and citations[J]. PLoS ONE, 2012, 7(11): e47523.

    • 32

      Brody T, Harnad S, Carr L. Earlier web usage statistics as predictors of later citation impact[J]. Journal of the Association for Information Science and Technology, 2010, 57(8): 1060-1072.

    • 33

      Chi P S, Glänzel W. An empirical investigation of the associations among usage, scientific collaboration and citation impact[J]. Scientometrics, 2017, 112(1): 403-412.

    • 34

      Wang X, Mao W, Xu S, et al. Usage history of scientific literature: Nature metrics, and metrics of Nature, publications[J]. Scientometrics, 2014, 98(3): 1923-1933.

    • 35

      Wang X, Fang Z, Sun X. Usage patterns of scholarly articles on Web of Science: A study on Web of Science usage count[J]. Scientometrics, 2016, 109(2): 917-926.

    • 36

      Glänzel W, Moed H F. Opinion paper: Thoughts and facts on bibliometric indicators[J]. Scientometrics, 2013, 96: 381-394.

    • 37

      Glänzel W, Schoepflin U. A bibliometric study on ageing and reception process of scientific literature[J]. Journal of Information Science, 1995, 21(1): 37-53.

    • 38

      Glänzel W, Thijs B, Chi P S. The challenges to expand bibliometric studies from periodical literature to monographic literature with a new data source: The book citation index[J]. Scientometrics, 2016, 109(3): 2165-2179.

    • 39

      Sud P, Thelwall M. Evaluating altmetrics[J]. Scientometrics, 2014, 98(2): 1131-1143.

    • 40

      Thelwall M, Fairclough R. The influence of time and discipline on the magnitude of correlations between citation counts and quality scores[J]. Journal of Informetrics, 2015, 9(3): 529-541.

陈悦

机 构:大连理工大学科学学与科技管理研究所暨WISLAB实验室,大连 116023

Affiliation:Institution of Science of Science and S&T Management & WISE Lab, Dalian University of Technology, Dalian 116023

邮 箱:chenyuedlut@163.com

作者简介:陈悦,女,1975年生,博士后,教授,博士生导师,研究方向为科学计量学、创新管理、技术管理,E-mail:chenyuedlut@163.com

王智琦

机 构:大连理工大学科学学与科技管理研究所暨WISLAB实验室,大连 116023

Affiliation:Institution of Science of Science and S&T Management & WISE Lab, Dalian University of Technology, Dalian 116023

作者简介:王智琦,女,1990年生,博士研究生,研究方向为科学计量学、科技管理等

刘则渊

机 构:大连理工大学科学学与科技管理研究所暨WISLAB实验室,大连 116023

Affiliation:Institution of Science of Science and S&T Management & WISE Lab, Dalian University of Technology, Dalian 116023

作者简介:刘则渊,男,1940年生,教授,博士生导师,研究方向为科学学理论与科技管理、科学技术哲学等

宋超

机 构:大连理工大学科学学与科技管理研究所暨WISLAB实验室,大连 116023

Affiliation:Institution of Science of Science and S&T Management & WISE Lab, Dalian University of Technology, Dalian 116023

作者简介:宋超,男,1990年生,博士研究生,研究方向为科学计量学、科技管理等。

车 尧

角 色:责任编辑

Role:Executive editor

收录论文的数量读者数转载量
WoSScopusGoogle ScholarMendeleyTwitter
arXiv508508506493287
non-arXiv55845530557553991545
总计60926038608158921832
覆盖率/%10099.199.8

96.7%(WoS)

97.6%(Scopus)

96.9%(Google Scholar)

30.1%(WoS)

30.3%(Scopus)

30.1%(Google Scholar)

年份WoSScopusGoogle Scholar
arXivnon-arXivCIDarXivnon-arXivCIDarXivnon-arXivCID
200539.924.9646.0743.830.8334.7683.460.6431.60
2006123.629.26123.43139.835.63118.76271.977.77111.04
200775.6328.2491.2587.4236.4382.34150.0576.0565.46
200849.8922.8274.4654.4726.8168.0691.4254.9449.85
200956.1320.8791.5863.7226.682.20120.4750.9581.11
201050.7820.5684.7258.2225.4778.27113.5445.1586.19
201138.1218.2170.6942.9722.3163.3077.2439.6164.41
201231.6614.1476.5135.1317.0669.2560.7231.0364.72
201315.979.3252.5918.0511.4444.8330.6720.3140.64
201417.167.6876.3320.489.2275.8239.7117.179.60
201513.075.0987.8916.456.1591.1534.3311.14102.00
20167.953.0788.579.773.9884.2218.228.770.73
20171.990.7194.812.611.1776.196.032.486.12
刊名(JIF 2016)arXiv 论文量(1997,2002—2018)arXiv 论文量(2005—2017)期刊载文量(2005—2017)百分比/%
SCIM(2.147)20319431816.10
JASIST(2.322)20219824578.06
JOI(2.920)16515877020.52
总计57055063328.69
1000-0135-2019-38-4-342/alternativeImage/9f520d54-cb2b-4562-8a4b-ecddadb98266-F001.jpg
1000-0135-2019-38-4-342/alternativeImage/9f520d54-cb2b-4562-8a4b-ecddadb98266-F002.jpg
1000-0135-2019-38-4-342/alternativeImage/9f520d54-cb2b-4562-8a4b-ecddadb98266-F003.jpg
1000-0135-2019-38-4-342/alternativeImage/9f520d54-cb2b-4562-8a4b-ecddadb98266-F004.jpg
1000-0135-2019-38-4-342/alternativeImage/9f520d54-cb2b-4562-8a4b-ecddadb98266-F005.jpg
1000-0135-2019-38-4-342/alternativeImage/9f520d54-cb2b-4562-8a4b-ecddadb98266-F006.jpg
年份Mendeley Readers(MR)Twitter Mentions(TM)WoS Usage(UC)
arXivnon-arXivAIDarXivnon-arXivAIDarXivnon-arXivAID
200542.2033.1823.930.10
200673.7036.1268.430.20
200793.3738.3283.600.63
200867.1135.9960.360.05
200974.1938.2363.970.47
201083.6343.2663.620.370.2058.29
201156.6437.9839.440.330.315.86
201266.5333.5965.8215.131.59162.01
201343.0730.2534.962.503.20-24.4851.4847.029.06
201464.7027.8079.777.631.76124.9759.4042.3033.63
201566.8525.0291.067.251.76121.7648.2938.5022.55
201641.1221.6462.095.803.4052.1835.9529.4719.82
201723.2210.8472.686.735.8314.3620.8819.178.52
1000-0135-2019-38-4-342/alternativeImage/9f520d54-cb2b-4562-8a4b-ecddadb98266-F007.jpg
时间区间arXiv论文数量
WoSScopusGoogle Scholar
2005—2009年919190
2010—2012年112112111
2013—2015年178178177
2016—2017年127127127
PYMendeley ReadersTwitter MentionsUsage Counts
arXivNon-arXivarXivNon-arXivarXivNon-arXiv
2005-2009.724**/.739**/.733**.755**/.748**/.705**0.06/0.07/0.08
2010-2012.678**/.702**/.755**.776**/.758**/.830**0.10/0.10/0.10↓.205**/.203**/.235**
2013-2015.770**/.988**/.938**.647**/.672**/.699**.382**/.393**/.358**.231**/.262**/.295**.726**/.723**/.761**.524**/.527**/.514**
2016-2017.854**/.871**/.890**.810**/.852**/.914**.202*/.196*/.268**.104**/.105**/.082*.811**/825**/.843**.622**/639**/.573**
1000-0135-2019-38-4-342/alternativeImage/9f520d54-cb2b-4562-8a4b-ecddadb98266-F008.jpg
1000-0135-2019-38-4-342/alternativeImage/9f520d54-cb2b-4562-8a4b-ecddadb98266-F009.jpg
1000-0135-2019-38-4-342/alternativeImage/9f520d54-cb2b-4562-8a4b-ecddadb98266-F010.jpg

表2 arXivnon-arXiv论文的索引情况及在MendeleyTwitter中的覆盖率

表3 arXiv相比较于non-arXiv论文的引用优势

表1 LIS领域三大期刊的arXiv载文量

图1 arXiv论文的增长趋势

图2 四种类型的期刊论文(2005—2009年)

图3 篇均被引频次变化趋势(2005—2009年)

图4 arXiv论文(左)和non-arXiv论文(右)在三大数据库中的篇均被引量误差条形图:95%置信区间。

图5 论文在Scopus和Google Scholar中相比WoS中的引用差异

图6 arXiv vs non-arXiv论文的关注度指标优势

表4 arXivnon-arXiv论文的多重关注度指标

图7 arXiv论文和non-arXiv论文的Mendeley读者的(a)职业标签和(b)研究领域标签图书情报和计算机科学两个占比最高(均>33%)的研究领域除外。

表5 依据arXiv论文数量进行的时间分区

表6 WoS/Scopus/Google Scholar数据库中的CFMRTMUC的相关性

图8 arXiv和non-arXiv论文的WoS被引量与Mendeley读者数之间的关系(上:arXiv论文;下:non-arXiv论文)

图9 arXiv和non-arXiv论文的WoS被引量与使用量的关系(上:arXiv论文;下:non-arXiv论文)

图10 arXiv论文和non-arXiv论文的CF、UC、MR和TM的变化趋势

image /

无注解

CID(Citation Impact Differential)指引用差异,计算公[8]为CID=100×(CPPa-CPPna)/[(CPPa-CPPna)/2]。式中,CPPa表示arXiv论文的篇均被引量,CPPna表示non-arXiv

arXiv中的论文量统计时间为2018年3月6日;LIS三本期刊中arXiv论文的最早存储时间为2001年10月22日,此论文于2002年2月15日发表在JASIST期刊中;而arXiv论文的最早出版时间为1997年,此论文于2001年存储于arXiv中,此后到2002年才有发表的期刊论文存储于arXiv中,而直到2005年以后arXiv论文的发表时间才开始连续;2005—2017年出版的期刊论文中共有550篇同时存储在arXiv中。

无注解

“绿色开放获取”依据WoS数据库中识别出的Green OA文章的定义,即可免费从知识库中获取到的最终发表的文章或经过同行评审的手稿。

无注解

无注解

无注解

无注解

non-arXiv论文在2005—2009年没有Twitter转载量,2013年以后发表的论文才有WoS的使用量统计。AID(Altmetric Impact Differential)指UC、MR、TM三个指标的影响力差异,AID=100×(CPPa(UC\MR\TM)-CPPna(UC\MR\TM))/[(CPPa(UC\MR\TM)+CPPna(UC\MR\TM))/2];式中,CPPa(UC\MR\TM)表示arXivUCMRTMCPPna(UC\MR\TM)表示non-arXivUCMRTM

无注解

无注解

**表示在0.01水平(双尾)显著相关*表示在0.05水平(双尾)显著相关。

无注解

无注解

无注解

  • 参考文献

    • 1

      英)J.D.贝尔纳. 科学的社会功能[M]. 陈体芳, 译. 北京: 商务印书馆, 1982.

    • 2

      Piwowar H, Priem J, Larivière V, et al. The state of OA: A large-scale analysis of the prevalence and impact of Open Access articles[J]. PeerJ, 2018, 6: e4375.

    • 3

      Glänzel W, Schoepflin U. A bibliometric study of reference literature in the sciences and social sciences[J]. Information Processing & Management, 1999, 35(1): 31-44.

    • 4

      Lawrence S. Online or invisible[J]. Nature, 2001, 411: 521.

    • 5

      Craig I D, Plume A M, McVeigh M E, et al. Do open access articles have greater citation impact?: A critical review of the literature[J]. Journal of Informetrics, 2007, 1(3): 239-248.

    • 6

      Davis P M. Open access, readership, citations: a randomized controlled trial of scientific journal publishing[J]. The FASEB Journal, 2011, 25(7): 2129-2134.

    • 7

      Gargouri Y, Hajjem C, Larivière V, et al. Self-selected or mandated, open access increases citation impact for higher quality research[J]. PLoS ONE, 2010, 5(10): e13636.

    • 8

      Moed H F. The effect of “open access” on citation impact: An analysis of ArXiv’s condensed matter section[J]. Journal of the American Society for Information Science and Technology, 2014, 58(13): 2047-2054.

    • 9

      Larivière V, Sugimoto C R, Macaluso B, et al. arXiv e-prints and the journal of record: An analysis of roles and relationships[J]. Journal of the American Society for Information Science and Technology, 2014, 65(6): 1157-1169.

    • 10

      Metcalfe T S. The citation impact of digital preprint archives for solar physics papers[J]. Solar Physics, 2006, 239(1-2): 549-553.

    • 11

      Schwarz G J, Kennicutt R C Jr. Demographic and citation trends in astrophysical journal papers and preprints[OL]. https://arxiv.org/abs/astro-ph/0411275.

    • 12

      Davis P M, Fromerth M J. Does the arXiv lead to higher citations and reduced publisher downloads for mathematics articles?[J]. Scientometrics, 2006, 71(2): 203-215.

    • 13

      Chen Y, Wang Z, Tan J, et al. The position of preprint in scholarly communication: A biliometric and empirical study of arXiv[C]// Proceedings of the 16th Conference on International Society of Scientometrics and Informetrics, 2017: 799-809.

    • 14

      Thelwall M, Kousha K. ResearchGate versus Google Scholar: Which finds more early citations?[J]. Scientometrics, 2017, 112(1): 1-7.

    • 15

      Thelwall M. Dimensions: A competitor to Scopus and the Web of Science?[J]. Journal of Informetrics, 2018, 12(2): 430-435.

    • 16

      Harzing A W, Alakangas S. Google Scholar, Scopus and the Web of Science: A longitudinal and cross-disciplinary comparison[J]. Scientometrics, 2016, 106(2): 787-804.

    • 17

      Martín-Martín A, Orduna-Malea E, López-Cózar E D. Coverage of highly-cited documents in Google Scholar, Web of Science, and Scopus: A multidisciplinary comparison[J]. Scientometrics, 2018, 116(3): 2175-2188.

    • 18

      Glänzel W, Thijs B, Debackere K. Productivity, performance, efficiency, impact—What do we measure anyway?[J]. Journal of Informetrics, 2016, 10(2): 658-660.

    • 19

      Glänzel W, Gorraiz J. Usage metrics versus altmetrics: Confusing terminology?[J]. Scientometrics, 2015, 102(3): 2161-2164.

    • 20

      王贤文, 方志超, 胡志刚. 科学论文的科学计量分析: 数据、方法与用途的整合框架[J]. 图书情报工作, 2015, 59(16): 74-82.

    • 21

      Haustein S, Larivière V, Thelwall M, et al. Tweets vs. Mendeley readers: How do these two social media metrics differ?[J]. Information Technology, 2014, 56(5): 207-215.

    • 22

      Costas R, Zahedi Z, Wouters P. Do “altmetrics” correlate with citations? Extensive comparison of altmetric indicators with citations from a multidisciplinary perspective[J]. Journal of the Association for Information Science and Technology, 2015, 66(10): 2003-2019.

    • 23

      Li X, Thelwall M, Giustini D. Validating online reference managers for scholarly impact measurement[J]. Scientometrics, 2012, 91(2): 461-471.

    • 24

      Thelwall M, Wilson P. Mendeley readership altmetrics for medical articles: An analysis of 45 fields[J]. Journal of the Association for Information Science and Technology, 2016, 67(8): 1962-1972..

    • 25

      Mohammadi E, Thelwall M. Mendeley readership altmetrics for the social sciences and humanities: Research evaluation and knowledge flows[J]. Journal of the Association for Information Science and Technology, 2014, 65(8): 1627-1638.

    • 26

      Thelwall M, Kousha K. ResearchGate articles: Age, discipline, audience size, and impact[J]. Journal of the Association for Information Science and Technology, 2017, 68(2): 468-479.

    • 27

      Thelwall M. Are Mendeley reader counts useful impact indicators in all fields?[J]. Scientometrics, 2017, 113(3): 1721-1731.

    • 28

      Maflahi N, Thelwall M. When are readership counts as useful as citation counts? Scopus versus Mendeley for LIS journals[J]. Journal of the Association for Information Science and Technology, 2016, 67(1): 191-199.

    • 29

      Thelwall M. Can Microsoft Academic be used for citation analysis of preprint archives? The case of the Social Science Research Network[J]. Scientometrics, 2018, 115(2): 913-928.

    • 30

      Wang X W, Liu C, Mao W L, et al. The open access advantage considering citation, article usage and social media attention[J]. Scientometrics, 2015, 103(2): 555-564.

    • 31

      Shuai X, Pepe A, Bollen J. How the scientific community reacts to newly submitted preprints: Article downloads, Twitter mentions, and citations[J]. PLoS ONE, 2012, 7(11): e47523.

    • 32

      Brody T, Harnad S, Carr L. Earlier web usage statistics as predictors of later citation impact[J]. Journal of the Association for Information Science and Technology, 2010, 57(8): 1060-1072.

    • 33

      Chi P S, Glänzel W. An empirical investigation of the associations among usage, scientific collaboration and citation impact[J]. Scientometrics, 2017, 112(1): 403-412.

    • 34

      Wang X, Mao W, Xu S, et al. Usage history of scientific literature: Nature metrics, and metrics of Nature, publications[J]. Scientometrics, 2014, 98(3): 1923-1933.

    • 35

      Wang X, Fang Z, Sun X. Usage patterns of scholarly articles on Web of Science: A study on Web of Science usage count[J]. Scientometrics, 2016, 109(2): 917-926.

    • 36

      Glänzel W, Moed H F. Opinion paper: Thoughts and facts on bibliometric indicators[J]. Scientometrics, 2013, 96: 381-394.

    • 37

      Glänzel W, Schoepflin U. A bibliometric study on ageing and reception process of scientific literature[J]. Journal of Information Science, 1995, 21(1): 37-53.

    • 38

      Glänzel W, Thijs B, Chi P S. The challenges to expand bibliometric studies from periodical literature to monographic literature with a new data source: The book citation index[J]. Scientometrics, 2016, 109(3): 2165-2179.

    • 39

      Sud P, Thelwall M. Evaluating altmetrics[J]. Scientometrics, 2014, 98(2): 1131-1143.

    • 40

      Thelwall M, Fairclough R. The influence of time and discipline on the magnitude of correlations between citation counts and quality scores[J]. Journal of Informetrics, 2015, 9(3): 529-541.