en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
刘炜, 谢蓉, 张磊, 等. 面向人文研究的国家数据基础设施建设[J]. 中国图书馆学报, 2016, 42(5): 29-39.
参考文献 2
国务院关于印发促进大数据发展行动纲要的通知[EB/OL]. [2018-07-19]. http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
参考文献 3
工业和信息化部关于印发大数据产业发展规划(2016—2020年)的通知[EB/OL]. [2018-07-19]. http://www.miit.gov.cn/n1146295/n1652858/n1652930/n3757016/c5464999/content.html.
参考文献 4
国务院办公厅关于印发科学数据管理办法的通知[EB/OL]. [2018-07-19]. http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.
参考文献 5
declarationBucharest[EB/OL]. [2018-07-19]. http://www.unece.org/fileadmin/DAM/env/pp/ducuments/bucharest.declaration.doc.
参考文献 6
The global commons for science initiative[EB/OL]. [2018-07-19]. http://www.codata.org/task-groups/global-information-commons-for-science-initiative.
参考文献 7
UNData[EB/OL]. [2018-07-19]. http://data.un.org.
参考文献 8
徐妹, 冯小英. 中外高校社会科学数据管理与服务比较研究[J]. 图书馆工作与研究, 2018(2): 28-35.
参考文献 9
HerzingerS, GuW, SatagopamV, et al. SmartR: an open-source platform for interactive visual analytics for translational research data[J]. Bioinformatics, 2017, 33(14): 2229-2231.
参考文献 10
HerrickR, HortonW, OlsenT, et al. XNAT Central: Open sourcing imaging research data[J]. NeuroImage, 2016, 124(Pt B): 1093-1096.
参考文献 11
完颜邓邓, 高峰. 英美澳科学数据存储与共享平台建设现状调查及启示[J]. 图书馆建设, 2016(3): 29-34.
参考文献 12
覃丹. 英美社会科学数据管理与共享服务平台调查分析[J]. 图书情报工作, 2014, 58(16): 67-75, 142.
参考文献 13
彭国莉, 吕先竞, 刘文君. DCI社会科学数据分析研究[J]. 西南民族大学学报(人文社会科学版), 2015, 36(3): 231-233.
参考文献 14
陈欣, 叶凤云, 汪传雷. 基于扎根理论的社会科学数据共享驱动因素研究[J]. 情报理论与实践, 2016, 39(12): 91-98.
参考文献 15
张计龙, 殷沈琴, 张用, 等. 社会科学数据的共享与服务——以复旦大学社会科学数据共享平台为例[J]. 大学图书馆学报, 2015, 33(1): 74-79.
参考文献 16
党洪莉. 社会科学数据的开放与共享:发展现状、障碍与出路[J]. 图书馆理论与实践, 2018(5): 70-74.
参考文献 17
The University of Michigan. Data-PASS[EB/OL]. [2018-07-20]. http://www.data-pass.org/.
参考文献 18
复旦大学人文社科数据共享平台[EB/OL]. [2018-07-20]. https://dvn.fudan.edu.cn.
参考文献 19
UKDA[EB/OL]. [2017-08-17]. http://www.dataarchive.ac.uk/.
参考文献 20
OhioLINK[EB/OL]. [2017-08-25]. https://www.ohiolink.edu/.
参考文献 21
北京大学开放研究数据平台[EB/OL]. [2018-07-25]. http://opendata.pku.edu.cn.
参考文献 22
南京大学人文社科大数据平台[EB/OL]. [2018-07-25]. http://skbigdata.nju.edu.cn.
参考文献 23
胡永生, 刘颖. 基于用户调查的高校科学数据管理需求分析[J]. 图书情报工作, 2013, 57(6): 28-32, 78.
参考文献 24
袁勇, 王飞跃. 区块链技术发展现状与展望[J]. 自动化学报, 2016, 42(4): 481-494.
参考文献 25
吴振铨, 梁宇辉, 康嘉文, 等. 基于联盟区块链的智能电网数据安全存储与共享系统[J]. 计算机应用, 2017, 37(10): 2742-2747.
参考文献 26
汪传雷, 万一荻, 秦琴, 等. 基于区块链的供应链物流信息生态圈模型[J]. 情报理论与实践, 2017, 40(7): 115-121.
参考文献 27
章宁, 钟珊. 基于区块链的个人隐私保护机制[J]. 计算机应用, 2017, 37(10): 2787-2793.
参考文献 28
KuoT T, KimH E, Ohno-MachadoL. Blockchain distributed ledger technologies for biomedical and health care applications[J]. Journal of the American Medical Informatics Association, 2017, 24(6): 1211-1220.
参考文献 29
AhmedS, BroekN T. Blockchain could boost food security[J]. Nature, 2017, 550(7674): 43.
参考文献 30
DorriA, KanhereS S, JurdakR, et al. Blockchain for IoT security and privacy: The case study of a smart home[C]//Proceedings of the IEEE International Conference on Pervasive Computing and Communications Workshops. IEEE, 2017.
参考文献 31
FabricHyperledger[EB/OL]. [2018-08-03]. https://www.hyperledger.org/projects/fabric.
参考文献 32
The Dataverse project[EB/OL]. [2018-06-11]. https://dataverse.org.
目录 contents

    摘要

    大数据环境下,人文社科领域的研究逐渐向以数据为驱动的新型研究模式转型,对数据共享的需求愈发明显。针对传统的人文社科数据共享存在的溯源能力较弱、数据用途无法追踪等问题,利用区块链的数据记录机制,选用Hyperledger Fabric区块链框架作为联盟链的基础,并对区块的数据存储方式进行了改写,通过CA认证、预提交、验证反馈、区块打包广播、账本数据库更新等流程的设计,构建了人文社科数据共享联盟链模型,并通过对Dataverse开源数据管理软件的二次开发,设计并实现了人文社科数据共享联盟平台。实践证明,基于区块链的人文社科数据共享模型,不仅可以在技术层面解决传统数据贡献中存在的问题,促进数据共享的发展,而且基于Hyperledger Fabric框架的联盟链机制运行效率也达到了预期的标准。

    Abstract

    In this age of big data, research in the Humanities and Social Sciences has gradually transformed into a new research model that is driven by data, which in turn fuels the demand for data sharing. However, the poor traceability of sources and their use remains a challenge in traditional humanities and social science data sharing procedures. To solve this problem, a data recording mechanism of a blockchain was adopted. This study specifically selected the Hyperledger Fabric, which is a blockchain framework, as the basis of the consortium blockchain and rewrote the data storage mode of the block. The model of the consortium blockchain of data sharing in the humanities and social sciences consists of CA authentication, presubmission, feedback verification, block package broadcasts, and ledger database updates. Furthermore, we customized Dataverse, which is a type of open-source data management software, and established a consortium blockchain platform for humanities and social science data sharing. Results showed that the data sharing model for humanities and social science based on blockchain can both solve existing problems at a technical level, and promote the development of data sharing. The results also showed that our consortium blockchain mechanism based on Hyperledger Fabric achieves the expected operational efficiency.

    在大数据环境下,数据呈爆发式增长,各个领域都把数据的价值提到了重要位置,从数据中发现问题、找出规律。在人文社科领域,随着统计数据、历史研究数据、社会研究数据、社交数据、调查数据等各类数据的不断公开和完善,人文社会科学研究逐渐向以数据为驱动的新型研究模式转型,注重基于数据的细粒度管理与协[1],对数据共享的需求也越来越大。

    目前,人文社科数据共享方法基本上是在传统数据共享的思路上进行不断摸索,一般由某个核心机构主导,实现小范围和个别领域的数据共享。虽然从国家层面有一些公开的数据可以共享,但是人文社科数据本身具有分散性、体量小等特点,很多数据仍然掌握在研究者个人的手中。在传统的数据共享方式中,中心化管理、数据利用难以溯源、数据质量难以保证、数据贡献者利益难以保护等客观存在的问题易导致个人贡献和利用数据的积极性不高,数据共享难度较大。

    本文拟从区块链的特点入手,以联盟链技术为基础,构建人文社科数据共享模型,利用区块链去中心化、可溯源、分散自治等特点,提升数据共享后的追踪能力,保护数据贡献者的权利,以推动人文社科数据共享的发展。

  • 1 文献综述

  • 1.1  数据共享领域的政策推动

    在政策层面,全球各国政府近年来对数据共享和数据利用都高度重视,不断推出各种政策法规,以推进国内和区域间数据管理和数据共享的发展。

    我国在2015年颁布的《促进大数据发展行动纲要[2]和2017年颁布的《大数据产业发展规划(2016—2020年)[3],把数据提到了非常高的战略位置,充分说明数据已经成为国家重要的资源,数据的充分共享和合理利用成为促进社会发展的动力之一。2018年1月23日,国家颁布《科学数据管理办法》,从总体原则、主要职责、数据采集汇交与保存、共享利用、保密与安全等方面明确了科学数据的管理纲要,从国家战略层面推进科学数据管理与共享的发[4]

    在国际层面,2002年欧盟发布《布加勒斯特宣言——迈向信息社会:原则、战略和优先行动》,提出了公共数据共享的指导思想,为欧盟的科学数据共享提供了依[5]。在2005年,联合国通过了《全球科学信息共有倡议》(The Global Commons For Science Initiative),倡议人们促进科学数据的合理传播和合作利[6],并由联合国经济与社会事务署推出服务于全球的数据管理系统(UNDESA[7]。在2007年由澳大利亚政府制定的《澳大利亚科学数据管理文件》中,涉及科学数据共享的内容包括科研责任和科研数据管理两部分,为学术界提供了普遍可接受的全面框架,对数据共享提出了明确的要[8]

  • 1.2  数据共享理论与应用研究

    在理论与应用层面,科学数据的管理与共享也得到了专家学者和各类研究机构的广泛重视。

    从理论研究方面看,Herzinger[9]为了提高科学数据发布平台TranSmart的可视化能力,专门开发了SmartR插件,对平台进行补充;Herrick[10]从用户的角度对医学成像数据存储库XNAT Central进行了深入调研,主要从服务、数据、发展等角度进行了分析;完颜邓邓[11]对英美澳科学数据存储与共享平台进行分析和评价,主要指标包括数据来源、合作机构、受资助机构资助的项目及购买情况等方面;覃[12]通过对五大英美社会科学数据管理与共享服务平台的分析及建设特点的总结,针对我国平台建设现状提出结合自身需求、完善政策体系、采用统一元数据标准、完善细化功能和服务、加强合作交流、提供在线教育的经验借鉴启示;彭国莉[13]通过对DCI中采集的社会科学数据进行统计和评估,分析社会科学数据的开放共享程度和学术影响力,提出建立我国社会科学数据开放制度,建立数据中心的建议;陈欣[14]借鉴科学数据共享研究的相关经验,以扎根理论为指导,通过数据编码构建得出社会科学数据共享驱动因素模型;张计龙[15]通过对中外高校社会科学数据管理机构及其管理现状特征进行调研总结,提出面对当前社科研究对数据存储和共享服务需求的发展建议;党洪[16]通过分析社会科学数据的特点和属性,对比中外研究现状,探讨其政策、标准、分析工具、文化多元性等方面所面临的现实障碍,并据此提出实现我国社会科学数据开发和共享的有效路径。

    从实践应用的角度看,国内外有不少数据共享机构尝试通过数据共享平台,促进科研的交流和成果的转化与共享。社会科学数据保存联[17](Data Preservation Alliance for the Social Sciences,Data-PASS)是全球最大的社科数据管理项目,为成员提供数据标准、数据评估、元数据管理、安全存储等服务;复旦大学社科数据平台是哈佛大学Dataverse Network中文合作伙伴,提供了“复旦能源”、“长三角社会变迁调查”、“人口普查”、“居民消费和碳排放”等专题特色数据[18]。除此之外,UKDA[19]、OhioLINK[20]、北京大学开放研究数据平[21]、南京大学人文社科大数据平[22]等数据管理平台都在科学数据管理和共享方面进行了实践,并取得了较好的效果,推进了科学数据共享相关研究和实践的发展。

  • 1.3  研究述评

    在传统的数据共享中,大部分科研工作者有数据共享的意愿和能力,曾有调查表明,47.7%的人曾经在研究过程中向他人无偿提供过数据,12.4%的人曾经有偿提供过数据,并且分别有49.6%和32.9%的科研人员愿意在未来的科研中无偿或者有偿向他人提供数[23]。但由于我国人文社科数据共享体系较为薄弱,存在数据共享能力弱、数据的权属无法得到保障等问题。因此,虽然各个机构不断地推广各类数据共享,但是依然达不到理想的效果。究其原因,主要有以下几个方面:①数据质量无法得到保证。虽然科研人员有着共享的意愿,但是数据质量本身是否过关、数据本身的准确性等,都无法得到保证,导致使用者在利用这些数据的时候,还需要考虑数据的准确性。②数据用途无法追踪,数据提供者权利无法保证。在现在的数据共享中,数据一旦被他人使用,提供者无法跟踪其用途和使用场景,也就无法保证数据提供者的应有权利。③数据的使用无法体现出提供者的研究能力。由于数据本身并不是出版物,无法在公开场合找到其具体的出版信息,个人或者团队贡献的科学数据被他人使用后,无法提供完整的引用信息,难以通过数据使用分析、引证分析等统计分析手段评价数据提供者的能力与价值,更难以溯源,导致数据贡献的积极性不高。

    区块链具有去中心化、可溯源、防篡改等传统中心化数据存储不具备的特性,在“共享”领域不仅可以确保数据的安全,更能够激发成员贡献数据的意愿,推进共享的进程。因此,本文尝试从区块链的实现机制入手,探讨区块链技术在人文社科数据共享中的适用性和可实施性,并以联盟链技术为基础,构建人文社科数据共享模型,一方面为人文社科数据共享的理论研究提供思路,另一方面,通过模型实现、推进人文社科数据共享联盟平台的建设,进一步解决数据共享现存的问题,为数据共享的实践提供帮助。

  • 2 区块链技术应用

  • 2.1  区块链简介

    区块链(blockchain)是基于互联网的分布式账本技术,也是一个去中心化的数据库,由中本聪于2009年1月9日发布。区块链将分布式存储、P2P、共识机制、加密算法等技术进行了整合,具有去中心化、按时序排列、安全可信等特[24]。目前,区块链的知名应用包括比特币、以太坊、EOS、Hyperledger等,应用模式有公共链、联盟链和私有链。共识机制是区块链中最重要的机制,用于确保每个节点账本的一致性,包括PoW(工作量证明)、PoS(股权证明)、DPoS(股份授权证明)、PBFT(拜占庭容错)、PAXOS、RAFT等。PoW要求有极强的算力和计算时间,随着PoS和DPoS的应用,算力问题得到了进一步解决,但是在联盟链和私有链中,节点之间绝对信任,运行效率要求极高,并且不需要建立虚拟币体系,因此,利用PBFT(Practical Byzantine Fault Tolerance)、Paxos、RAFT等算法能够更好地执行共识机制。目前,区块链应用的研究主要集中在医疗数据共[25]、供应链物流信息管[26]、隐私保[27]、生物医学及健[28]、食品安[29]、智能家[30]等领域。

  • 2.2  联盟链与人文社科数据共享

    区块链的去中心化、开放性、自治性、信息不可篡改性、匿名性等特点,在人文社科数据共享过程中的自治、追踪、溯源等方面有着天然的优势。其优势包括:①数据赋能,借助数据的利用提升数据提供者的价值。虽然数据本身并不是正式出版物,但是利用区块链的溯源方法和基于全球唯一的句柄系统,能够确保每次数据的利用都为数据的价值提升提供帮助,从而间接地提升数据提供者的学术影响力。②数据追踪与溯源,利用区块链溯源的特性保护数据提供者的权益。数据在共享过程中,关于数据交易的各种信息都会被记录在区块链上,并且无法篡改,这也就为溯源机制的实施提供了便利条件,为数据提供者的版权提供保护。③数据自治,利用区块链的去中心化特点,解决数据共享到平台后的权属问题(所有权依然属于提供者,平台并无所有权)。数据所有权得到有效保障的同时,能够有效增加数据共享的频率和范围。

    在区块链的应用中,根据共享范围和用途来分,可分为公有链、联盟链和私有链。其中公有链面向所有公众开放,是一个真正的“去中心化”结构,具有门槛低、公开透明、匿名性等特点,其数据的管理不受任何个人和组织的控制。正是如此,公有链及比特币在币圈得到广泛的认可。但是,完全的去中心化也造成了需要“挖矿”来解决节点间的信任问题,从而使效率大为降低,更加适合对效率要求不高的商业应用。私有链的数据写入权限完全归一个组织所有,组织具有数据改写的权限,该类型的区块链更加适用于机构的内部,不在本文的讨论范围内。联盟链是介于公有链和私有链之间的一种架构形态,其成员加盟具有严格的准入机制,节点之间信任强度大且相互制约,因而联盟链的数据存储效率较公有链有极大提升,同时其基于联盟节点的共识机制又能确保数据不会被某个机构非法修改。

    与科学数据等其他类型数据有所不同的是,人文社科数据具有可持续使用、更新速度较慢等特点(如清朝的人口数据对于目前的历史研究者来说依然有用),同行之间共享数据对即时性要求并不高。因此,本文认为虽然联盟链在数据存储速度方面不及中心化架构的应用程序那么高效,但是从数据安全、数据利用溯源等角度来说,依然适用于人文社科数据共享联盟的交易存储。因此,本文将重点探讨利用Hyperledger Fabric框架来实现机构之间数据共享中产生的约束、信任和共识机制,即联盟链共享机制。

  • 2.3  Hyperledger Fabric在人文社科数据共享中的应用可行性

    Hyperledger Fabric(超级账本[31]是The Linux Foundation主办的Hyperledger项目之一,为商业领域的区块链开发提供通用基础框架,以实现基于对等网络和共识机制的各类商业应用与服务,是联盟链实现的基础框架之一。Hyperledger Fabric使用容器技术对智能合约(CodeChain,链码)进行托管,与比特币和以太坊的不同之处在于实现了代码与分布式账本的分离,更加适用于热插拔式的程序开发。和比特币与以太坊等公有链相比,Hyperledger Fabric并非完全去中心化的框架,其推荐采用的PBFT共识协议也无需大量算力的接入,运行效率较高,更加适用于人文社科数据联盟共享的实践应用。主要特点包括:

    (1)成员必须验证后才能够使用网络。Hyperledger Fabric使用MSP(Membership Service Provider)机制对成员进行管理,为其建立根信任证书(Root of Trust Certificate),并使用PKI(Public Key Infrastructure)机制进行身份验证、请求签名验证等。其特点在于为成员定义了一套严格的网络数据保护的协议,数据访问时成员的身份公开,以保护网络数据的安全和交易的稳定。人文社科数据共享的过程中,无论是数据机构还是用户个人,均需要得到网络许可才能够进行数据的提交、传输和使用,以明确数据的版权归属与使用去向,与Hyperledger Fabric的成员许可机制保持一致。

    (2)节点之间的信任成本低。由于Hyperledger Fabric采用了分离式的逻辑架构,按照分布式逻辑处理和协商、交易订购、交易验证和提交等步骤进行,每个步骤之间分离,因此,不同类型节点之间沟通所需的信任成本更低(图1)。

    图1
                            Hyperledger Fabric通信步骤示意图

    图1 Hyperledger Fabric通信步骤示意图

    由图1可以看出,完成一笔交易须经过多个步骤,每个步骤执行的过程中所需要的节点类型各不相同。因此,节点在处理当前业务的时候,并不需要考虑其他步骤的约束条件和信任关系,仅需按照当前步骤的约束进行处理即可,大大节约了节点之间的信任成本,提高了交易数据传输和执行的效率。在人文社科数据共享过程中,机构得到许可后方能成为数据共享联盟的成员,机构之间的信任程度本身就比较高。利用Hyperledger Fabric的联盟链共享模式,在已有信任背书下,能够突破Bitcoin(比特币)和Ethereum(以太坊)中存在的通过“挖矿”解决信任问题的瓶颈,而单通道处理数据的方式又能加速数据传输的效率,使得人文社科数据共享联盟的效率大大提高。

    (3)数据通信分区的精细控制。在Hyperledger Fabric中,节点之间通信都使用通道来进行分区控制,这样做的好处在于对于双方来说,通信来源节点和目标节点是公开透明的,但是网络中的其他节点并不清楚数据通信和交易的情况,避免了数据被网络中其他节点劫持的可能性。在人文社科数据共享过程中,为了保护数据贡献者的权益,数据在传输和获取过程中必须满足绝对安全的点对点传输,以避免数据扩散失控造成数据贡献者的损失,而Hyperledger Fabric的通道(Channel)规则则能够较好地满足这一需求,确保每次数据交易都是安全的。在人文社科数据共享中,利用通道(Channel)解决联盟中不同节点之间数据请求与调用过程中的问题,一方面能够防止黑客恶意地攻入系统,盗取数据;另一方面,还可以确保高频交易过程中数据交易出错的问题,保障数据提供者的利益。

    (4)账本查询能力较强。Hyperledger Fabric目前支持LevelDB和CouchDB两种类型的分布式数据库,其中LevelDB提供Key-Value键值对的查询,CouchDB支持面向JSON数据的查询,相对于比特币和以太坊只支持键查询的策略,Hyperledger Fabric能够提供更加强大的查询方式。在数据共享领域,每次共享除了包含交易的交易编号、来源ID、时间戳等基本信息外,对数据本身的语义描述和元数据信息在未来的溯源、赋能等场景中显得尤为重要,因此,这些数据可以以JSON的形式进行存储,而Hyperledger Fabric的CouchDB数据库则提供了这种存储方式,便于后续的查询操作。人文社科数据共享最终的目的,一方面需要提高数据共享的广度和深度,另一方面需要利用区块链的溯源能力保障数据贡献者的利益。因此,链上账本的查询能力变得非常重要。Hyperledger Fabric本身提供的链上数据查询功能虽然有一定的缺陷,但是其基于JSON的数据查询能力已经比比特币和以太坊平台更加高效,适用于人文社科数据共享后的溯源查询(为了进一步提升其查询能力,本文在3.6节对其进行了进一步改造)。

    (5)结构模块化,便于扩展。Hyperledger Fabric采用模块化架构,支持热插拔,更加适用于已有系统的改造。为了接入区块链,如果需要将原有成熟系统推倒重来,会浪费大量的成本。Hyperledger Fabric的模块化架构,则可以在耗费较小成本的前提下完成成熟软件的区块链改造。在数据共享领域,联盟成员基本为高校或者机构的研究人员,已经有了比较成熟的账户体系,因此,使用模块化的处理方式,能够更快地扩大数据共享联盟的接入范围,降低数据共享耗费的成本。

  • 3 人文社科数据共享模型的设计

    本模型设计了去中心化的数据共享区块链体系架构,模型架构如图2所示。

    图2
                            人文社科数据共享联盟链架构

    图2 人文社科数据共享联盟链架构

    人文社科数据共享联盟链是人文社科数据共享联盟的子网络,整个架构包括用户使用的数据共享联盟平台、数据共享区块链和数据溯源查询平台三个部分构成。

    数据共享平台是交互界面,处理用户数据交互相关操作,由元数据收割、分布式存储、数据监护与语义描述、在线数据分析、数据请求与下载等模块组成。数据溯源查询平台所包含的数据溯源、数据引证和数据评价等模块则是在联盟链进行数据利用记录后,借助区块链的回溯能力对数据本身和数据贡献者进行分析和评价的机制。由于本文主要讨论区块链在数据共享中的应用,而数据共享平台和数据溯源查询平台主要是具体的业务模型,本文在此不再赘述。

    用户在平台上发起指令后,由平台对应的节点向联盟链网络发起请求,最终完成区块链的记录操作,包括CA认证、应用程序所在节点提交交易请求、背书节点交易预处理、排序服务节点进行交易排序及区块生成、数据同步节点进行记账等。

  • 3.1  CA认证

    CA认证是用户进入社科数据共享联盟链的必备条件,每个进入数据共享联盟的用户会得到用户注册证书(ECert),在区块链上的任何操作都需要使用与用户关联的证书进行签名,消息接受方在得到请求消息时,首先会对签名进行认证,确保交易合法性后,才进行后续的处理。

    在人文社科数据共享联盟链中,联盟成员基本为高校、研究机构和数据机构,基本具有自己独立的用户管理系统和完整的用户管理能力。因此,我们在设计中不再独立地构建用户体系,而采用基于OAuth2.0协议的单点登录系统,将每个机构的用户系统与联盟平台进行对接,并在用户登录成功后赋予用户注册证书,用于区块链网络的数据交互。

  • 3.2  应用程序节点提交交易请求

    数据共享联盟平台使用中心化数据库进行数据的存储,属于中心化平台架构,但是在数据共享层面,需要使用去中心化的区块链架构来进行共享数据利用的处理。因此,本文将数据联盟平台对接到区块链的一个节点中,使用SDK(Software Development Kit)方式与区块链进行数据的交互。

    用户在平台上发起一笔交易,使用SDK通知区块链上的关联节点(Peer),并由当前节点(Peer)向链上的背书节点提交请求,包括以下几种类型:发布自己数据的请求(Ta),获取联盟中他人贡献数据权限的请求(Tb),授权他人获取数据的请求(Tc),下载数据的请求(Td)和分析数据的请求(Te)。请求由消息头和消息结构两部分组成,其中消息头包括通道头(ChannelHeader)和签名头(SignatureHeader)。通道头包含了通道和智能合约(ChainCode)的信息,如通道ID、智能合约的ID、版本、地址、时间戳等。通道ID用于确保本次通信与其他通信互不干扰,智能合约ID、版本、地址等信息用于告知背书节点明确执行智能合约,保证执行的结果,伪代码如图3所示。

    图3
                            交易请求体结构伪代码

    图3 交易请求体结构伪代码

    例如,一位科研人员把自己通过调查获取到的数据在平台上进行上传,触发区块链记录事件,由平台对应的节点向背书节点发起数据发布请求Ta,经过背书节点的验证、回复,以及排序服务节点的广播,最终将本次交易写入区块并更新在区块链上。区块链具备不可篡改性,并且区块上记录的时间戳具备时序特性,因此,区块链就可以为此次数据发布的版权提供证明,以保证数据发布者的权益。

  • 3.3  背书节点交易预处理

    背书节点和区块链中的其他节点功能一致,也具有账本记录的能力,只是在此次交易中拥有背书的能力。背书节点在获取到应用程序的请求后,会对请求的消息进行验证,包括请求的格式是否正确、是否存在重复提交(用于重复攻击保护)、交易签名是否有效、请求的提交者在当前通道是否有写入权限等。验证通过后,背书节点模拟执行消息中提交的智能合约(ChainCode)生成读写集(RwSet),并对读写集进行签名,实现提案响应(Proposal Response),返回给应用程序,具体流程如图4所示。

    图4
                            背书节点交易预处理流程

    图4 背书节点交易预处理流程

  • 3.4  排序服务节点交易排序

    在数据共享过程中,应用程序节点在请求发出后一直处于等待状态,直到获得足够多的背书响应。获得背书响应后,应用程序节点会对背书消息进行签名的验证,验证通过后生成正式交易,并广播给排序服务节点进行排序。排序服务节点可以是一个中心化的服务器,也可以是有多个节点组成的分布式架构,其主要作用是对各个通道过来的交易消息按照接受时间和通道ID进行排序,并生成区块,向全网主节点进行广播。具体流程如图5所示。

    图5
                            排序服务节点交易排序流程

    图5 排序服务节点交易排序流程

    为了提高系统运行效率,在数据共享联盟链中背书策略是异步执行的,应用程序节点在请求发出后会一直处于等待状态,直到返回满足阈值的背书数量后,才表示本次背书流程结束。如果背书节点的返回签名数量一直达不到阈值要求,则此次背书失败。背书策略由主体(P,principal)和门槛(T,thshold gate)两个部分组成,其中主体(P)表示期望签名的来源实体,门槛(T)表示需要从多少个背书主体获取多少个签名,表述方法为

    S=Tm,p1,p2,p3pn
    (1)

    式中,m表示背书节点主体的数量;pn表示获取的背书节点签名,可以为一个独立的背书策略,pn=Tm,p1,p2,pz

  • 3.5  数据同步节点记账

    在数据共享联盟链中,所有的节点都是记账节点。记账节点在得到排序服务节点发来的区块消息后,对区块的有效性进行验证并提交到本地账本,完成记账功能。具体流程如图6所示。

    图6
                            节点记账流程

    图6 节点记账流程

    在图6中,排序服务节点将区块打包后,使用广播协议发送给联盟链中的主节点,主节点的处理步骤为:①对交易数据进行验证,包括交易合法性验证和记账节点通道可写验证,验证时生成交易状态(TxValidationFlag),并写入本次交易区块的元数据中;②对智能合约(链码)的背书策略进行验证,主要验证链码本身的合法性(VSCC检查);③基于状态数据的验证,主要是对读写集合(TxRwSet)进行MVCC检查,比较模拟交易时状态数据的版本与真实交易状态数据版本,确保数据的真实性;④验证通过后,系统将执行数据保存、更新状态数据库、更新历史数据库等操作,并产生区块生成事件,生成区块后向全网进行广播,通知其他账本节点同步此次区块更新,并挂入链中,完成联盟链数据的更新。

    至此,通过CA认证、应用程序请求提交、背书节点验证反馈、排序服务节点区块打包广播、记账节点更新数据库等操作,可以完成整套联盟链的区块链数据更新操作。

  • 3.6  联盟链数据存储方式的改进

    虽然Hyperledger Fabric采用了CouchDB/LevelDB进行数据的存储,并能够支持JSON格式的数据存储,相对于其他类型的区块链网络来说具有更强的数据查询能力,但是从实践层面来看,仍然具有一定的局限性。

    (1)链上数据缺乏语义支持。在Hyperledger Fabric框架中,数据以字符串方式进行存储,计算机理解比较困难,解析算法复杂,无法适应高吞吐量数据查询的需求。

    (2)缺少查询语言的支持。如SQL Server、MySQL、Oracle等传统数据库之所以能在企业级应用中稳定运行,是因为上述数据库均支持SQL查询语法,执行效率高。而在区块链中,由于链上数据主要的存储方式是字符串,无法支持SQL查询,因此,链上数据的查询变得比较复杂,不太适合企业级应用。

    (3)链上链下的联合查询不够便捷。目前在应用层面,使用关系型数据库进行数据存储的方式较为普遍,而链上数据如果采用字符串方式进行存储,则不利于链上和链下数据的联合查询。

    因此,本文对Hyperledger Fabric所支持的数据库进行了改进,用关系型数据库的存储方式替代传统超级账本的键值对数据存储方式,以提升链上数据的查询处理能力,提高人文社科数据共享平台的溯源追踪效率(图7)。

    图7
                            链上数据存储方式改进示意图

    图7 链上数据存储方式改进示意图

    由图7可以看出,在传统的区块链存储结构中,除了前置Hash、区块Hash和时间戳之外,还对交易内容进行了存储,但是交易内容本身是以文本方式存储的,缺乏语义描述,不利于后续的溯源检索。因此,本文将交易内容进行了结构化改造,将需要存储的内容以二维表的方式进行存储,存储的字段根据交易类型的不同分为数据发布类、数据共享获取类、数据下载类等,字段集合示意如图8所示。

    图8
                            链上数据字段示意图

    图8 链上数据字段示意图

    除此之外,为了提供更加便捷的查询方式,链上数据表结构除了调整为交易数据字段外,还增加了所用智能合约的部分描述,包括方法名称、方法所使用参数等,便于后续对智能合约进行查询。伪代码如图9所示。

    图9
                            链上数据结构化改造伪代码

    图9 链上数据结构化改造伪代码

    由此,本文基于人文社科数据共享的场景,对Hyperledger Fabric区块数据存储的方法进行了二次改造,实现链上数据的结构化存储。特点包括:

    (1)交易数据依然存储在链上,具备天然防篡改的能力;

    (2)不改变区块的数据存储方式,依然使用PBFT共识算法,并且未改变区块的数据存储方式,对系统本身的影响较小;

    (3)基于二维表的数据存储方式,为区块提供了更为丰富的查询方式,提高查询效率。

  • 4 人文社科数据共享联盟链的实现

  • 4.1  系统结构

    为了验证本文所提出的面向人文社科数据共享联盟链的合理性,笔者以模型为基础,搭建了人文社科数据共享Demo系统。平台在Dataverse开源数据共享系[32]的基础上进行了改造,以适配联盟链数据共享的需求,系统结构如图10所示。结构包括:

    图10
                            人文社科数据共享联盟平台结构

    图10 人文社科数据共享联盟平台结构

    (1)机构数据管理系统。用于让用户发布和管理各类数据,类似于一个机构的数据管理平台,该平台采用中心化处理方式,使用日志系统记录每次数据上传、下载及系统内分享的情况。

    (2)元数据收割子系统。用于将机构数据管理子系统中发布的各类数据集的元数据同步收割到联盟数据贡献子系统中,便于联盟其他节点的用户实时查看数据集。元数据收割方式采用了API收割、爬虫收割和连接池收割等多种收割类型,在实际应用中并不限定机构数据管理系统的类型,本文使用了Dataverse数据管理软件作为机构数据管理系统。

    (3)联盟数据共享子系统。提供了一个数据展示页面,用于展示从各个机构数据管理系统中收割来的元数据,并允许用户从联盟系统中向机构的数据贡献者提出数据获取请求。

    (4)统一认证子系统。用于打通联盟系统与各机构数据管理子系统之间的用户账户体系,便于联盟系统对所有机构的用户进行统一管理,为后续联盟链中的用户体系认证提供便捷。

    (5)联盟链网络。用于记录联盟系统中的各类交易请求,包括数据发布、数据授权、数据下载、数据分析等,为后续的数据溯源和数据使用赋能提供依据。

  • 4.2  系统环境配置

    本文使用了三台服务器进行虚拟化处理,共虚拟出9台虚拟主机,其中3台用于机构数据管理系统的运行,1台用于联盟数据共享系统的运行,5台用于联盟链网络的运行。在每台用于联盟链网络的虚拟主机上,用Docker分别构建了4个节点,一共20个节点,用于模拟真实的联盟链环境。每台虚拟主机的配置为双核CPU,频率2.5 GHz,4 G内存,40 G硬盘,应用程序开发语言选用Java,区块链开发语言为Go,前端开发语言采用JavaScript并使用了jQuery开发包,业务数据库和账本数据库使用MySQL,系统效果如图11所示。

    图11
                            人文社科数据共享联盟Demo

    图11 人文社科数据共享联盟Demo

  • 4.3  效率测试

    为了测试联盟链在多用户操作时的运行效率,本文分别以5个、10个、50个并发请求对系统进行测试,统计从发起请求到区块写入的时长,以验证联盟链的响应速度,结果如表1所示。

    表1 人文社科数据共享联盟链响应速度测试

    序号并发数交易类型响应时间/秒
    15发布数据集0.002
    210发布数据集0.050
    350发布数据集0.120

    从表1可以看出,基于Hyperledger Fabric框架的人文社科数据共享联盟链的相应速度基本能够适应人文社科数据并发量的需求。究其原因,是因为联盟链具有一定的准入门槛,并非公有链,其挖矿过程实际由具备联盟绝对信任关系的排序服务节点完成,在安全性保障的前提下,并不需要类似比特币和以太坊那样专门的“矿工”来实现挖矿和生成区块的操作,因此,效率有极大提高。这也是Hyperledger在商业区块链领域被推崇的原因,其特点也非常适用于人文社科数据共享领域。

  • 4.4  溯源测试

    为了验证模型的溯源能力和效率,本文先以数据集D(数据集名称为《上海市嘉定区2010—2015居民健康档案数据》)的发布、调用和下载为例,进行了验证。具体过程如下:

    (1)账户A1在本地数据管理系统中发布了数据集D,并将状态更新为“发布”;

    (2)平台定期对账户A1发布的数据集D进行收割,并将元数据同步至联盟平台,此时在联盟链账本中对账户A1的数据发布信息进行了链上数据的记录;

    (3)账户A2看到了数据集D,并向A1发起数据获取请求;

    (4)账户A1收到请求后,同意账户A2下载数据集D,此时,联盟平台自动将数据文件同步至联盟平台,联盟链账本也对授权过程进行记录;

    (5)A2收到同意授权的信息,在联盟平台上下载数据文件,此时,联盟链账本进行本次操作的记录。

    溯源查询命令如下:

    Trace [[“2018-05-06”] to [“2018-06-06” ]] datasetname= “上海市嘉定区2010-2015具名健康档案数据” and operator=“A2”;

    其中,

    (1)Trace为关键字,表示进行溯源查询;

    (2)[[“2018-05-06”] to [“2018-06-06” ]]为查询时间范围,表示此次查询2018-05-06至2018-06-06之间的数据集交易情况;

    (3)Datasetname为关键字,表示需要查询的数据集名称;

    (4)Operator为关键字,表示查询的用户ID。

    溯源查询结果如表2所示。

    表2 溯源查询结果

    序号Hash前置hash时间戳类型交易内容机构用户交易用户数据集
    1DA356EA5CDDAF2AFA6-13853248C8398104FB1752011946D6C5CB443CA5C9596B145E4A89F5B498821536120209publish数据集D发布ecnuA1A1上海市嘉定区2010-2015具名健康档案数据
    2FB89CBB875A0CE1D57E15D5F8CF09A675918E75BDA356EA5CDDAF2AFA61385-3248C8398104FB17521536128126authorize数据集D授权ecnuA1A2上海市嘉定区2010-2015具名健康档案数据
    399FFABBB5E006439DED5D2FC05E6410BC2D9DC41FB89CBB875A0CE1D57E15D5F8CF09A675918E75B1536128205download数据集D下载shnuA2A1上海市嘉定区2010-2015具名健康档案数据

    查询结果包括如下字段:

    (1)hash:表示当前区块的哈希值,该值是根据此区块所有交易内容生成,具有不可篡改性;

    (2)前置hash:表示前一个区块的哈希值,通过前置hash,可以将所有区块连接起来,形成链式结构;

    (3)时间戳:以时间戳方式表示当前这条记录的生成时间;

    (4)类型:表示此次交易的类型;

    (5)机构:表示进行本次交易的用户所在机构;

    (6)用户:表示进行当前交易操作的用户;

    (7)交易用户:表示当前交易操作的对象用户;

    (8)数据集:当前操作的数据集名称。

    因此,溯源查询可以便捷地了解某个用户使用数据集的来源情况,这也为后续的数据溯源及评价提供了有效条件。

  • 4.5  安全体系

    联盟链以Hyperledger Fabric提供的协议和算法为基础,实现了数据的安全存储与传输。节点在进行数据传输中使用TLS协议进行数据封装,确保了数据传输时不被劫持和冒用;数据验证时采用公私钥验证,公钥进行非对称加密,私钥进行解密,保障了数据不被非法识别和利用;在数据摘要和签名算法上,采用了椭圆曲线加密算法,利用更小的密钥实现更高等级的安全加密;在隐私数据保护方面,利用Hyperledger Fabric的传输即时,采用多通道私有数据传输的方式,以保证每次数据传输都使用不同的通道,确保数据不被冒用(表3)。

    表3 人文社科数据共享联盟链安全体系

    安全类型功能
    数据传输安全TLS
    数据验证公私钥
    数据摘要与签名算法椭圆曲线加密算法
    隐私数据保护多通道,私有数据
  • 4.6  安全防范措施

    本文在Hyperledger Fabric的基础上,对链上数据的安全防护进行了继承和优化,针对目前已知的区块链攻击方式进行了相应的加固,如表4所示。具体防范措施如下:

    表4 人文社科数据共享联盟链安全防范措施

    攻击类型防范措施
    女巫攻击在系统启动时已确定链上节点,对于恶意节点,无法在系统运行时加入。
    智能合约攻击主要针对溢出攻击,每次执行智能合约时,均对智能合约进行检查和验证。
    重放攻击每个节点发出的交易都带有一个序号,交易执行之前进行检查。
    日食攻击节点只与各个参与方节点保持连接。

    (1)针对女巫攻击的问题,系统一方面要求节点必须经过认证后才可以加入区块链平台,另一方面,一旦系统在正常运行过程中,外部节点就无法加入,由此确保恶意节点无法像公有链那样随意加入节点,避免女巫攻击的产生。

    (2)在智能合约攻击的问题中,最主要的是溢出攻击,如果没有安全函数进行检查,恶意用户通过溢出攻击可以获取不正当的利益。本文利用Hyperledger Fabric的安全机制,每次交易时,均需要对智能合约进行验证,以确保智能合约的安全执行。

    (3)重放攻击的主要特征是攻击者通过劫持已经被链上节点认可的数据包进行二次发送,以达到破坏区块链数据的目的。本文针对重放攻击,在每个节点发起交易时,均会产生一个全局递增的顺序号,并且每次均会对顺序号进行验证,以确保写入区块的交易从未发生过,从而保障数据安全。

    (4)日食攻击是以太坊爆出的一种攻击类型,通过技术手段将大量节点变为被隔离的日食节点,使其无法与区块链产生联系,从而达到其他目的。本文针对这一问题,利用Hyperledger Fabric的特点,确保节点在当前交易流程中只与参与方节点保持连接,而不与其他节点连接,从而让日食攻击者无法利用点对点连接时隙(slot)的发现来隔离受害者节点,从而确保日食攻击无法发生。

  • 5 结 语

    随着区块链技术的发展与不断完善,其在商业领域的应用将越来越普及。本文根据人文社科数据共享领域的特点,选用Hyperledger Fabric区块链框架作为联盟链的基础,并对区块的数据存储方式进行了改进,构建了人文社科数据共享联盟链模型。在此基础上,通过对Dataverse开源数据管理软件的二次改造,实现了人文社科数据共享联盟平台。

    其特点包括:①使用用户注册和准入机制以保证数据交易的安全性;②交易过程使用区块链进行记录,确保数据的溯源查询和后续数据利用评估的准确性;③使用MySQL进行区块数据的结构化存储,为后续数据利用的追踪和溯源创造了有利条件;④去中心化的联盟机制保障了平台上所有数据贡献者的权益,从而能够促进数据共享的快速发展。

    利用Hyperledger Fabric的区块链架构比公有链更加安全,但是接入过程比公有链稍复杂,更加适用于机构参与,进而让机构的用户参与,是典型的ToB-ToC模式,在面向C端用户的扩展能力方面有待提升。因此,在未来的研究中,我们拟尝试将联盟链与公有链进行融合,构建ToB & ToC的模式,使联盟系统可扩展性更强。此外,我们还将进一步研究基于区块链的数据溯源查询方法,以及基于数据共享的在线数据分析和可视化方法,以提升联盟系统的服务能力。

  • 参考文献

    • 1

      刘炜, 谢蓉, 张磊, 等. 面向人文研究的国家数据基础设施建设[J]. 中国图书馆学报, 2016, 42(5): 29-39.

    • 2

      国务院关于印发促进大数据发展行动纲要的通知[EB/OL]. [2018-07-19]. http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

    • 3

      工业和信息化部关于印发大数据产业发展规划(2016—2020年)的通知[EB/OL]. [2018-07-19]. http://www.miit.gov.cn/n1146295/n1652858/n1652930/n3757016/c5464999/content.html.

    • 4

      国务院办公厅关于印发科学数据管理办法的通知[EB/OL]. [2018-07-19]. http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.

    • 5

      Bucharest declaration[EB/OL]. [2018-07-19]. http://www.unece.org/fileadmin/DAM/env/pp/ducuments/bucharest.declaration.doc.

    • 6

      The global commons for science initiative[EB/OL]. [2018-07-19]. http://www.codata.org/task-groups/global-information-commons-for-science-initiative.

    • 7

      UNData[EB/OL]. [2018-07-19]. http://data.un.org.

    • 8

      徐妹, 冯小英. 中外高校社会科学数据管理与服务比较研究[J]. 图书馆工作与研究, 2018(2): 28-35.

    • 9

      Herzinger S, Gu W, Satagopam V, et al. SmartR: an open-source platform for interactive visual analytics for translational research data[J]. Bioinformatics, 2017, 33(14): 2229-2231.

    • 10

      Herrick R, Horton W, Olsen T, et al. XNAT Central: Open sourcing imaging research data[J]. NeuroImage, 2016, 124(Pt B): 1093-1096.

    • 11

      完颜邓邓, 高峰. 英美澳科学数据存储与共享平台建设现状调查及启示[J]. 图书馆建设, 2016(3): 29-34.

    • 12

      覃丹. 英美社会科学数据管理与共享服务平台调查分析[J]. 图书情报工作, 2014, 58(16): 67-75, 142.

    • 13

      彭国莉, 吕先竞, 刘文君. DCI社会科学数据分析研究[J]. 西南民族大学学报(人文社会科学版), 2015, 36(3): 231-233.

    • 14

      陈欣, 叶凤云, 汪传雷. 基于扎根理论的社会科学数据共享驱动因素研究[J]. 情报理论与实践, 2016, 39(12): 91-98.

    • 15

      张计龙, 殷沈琴, 张用, 等. 社会科学数据的共享与服务——以复旦大学社会科学数据共享平台为例[J]. 大学图书馆学报, 2015, 33(1): 74-79.

    • 16

      党洪莉. 社会科学数据的开放与共享:发展现状、障碍与出路[J]. 图书馆理论与实践, 2018(5): 70-74.

    • 17

      The University of Michigan. Data-PASS[EB/OL]. [2018-07-20]. http://www.data-pass.org/.

    • 18

      复旦大学人文社科数据共享平台[EB/OL]. [2018-07-20]. https://dvn.fudan.edu.cn.

    • 19

      UKDA[EB/OL]. [2017-08-17]. http://www.dataarchive.ac.uk/.

    • 20

      OhioLINK[EB/OL]. [2017-08-25]. https://www.ohiolink.edu/.

    • 21

      北京大学开放研究数据平台[EB/OL]. [2018-07-25]. http://opendata.pku.edu.cn.

    • 22

      南京大学人文社科大数据平台[EB/OL]. [2018-07-25]. http://skbigdata.nju.edu.cn.

    • 23

      胡永生, 刘颖. 基于用户调查的高校科学数据管理需求分析[J]. 图书情报工作, 2013, 57(6): 28-32, 78.

    • 24

      袁勇, 王飞跃. 区块链技术发展现状与展望[J]. 自动化学报, 2016, 42(4): 481-494.

    • 25

      吴振铨, 梁宇辉, 康嘉文, 等. 基于联盟区块链的智能电网数据安全存储与共享系统[J]. 计算机应用, 2017, 37(10): 2742-2747.

    • 26

      汪传雷, 万一荻, 秦琴, 等. 基于区块链的供应链物流信息生态圈模型[J]. 情报理论与实践, 2017, 40(7): 115-121.

    • 27

      章宁, 钟珊. 基于区块链的个人隐私保护机制[J]. 计算机应用, 2017, 37(10): 2787-2793.

    • 28

      Kuo T T, Kim H E, Ohno-Machado L. Blockchain distributed ledger technologies for biomedical and health care applications[J]. Journal of the American Medical Informatics Association, 2017, 24(6): 1211-1220.

    • 29

      Ahmed S, Broek N T. Blockchain could boost food security[J]. Nature, 2017, 550(7674): 43.

    • 30

      Dorri A, Kanhere S S, Jurdak R, et al. Blockchain for IoT security and privacy: The case study of a smart home[C]//Proceedings of the IEEE International Conference on Pervasive Computing and Communications Workshops. IEEE, 2017.

    • 31

      Hyperledger Fabric[EB/OL]. [2018-08-03]. https://www.hyperledger.org/projects/fabric.

    • 32

      The Dataverse project[EB/OL]. [2018-06-11]. https://dataverse.org.

谷俊

机 构:

1. 上海师范大学信息管理系,上海 200234

3. 华东师范大学调查与数据中心,上海;200062

Affiliation:

1. Department of Information Management, Shanghai Normal University, Shanghai 200234

3. Social Survey and Data Center, East China Normal University, Shanghai 200062

作者简介:谷俊,男,1981年生,博士,副研究员,主要研究领域为知识库构建、情报技术

许鑫

机 构:

2. 华东师范大学信息管理系,上海 200062

3. 华东师范大学调查与数据中心,上海;200062

Affiliation:

2. Department of Information Management, East China Normal University, Shanghai 200062

3. Social Survey and Data Center, East China Normal University, Shanghai 200062

邮 箱:xxu@infor.ecnu.edu.cn

作者简介:许鑫,男,1976年生,博士,教授,博士生导师,主要研究领域为数据管理、信息资源管理,E-mail:xxu@infor.ecnu.edu.cn。

车 尧

角 色:责任编辑

Role:Executive editor

1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F002.jpg
1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F003.jpg
1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F001.jpg
1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F004.jpg
1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F005.jpg
1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F006.jpg
1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F007.jpg
1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F008.jpg
1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F009.jpg
1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F010.jpg
1000-0135-2019-38-4-354/alternativeImage/15978a62-7ac4-42ed-8424-89403213c47e-F011.jpg
序号并发数交易类型响应时间/秒
15发布数据集0.002
210发布数据集0.050
350发布数据集0.120
序号Hash前置hash时间戳类型交易内容机构用户交易用户数据集
1DA356EA5CDDAF2AFA6-13853248C8398104FB1752011946D6C5CB443CA5C9596B145E4A89F5B498821536120209publish数据集D发布ecnuA1A1上海市嘉定区2010-2015具名健康档案数据
2FB89CBB875A0CE1D57E15D5F8CF09A675918E75BDA356EA5CDDAF2AFA61385-3248C8398104FB17521536128126authorize数据集D授权ecnuA1A2上海市嘉定区2010-2015具名健康档案数据
399FFABBB5E006439DED5D2FC05E6410BC2D9DC41FB89CBB875A0CE1D57E15D5F8CF09A675918E75B1536128205download数据集D下载shnuA2A1上海市嘉定区2010-2015具名健康档案数据
安全类型功能
数据传输安全TLS
数据验证公私钥
数据摘要与签名算法椭圆曲线加密算法
隐私数据保护多通道,私有数据
攻击类型防范措施
女巫攻击在系统启动时已确定链上节点,对于恶意节点,无法在系统运行时加入。
智能合约攻击主要针对溢出攻击,每次执行智能合约时,均对智能合约进行检查和验证。
重放攻击每个节点发出的交易都带有一个序号,交易执行之前进行检查。
日食攻击节点只与各个参与方节点保持连接。

图1 Hyperledger Fabric通信步骤示意图

图2 人文社科数据共享联盟链架构

图3 交易请求体结构伪代码

图4 背书节点交易预处理流程

图5 排序服务节点交易排序流程

图6 节点记账流程

图7 链上数据存储方式改进示意图

图8 链上数据字段示意图

图9 链上数据结构化改造伪代码

图10 人文社科数据共享联盟平台结构

图11 人文社科数据共享联盟Demo

表1 人文社科数据共享联盟链响应速度测试

表2 溯源查询结果

表3 人文社科数据共享联盟链安全体系

表4 人文社科数据共享联盟链安全防范措施

image /

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

  • 参考文献

    • 1

      刘炜, 谢蓉, 张磊, 等. 面向人文研究的国家数据基础设施建设[J]. 中国图书馆学报, 2016, 42(5): 29-39.

    • 2

      国务院关于印发促进大数据发展行动纲要的通知[EB/OL]. [2018-07-19]. http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

    • 3

      工业和信息化部关于印发大数据产业发展规划(2016—2020年)的通知[EB/OL]. [2018-07-19]. http://www.miit.gov.cn/n1146295/n1652858/n1652930/n3757016/c5464999/content.html.

    • 4

      国务院办公厅关于印发科学数据管理办法的通知[EB/OL]. [2018-07-19]. http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.

    • 5

      Bucharest declaration[EB/OL]. [2018-07-19]. http://www.unece.org/fileadmin/DAM/env/pp/ducuments/bucharest.declaration.doc.

    • 6

      The global commons for science initiative[EB/OL]. [2018-07-19]. http://www.codata.org/task-groups/global-information-commons-for-science-initiative.

    • 7

      UNData[EB/OL]. [2018-07-19]. http://data.un.org.

    • 8

      徐妹, 冯小英. 中外高校社会科学数据管理与服务比较研究[J]. 图书馆工作与研究, 2018(2): 28-35.

    • 9

      Herzinger S, Gu W, Satagopam V, et al. SmartR: an open-source platform for interactive visual analytics for translational research data[J]. Bioinformatics, 2017, 33(14): 2229-2231.

    • 10

      Herrick R, Horton W, Olsen T, et al. XNAT Central: Open sourcing imaging research data[J]. NeuroImage, 2016, 124(Pt B): 1093-1096.

    • 11

      完颜邓邓, 高峰. 英美澳科学数据存储与共享平台建设现状调查及启示[J]. 图书馆建设, 2016(3): 29-34.

    • 12

      覃丹. 英美社会科学数据管理与共享服务平台调查分析[J]. 图书情报工作, 2014, 58(16): 67-75, 142.

    • 13

      彭国莉, 吕先竞, 刘文君. DCI社会科学数据分析研究[J]. 西南民族大学学报(人文社会科学版), 2015, 36(3): 231-233.

    • 14

      陈欣, 叶凤云, 汪传雷. 基于扎根理论的社会科学数据共享驱动因素研究[J]. 情报理论与实践, 2016, 39(12): 91-98.

    • 15

      张计龙, 殷沈琴, 张用, 等. 社会科学数据的共享与服务——以复旦大学社会科学数据共享平台为例[J]. 大学图书馆学报, 2015, 33(1): 74-79.

    • 16

      党洪莉. 社会科学数据的开放与共享:发展现状、障碍与出路[J]. 图书馆理论与实践, 2018(5): 70-74.

    • 17

      The University of Michigan. Data-PASS[EB/OL]. [2018-07-20]. http://www.data-pass.org/.

    • 18

      复旦大学人文社科数据共享平台[EB/OL]. [2018-07-20]. https://dvn.fudan.edu.cn.

    • 19

      UKDA[EB/OL]. [2017-08-17]. http://www.dataarchive.ac.uk/.

    • 20

      OhioLINK[EB/OL]. [2017-08-25]. https://www.ohiolink.edu/.

    • 21

      北京大学开放研究数据平台[EB/OL]. [2018-07-25]. http://opendata.pku.edu.cn.

    • 22

      南京大学人文社科大数据平台[EB/OL]. [2018-07-25]. http://skbigdata.nju.edu.cn.

    • 23

      胡永生, 刘颖. 基于用户调查的高校科学数据管理需求分析[J]. 图书情报工作, 2013, 57(6): 28-32, 78.

    • 24

      袁勇, 王飞跃. 区块链技术发展现状与展望[J]. 自动化学报, 2016, 42(4): 481-494.

    • 25

      吴振铨, 梁宇辉, 康嘉文, 等. 基于联盟区块链的智能电网数据安全存储与共享系统[J]. 计算机应用, 2017, 37(10): 2742-2747.

    • 26

      汪传雷, 万一荻, 秦琴, 等. 基于区块链的供应链物流信息生态圈模型[J]. 情报理论与实践, 2017, 40(7): 115-121.

    • 27

      章宁, 钟珊. 基于区块链的个人隐私保护机制[J]. 计算机应用, 2017, 37(10): 2787-2793.

    • 28

      Kuo T T, Kim H E, Ohno-Machado L. Blockchain distributed ledger technologies for biomedical and health care applications[J]. Journal of the American Medical Informatics Association, 2017, 24(6): 1211-1220.

    • 29

      Ahmed S, Broek N T. Blockchain could boost food security[J]. Nature, 2017, 550(7674): 43.

    • 30

      Dorri A, Kanhere S S, Jurdak R, et al. Blockchain for IoT security and privacy: The case study of a smart home[C]//Proceedings of the IEEE International Conference on Pervasive Computing and Communications Workshops. IEEE, 2017.

    • 31

      Hyperledger Fabric[EB/OL]. [2018-08-03]. https://www.hyperledger.org/projects/fabric.

    • 32

      The Dataverse project[EB/OL]. [2018-06-11]. https://dataverse.org.