en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
LohrS. The change of big data[N]. New York Times, 2012-02-11.
参考文献 2
LaneyD. 3D data management: Controlling data volume, velocity and variety[J]. META Group Research Note, 2001, 6: 70.
参考文献 3
GantzJ, ReinselD. Extracting value from chaos[J]. IDC iView, 2011, 1142(2011): 1-12.
参考文献 4
GudivadaV N, Baeza-YatesR, RaghavanV V. Big data: Promises and problems[J]. IEEE Computer, 2015, 48(3): 20-23.
参考文献 5
FranksB. 驾驭大数据[M]. 北京: 人民邮电出版社, 2013.
参考文献 6
KulkarniA. A study on metadata management and quality evaluation in big data management[J]. Engineering Technology & Applied Science Research, 2016, 4(7): 455-459.
参考文献 7
LeeY W, PipinoL L, FunkJ D, et al. 数据质量征途[M]. 黄伟, 王嘉寅, 苏秦, 等译. 北京: 高等教育出版社, 2015.
参考文献 8
汪应洛, 黄伟, 朱志祥. 大数据产业及管理问题的一些初步思考[J]. 科技促进发展, 2014(1): 15-19.
参考文献 9
ImmonenA, PääkkönenP, OvaskaE. Evaluating the quality of social media data in big data architecture[J]. IEEE Access, 2015, 3: 2028-2043.
参考文献 10
LiuJ, LiJ, LiW, et al. Rethinking big data: A review on the data quality and usage issues[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 115: 134-142.
参考文献 11
BoydD, CrawfordK. Critical questions for big data provocations for a cultural, technological, and scholarly phenomenon[J]. Information, Communication and Society, 2012, 15: 662-679.
参考文献 12
SukumarR, RamachandranN, FerrellR K. ‘Big Data’ in health care: How good is it?[J]. International Journal of Health Care Quality Assurance, 2015: 2-9.
参考文献 13
CaballeroI, SerranoM, PiattiniM. A data quality in use model for big data[C]// Proceedings of the International Conference on Conceptual Modeling. Heidelberg: Springer, 2014: 65-74.
参考文献 14
CaiL, ZhuY Y. The challenges of data quality and data quality assessment in the big data era[J]. Data Science Journal, 2015, 14: Article No. 2.
参考文献 15
WahyudiA, KukG, JanssenM. A process pattern model for tackling and improving big data quality[J]. Information Systems Frontiers, 2018, 20: 457-469.
参考文献 16
HaryadiA F, HulstijnJ, WahyudiA, et al. Antecedents of big data quality: An empirical examination in financial service organizations[C]// Proceedings of 2016 IEEE International Conference on Big Data. IEEE, 2016: 116-121.
参考文献 17
GaoJ, XieC, TaoC. Big data validation and quality assurance—Issuses, challenges, and needs[C]// Proceedings of 2016 IEEE Symposium on Service-Oriented System Engineering. IEEE, 2016: 433-441.
参考文献 18
BatiniC, RulaA, ScannapiecoM, et al. From data quality to big data quality[J]. Journal of Database Management, 2015, 26(1): 60-82.
参考文献 19
RaoD, GudivadaV N, RaghavanV V. Data quality issues in big data[C]// Proceedings of IEEE International Conference on Big Data. IEEE, 2015: 2654-2660.
参考文献 20
HaryadiA F. Requirements on and antecedents of big data quality: An empirical examination to improve big data quality in financial service organizations[D]. Delft: Delft University of Technology, 2016: 13.
参考文献 21
GlowallaP, BalazyP, BastenD, et al. Process-driven data quality management—An application of the combined conceptual life cycle model[C]// Proceedings of the 2014 47th Hawaii International Conference on System Sciences. Washington DC: IEEE Computer Society, 2014: 4700-4709.
参考文献 22
Clarke. The OECD guidelines[EB/OL]. [2017-4-4]. http://www.rogerclarke.com/DV/PaperOECD.html.
参考文献 23
SoaresS. Big data governance[M]// An Emerging Imperative. MC Press, 2012.
参考文献 24
AggarwalA. Data quality evaluation framework to assess the dimensions of 3V’s of big data[J]. International Journal of Emerging Technology and Advanced Engineering, 2017, 7(10): 503-506.
参考文献 25
ToivonenM. Big data quality challenges in the context of business analytics[D]. Helsinki: University of Helsinki, 2015: 47-48.
参考文献 26
KläsM, TrendowiczA, JedlitschkaA. What makes big data different from a data quality assessment perspective? Practical challenges for data and information quality research[R]. ODQ2015 30 March 2015,Garching, Germany.
参考文献 27
ArdagnaD, CappielloC, SamáW, et al. Context-aware data quality assessment for big data[J]. Future Generation Computer Systems, 2018, 89: 548-562.
参考文献 28
张绍华, 潘蓉, 宗宇伟. 大数据治理与服务[M]. 上海: 上海科学技术出版社, 2016: 120.
参考文献 29
JuddooS. Overview of data quality challenges in the context of Big Data[C]// Proceedings of the 2015 International Conference on Computing, Communication and Security. IEEE, 2015: 1-9.
参考文献 30
SneedH M, ErdoesK. Testing big data (assuring the quality of large databases)[C]// Proceedings of the 2015 IEEE Eighth International Conference on Software Testing, Verification and Validation Workshops. IEEE, 2015: 1-6.
参考文献 31
LiedtkeC A. Quality, analytics, and big data[R]. Strategic Improvement Systems, 2016.
参考文献 32
蔡莉, 朱扬勇. 大数据质量[M]. 上海: 上海科学技术出版社, 2017: 5.
参考文献 33
FederalD A S. Data quality framework, version 1.0[R]. Justice Sector Information Strategy, Ministry of Justice, US, 2008.
参考文献 34
ParkinsonJ. Six big data challenges[EB/OL]. [2017-02-01]. http://www.cioinsight.com/c/a/Expert-Voices/Managing-Big-Data-Six-Operational-Challenges-484979.
参考文献 35
LoshinD. Big data analytics: From strategic planning to enterprise integration with tools, techniques, NoSQL, and graph[M]. Morgan Kaufmann Publishers, 2013: 13.
参考文献 36
GeM, DohnalV. Quality management in big data[J]. Informatics, 2018, 5: 19.
参考文献 37
CalderA. ISO/IEC 38500: The IT governance standard[M]. IT Governance Publishing, 2008.
参考文献 38
Data Governance Institute. The DGI data governance framework[R]. 2009.
参考文献 39
CorporationIBM. IBM data governance council maturity model: Building a roadmap for effective data governance[R]. 2007.
参考文献 40
ISACA. COBIT 5: Enabling information[M]. ISA, 2013.
参考文献 41
GroupGartner. Big data[EB/OL]. http:// www.gartner.com/it-glossary/big-data.
参考文献 42
InternationalDAMA. DAMA数据管理知识体系指南[M]. 马欢, 刘晨, 等译. 北京: 清华大学出版社, 2012.
参考文献 43
TalebI, DssouliR, SerhaniM A. Big data pre-processing: A quality framework[C]// Proceedings of the IEEE International Congress on Big Data. IEEE, 2015: 191-198.
参考文献 44
TalebI, SerhaniM A, DssouliR. Big data quality: A survey[C]// Proceedings of the 2018 IEEE International Congress on Big Data. IEEE, 2018: 166-173.
参考文献 45
ChenY T, SunE W, LinY B. Coherent quality management for big data systems: a dynamic approach for stochastic time consistency[J]. Annals of Operations Research, 2018: Article No. 2795.
参考文献 46
CheahY W, CanonR, PlaleB, et al. Milieu: Lightweight and configurable big data provenance for science[C]// Proceedings of the 2013 IEEE International Congress on Big Data. IEEE, 2013: 46-53.
参考文献 47
BeckеrD, KingT D, McMullеnB. Big data, big data quality problеm[C]// Proceedings of the 2015 IEEE Intеrnational Conferencе on Santa Clara. IEEE, 2015: 2644-2653.
参考文献 48
PawarS H, ThakoreD. An assessment model to evaluate quality attributes in big data quality[J]. International Journal of Computer Science Trends and Technology, 2017, 5(2): 373-376.
参考文献 49
ReddyG M, DeshmukhG, KumarR A, et al. Enhanced big data quality frame work[J]. International Journal of Computer Science and Information Technologies, 2016, 7(3): 1408-1409.
参考文献 50
SahaB, SrivastavaD. Data quality: The other face of Big Data[C]// Proceedings of the International Conference on Data Engineering. IEEE, 2014: 1294-1297.
参考文献 51
金范. 数据质量管理与安全管理[M]. 上海: 上海科学技术出版社, 2016: 47.
参考文献 52
SoaresS. 大数据治理[M]. 匡斌, 译. 北京: 清华大学出版社, 2014.
参考文献 53
TalebI, El KassabiH T, SerhaniM A, et al. Big data quality: A quality dimensions evaluation[C]// Proceedings of the 2016 International IEEE Conferences on Ubiquitous Intelligence & Computing, Advanced and Trusted Computing, Scalable Computing and Communications, Cloud and Big Data Computing, Internet of People, and Smart World Congress. IEEE, 2016: 759-765.
参考文献 54
MerinoJ, CaballeroI, RivasB, et al. A data quality in use model for big data[J]. Future Generation Computer Systems, 2016, 63: 123-130.
参考文献 55
KrogstieJ, GaoS. A semiotic approach to investigate quality issues of open big data ecosystems[M]// Information and Knowledge Management in Complex Systems. Springer International Publishing, 2015: 41-50.
参考文献 56
BizerC. Quality-driven information filtering—in the context of web-based information systems[M]. Saarbrücken: VDM Verlag, 2007: 1-22.
参考文献 57
DesaiK Y. Big data quality modeling and validation[D]. San Jose: San José State University, 2018, 5: 18-58.
参考文献 58
FabijanA, HelenaH O, BoschJ. Customer feedback and data collection techniques in software R&D: A literature review[C]// Proceedings of the International Conference of Software Business. Springer: 2015, 1: 139-153.
参考文献 59
BertinoE. Big data—Opportunities and challenges panel position paper[C]// Proceedings of the 2013 IEEE 37th Annual Computer Software and Applications Conference. Washington DC: IEEE Computer Society, 2013: 479-480.
参考文献 60
莫祖英. 大数据质量测度模型构建[J]. 情报理论与实践, 2018, 41(3): 11-15.
参考文献 61
FloridiL. Big data and information quality[M]// The Philosophy of Information Quality. Springer International Publishing, 2014: 303-315.
参考文献 62
AbdullahN, IsmailS A, SophiayatiS, et al. Data quality in big data: A review[J]. International Journal of Advances in Soft Computing and its Applications, 2015: 17-27.
参考文献 63
SukumarS R, NatarajanR, FerrellR K. Quality of big data in health care[J]. International Journal of Health Care Quality Assurance, 2015, 28(6): 621-634.
参考文献 64
FirmaniD, MecellaM, ScannapiecoM, et al. On the meaningfulness of “Big Data Quality”[J]. Data Science and Engineering, 2016, 1(1): 6-20.
参考文献 65
JuddooS. Overview of data quality challenges in the context of Big Data[C]// Proceedings of the 2015 International Conference on Computing, Communication and Security. IEEE, 2016.
参考文献 66
DumbillE. Making sense of big data[J]. Big Data, 2013, 1(1): 1-2.
参考文献 67
BeckerD, KingT D, McMullenB, et al. Big data quality case study preliminary findings[R]. U.S. Army Medcom Mods, 2013: 1-54.
参考文献 68
KläsM, PutzW, LutzT. Quality evaluation for big data: A scalable assessment approach and first evaluation results[C]// Proceedings of the Joint Conference of the International Workshop on Software Measurement & the International Conference on Software Process & Product Measurement. IEEE, 2017.
参考文献 69
YaoL, GeZ. Big data quality prediction in the process industry: A distributed parallel modeling framework[J]. Journal of Process Control, 2018, 68: 1-13.
参考文献 70
FarziS, DastjerdiA B. Data quality measurement using data mining[J]. International Journal of Computer Theory and Engineering, 2010, 2(1): 115-118.
参考文献 71
HanR, NieL, GhanemM M, et al. Elastic algorithms for guaranteeing quality monotonicity in big data mining[C]// Proceedings of the 2013 IEEE International Conference on Big Data, 2013: 45-50.
参考文献 72
LiL L, LiJ Z, GaoH. Evaluating entity-description conflict on duplicated data[J]. Journal of Combinatorial Optimization, 2016, 31(2): 918-941.
参考文献 73
LaiS T, LeuF Y. An iterative and incremental data preprocessing procedure for improving the risk of big data project[C]// Proceedings of the International Conference on Innovative Mobile and Internet Services in Ubiquitous Computing. Heidelberg: Springer, 2017, 612: 483-492.
参考文献 74
LinY M, WangH Z, LiJ Z, et al. Data source selection for information integration in big data era[J]. Information Sciences, 2019, 479: 197-213.
参考文献 75
MiaoD, LiJ, LiuX, et al. Vertex cover in conflict graphs: Complexity and a near optimal approximation[C]// Proceedings of the International Conference on Combinatorial Optimization and Applications. New York: Springer, 2015: 395-408.
参考文献 76
HeinrichB, HristovaD. A fuzzy metric for currency in the context of Big Data[C]// Proceedings of the Twenty Second European Conference on Information Systems, 2014: 1-15.
参考文献 77
LiM H, LiJ Z, ChengS Y. Uncertain rule based method for evaluating data currency[J]. Journal of Software, 2014, 25(S2): 147-156.
参考文献 78
EndlerG, BaumgärtelP, WahlA M, et al. Is estimation of data completeness through time series forecasts feasible[C]// Proceedings of the Advances in Databases and Information Systems. Springer International Publishing, 2015: 261-274.
参考文献 79
RazniewskiS, NuttW. Assessing the completeness of geographical data[C]// Proceedings of the Big Data. Berlin: Springer, 2013: 228-237.
参考文献 80
EmranN A, EmburyS, MissierP, et al. Measuring data completeness for microbial genomics database[C]// Proceedings of the Intelligent Information and Database Systems. Berlin: Springer, 2013: 186-195.
参考文献 81
周傲英, 金澈清, 王国仁, 等. 不确定性数据管理技术研究综述[J]. 计算机学报, 2009, 32(1): 1-16.
参考文献 82
ZhangY, WangH Z, YangZ S, et al. Relative accuracy evaluation[J]. PLoS ONE, 2014, 9(8): e103853.
参考文献 83
HeinrichB, KlierM, SchillerA, et al. Assessing data quality–A probability-based metric for semantic consistency[J]. Decision Support Systems, 2018, 110: 95-106.
参考文献 84
罗纳德·巴赫曼, 吉多·肯珀, 托马斯·格尔策. 大数据时代下半场: 数据治理、驱动与变现[M]. 刘志则, 刘源, 译. 北京: 北京联合出版公司, 2017: 101.
参考文献 85
SidiF, PanahyP H S, AffendeyL S, et al. Data quality: A survey of data quality dimensions[C]// Proceedings of the 2012 International Conference on Information Retrieval & Knowledge Management. IEEE, 2012: 300-304.
参考文献 86
GanapathiA, ChenY, GanapathiA, et al. Data quality: Experiences and lessons from operationalizing big data[C]// Proceedings of the IEEE International Conference on Big Data. IEEE, 2017.
参考文献 87
叶焕倬, 吴迪. 相似重复记录清理方法研究综述[J]. 现代图书情报技术, 2010, 26(9): 56-66.
参考文献 88
蒋勋, 刘喜文. 大数据环境下面向知识服务的数据清洗研究[J]. 图书与情报, 2013(5): 16-21.
参考文献 89
庞雄文, 姚占林, 李拥军. 大数据量的高效重复记录检测方法[J]. 华中科技大学学报(自然科学版), 2010(2): 8-11.
参考文献 90
WilliamsonA. Big data and the implications for government[J]. Legal Information Management, 2014, 14(4): 253-257.
参考文献 91
CiancariniP, PoggiF, RussoD. Big data quality: a roadmap for open data[C]// Proceedings of the 2016 IEEE Second International Conference on Big Data Computing Service and Applications. IEEE, 2016: 210-215.
参考文献 92
洪学海, 王志强, 杨青海. 面向共享的政府大数据质量标准化问题研究[J]. 大数据, 2017(3): 44-52.
参考文献 93
马一鸣. 政府大数据质量评价体系构建研究[D]. 长春: 吉林大学, 2016.
参考文献 94
JuddooS, GeorgeC, DuquenoyP, et al. Data governance in the health industry: Investigating data quality dimensions within a big data context[J]. Applied System Innovation, 2018, 1(4): 43;
参考文献 95
JuddooS, GeorgeC. Discovering the most important data quality dimensions in health big data using latent semantic analysis[C]// Proceedings of the IEEE International Conference on Advances in Big Data, Computing and Data Communication Systems, Durban, South Africa, 2018.
参考文献 96
HoffmanS. Medical big data and big data quality problems[J]. Social Science Electronic Publishing, 2014: 289-316.
参考文献 97
马国耀, 孙勇韬, 马玉玲. 数据校验技术在医疗健康大数据质量控制中的应用分析[J]. 中国卫生信息管理杂志, 2016, 13(4): 417-419.
参考文献 98
陈超. 电力大据质量评价模型及动态探查技术研究[J]. 现代电子技术, 2014(4): 153-155.
参考文献 99
HazenB, BooneC, EzellJ, et al. Data quality for data science, predictive analytics, and big data in supply chain management: An introduction to the problem and suggestions for research and applications[J]. International Journal of Production Economics, 2014, 154: 72-80.
目录 contents

    摘要

    作为前沿性研究领域,大数据质量研究是大数据研究的核心内容之一,也是各界关注的焦点问题。本文以国内外大数据质量研究文献为对象,从基本内涵、质量管理、质量评价、应用实践等角度对相关研究进行梳理与综述,分析国内外相关研究进展。研究发现,大数据质量诸方面研究均是以大数据特征为基础,以大数据质量基本属性为核心,与其应用目标及适用情境相结合,形成有别于常规数据质量理论的、具有复杂性和多维度的理论体系。同时发现,大数据质量本质研究、与技术环境和人文环境相结合研究、基于宏观视角的国家层面和战略层面研究等将是大数据质量研究领域未来的研究趋势与研究重点。

    Abstract

    As a frontier research field, big data quality research is one of the core contents of big data research; it is also the focus of attention from all walks of life. Based on the literature on big data quality, this paper uses synthesis methods to examine the progress of relevant domestic and international research in terms of its basic implications, quality management, quality evaluation, and application practice. The results show that the study of big data quality is based on big data characteristics, with the basic attributes of big data quality as the core, combined with its application goals and applicable scenarios. It finally forms a complex and multidimensional theoretical system that is different from the conventional data quality theory. At the same time, the results indicate that the study of the essence of big data quality, the combination of technical and human environment, and research on the national and strategic levels based on a macro perspective will be the future research trends and research focus of big data quality research.

  • 1 引 言

    1

    伴随移动互联网、智能硬件和物联网的快速普及,人、机、物三元世界高度融合引发数据规模爆炸式增长和数据模式高度复杂[1]。从3V[2]到4V[3]、5V[4],社会各界对大数据基本概念还没有达成共识,但大数据所蕴含的巨大价值却得到广泛认可。“大数据重要的不是数据,而是如何使用数据[5],大数据核心价值的挖掘与利用是建立于准确、全面、高质量数据基础之上的。大数据质量管理是大数据战略的基[6]。陆宗本院士指出,大数据特点导致数据质量保障难度加大。数据质量较低不但会降低决策质量,更会带来难以估量的灾难性损失,保障和提升大数据质量迫在眉[7]。汪应洛院士[8]更明确提出,大数据质量是大数据研究的前提,是一切数据分析、挖掘、决策支持的基础。而大数据所呈现出的非结构化特点、数据来源新方式及用户对数据质量期望和感知变化等对数据质量研究提出了新的挑[9]

    近年来,大数据计算思想和方法的广泛传播对许多学科产生了深远影[10,11],大数据质量研究作为大数据研究领域的核心问题,受到各界关注。以“大数据质量”、“数据治理”、“big data quality”等为主题词,以国内外主要数据库和国家图书馆书目数据库为检索源,通过对所获得的国内外大数据质量研究文献内容梳理,本文重点分析梳理大数据质量基本内涵、质量管理、质量评价与应用实践等方面的研究热点和主要观点,最后指出对该领域现有研究不足,对未来研究提出展望。

  • 2 大数据质量基本内涵研究

    2

    大数据的“大”不仅是指大数据量大、结构复杂、粒度细,更是指数据质量和使用价[10]。虽然学者至今尚未在大数据质量定义上达成共识,但随着对大数据特性及本质认识的逐步深入,大数据质量内涵与本质阐释也随之深入。经历了从数据客观属性到应用情境、主体感知的发展变化历程和视角转换。

    站在大数据特征和客观属性角度,Sukumar[12]将大数据质量界定为准确性,指出大数据准确性与数据价值间的内在联系是直接而明确的,并与大数据其他4Vs属性相互关联。而Caballero[13]、Cai[14]则在大数据特征与数据质量间映射关系基础上,从满足数据特征角度系统阐释大数据质量内涵。

    大数据质量与特定环境、特定目标和特定的初始条件密切相关,具有可变[15]。大数据的多源、多种类型、多种结构等特点决定其质量的动态性和情境[16]。在不同时间表和应用环境中,面对特定领域的不同需求,需要重新思考大数据质量的本质与内[17]。需要在一个新的概念框架内,从数据类型、数据源和应用领域三个坐标映射质量范式的演变,阐释大数据质量内[18]

    质量既不能独立于任务情境,也不能独立于具体过程情境。Rao[19]指出,大数据质量是与具体环境与给定语境相结合的关于数据特征的质量,应与其具体应用目标与应用语境有机结[9]。大数据质量因项目质量目标不同而存在差异,并非所有质量特征均会明显地出现在每个项目之[20]。与此同时,数据质量与数据生命周期的阶段或过程高度耦[21]。大数据质量不是一个绝对概念,而是贯穿于包括数据收集、处理、存储直至进入数据系统的整个数据周期;不是一个静态概念,其价值会因存储过程中的衰减而动态变[22]。需要从数据采集、处理、分析过程不同阶段角度思考与阐释数据质[9,13]。可以根据执行任务的具体类型,结合数据过程,并考虑其间的技术因素界定数据品质与满足程[23]

    在此基础上,站在主体感受和价值感知角度,Cai[14]指出,大数据质量取决于数据使用业务环境,只有符合相关用途和满足用户要求的数据才是质量良好数据,即数据质量为“适合使用”,并取决于数据用[24],是持续满足知识工作者和最终用户期望、满足业务需求的数据的适合性或适用性,且会呈现不同内涵特[25]

    可见,大数据质量的精确感知和定义取决于诸多因[26],是一个多维尺度概[27]。虽然有学者指出,大数据质量与传统数据质量没有本质差异,仅是对事物属性特征表示方式不同,传统数据质量概念内涵适用于解释大数据质[28],且有部分学者试图为大数据质量界定一个通用定[29]。但大数据质量典型环境坐标的可变性和异质性,所具有动态、情境性,与任务类型、数据类型密切相关性,引发更多学者与应用情境、数据类型、数据周期相结合的大数据质量概念界定与内涵剖析,从动态角度和基于数据域的内涵阐[30]。纵观已有研究,大部分研究停留于观点提出层面,不但缺少清晰、精准的阐释,更缺少对其本质系统、深入剖析,缺少更为全面、综合视角的阐释。

  • 3 大数据质量管理研究

    3

    大数据质量管理是组织变革管理的关键支撑流程,是根据组织业务需求制定标准,并确保得到遵守的持续动态过[28]。有助于将组织注意力、资源和行动集中于提高大数据产品和服务质量[31]。质量管理贯穿于大数据生命周期的每个阶段,是各阶段数据质量问题识别、度量、监控、预警等的系列管理活[32,33],包括过程、方法、标准、准则、体系和质量参数等核心内[17]。大数据的复杂性、异构性特征及其质量动态性、情境化特点,给其管理提出新的挑战。其管理思想与根本原则应不同于常规数据质量管[34]。Loshin[35]强调指出,基于大数据特点和质量可变性,大数据质量管理的重点聚焦于数据集的评估和对数据的纠正措施,以确保数据集符合其最初任务目标、应用情境和预期。

    大数据质量管理框架为组织提供数据质量管理的方法论,支撑组织开展大数据质量管理工[28]。在质量管理框架和模型研究中,虽然Ge[36]指出,受可扩展性和数据流处理限制,不能简单地将传统数据质量管理模型应用于大数据质量管理之中。但在大部分研究中,ISO38500的IT治理标[37]、DGI数据治理框[38]、IBM数据治理委员会数据治理要素模[39]、COBIT 5数据治理基本原[40]、Gartner数据管理参考框架及数据治理和信息管理要素模[41]、DAMA数据管理知识体系(DMBOK)框[42]等成为大数据质量管理研究的重要参考模型。在此基础上,Taleb[43,44]基于大数据流程阶段和生命周期并与大数据处理过程相结合的全面质量管理(QBD)模型、Rao[19]基于业务语境构建形成过程驱动的数据质量管理(PDDQM)模型、Chen[45]提出基于系统体系工程和质量生命周期管理(QLM)动态一致性质量管理框架等,均是以大数据质量管理核心目标为基础,体现了任务情境、具体应用目标等大数据质量管理特色。

    在质量管理内容研究方面,数据质量贯穿于整个数据生命周期,需要对生命周期和数据工作流程中每个阶段的数据质量进行针对性跟踪管理、监测和控[46]。结合大数据质量过程与阶段属性,Becker[47]指出,大数据质量管理包括测量过程(分析、测量和评估)、操作过程(信息使用、数据清理、数据运营管理、DQ改进)两个方面,并受其他过程环节影响,具体由质量评价、计划、转化、监控等内容所构[48]。而Reddy[49]提出了由数据测量、知情使用、数据清理、数据操作管理和数据改进等活动构成的基于大数据处理流程角度的大数据质量管理体[33]。以上研究均强调管理内容与不同阶段、过程中质量要求的有机结合。

    针对大数据结构复杂性与数据质量多维性,Saha[50]、金[51]分别提出面向结构化和半结构化数据等角度的数据质量管理思想,必须以半结构化、非结构化等不同数据类型为基础,制定质量标准和提出管理方略。与此同时,Haryadi[16]从管理要素角度指出,大数据质量管理应该涵盖数据、技术、过程(或程序)、人员、组织、外部环境等多方维度和若干要素。而Immonen[9]进一步指出,元数据管理是大数据质量管理的基础和重要构成,主要包括元数据管理和质量管理两个功能。

    从更为宏观视角,Gao[17]提出由组织管理、数据管理和质量保证管理等构成的大数据质量管理体系,体现了广义质量管理思想。也有学者指出,大数据战略作为国家或组织战略和竞争力的重要构成,从顶层设计到底层实现“落地”过程中,治理是基础,质量管理是治理的核[52]。现在普遍存在的战略性规划缺失,带给大数据质量严峻挑[28]

    由以上研究可见,围绕大数据质量基本目标、任务类型和应用情境的质量管理研究,有机契合大数据质量可变性、异质性、多维度和情境化属性与本质,聚焦于数据流程和数据生命周期、数据结构和质量要素的质量管理框架、模型和具体内容,集中于领域视角、环节视角的切入和组织视角的剖析。体现了数据质量管理的多方位视角,所提出的思想更具前瞻性与发展性,方略更具微观性与适用性。

  • 4 大数据质量评价研究

    4
  • 4.1 大数据质量评价模型研究

    4.1

    Taleb[53]指出,对大数据质量基本评价模型进行探索性研究之前,需要明确大数据质量评价目的、评价什么、如何评价等基本问题。常规数据质量评估模型已经难于完全适用大数据质量评[54],需探索建构适应于大数据质量生态系统的评估模[55]

    在基于大数据质量关键坐标与大数据自身特点关联视角的评价模型研究中,Merino[54]以ISO/IEC 25012为参照系,构建由上下文充分性、操作充分性和时间充足性构成的“3As数据质量使用模型”,反映大数据3Vs特点与3As的映射关系。Taleb[53]、Kulkarni[6]、Bizer[56]分别在研究中建构形成基于内容、语境和评级三个层面类型的质量评价模型,而Batini[18]建构的以数据类型(DT)、数据源(S)和应用域(AD)大数据核心坐标结构特征为基础的质量评价模型,通过核心特征映射质量范式演化和大数据质量概念框架。基于质量八个核心测量参数所提出的八个大数据质量测量和预测模型,Desai[57]采用蒙特卡罗和神经网络等方法计算复合数据质量,为更高级综合性建模开发奠定了基础。依据任务目标,基于置信度、执行时间、预算三个参数之间的关系确定的三个主要场景,Ardagna[27]构建形成面向不同场景的大数据质量评价与预期模型。以上模型从不同角度反映质量属性、数据特点与质量评价间的内在联系,将其评价重心倾向于核心质量属性、与任务目标的适配度,并突出其情境适用性。

    在基于数据生命周期和大数据质量动态性视角的评价模型研究中,Fabijan[58]、Immonen[9]均明确指出,大数据质量评价框架必须要考虑数据系统中的数据流动过程,考虑一个或多个阶段的数据质量属性。在Immonen[9]和Bertino[59]分别构建的质量评价与大数据架构(即大数据传输渠道)间数据处理阶段相结合的质量评价模型、Cai[14]建立的基于反馈机制的大数据质量动态评价过程的评估模型中,在莫祖[60]基于数据处理阶段,由原始质量、过程质量和结果质量构成的质量评价模型中,均将质量评价与数据流动过程高度耦合,以大数据流动过程中的数据生命周期为主脉,以任务情境和语境为关键变量,提出了基于分层理念的数据质量标准,形成过程性与动态性相结合的评价框架。

    与此同时,有学者指出,数据类型会影响质量评估度[9]。Floridi[61]基于生成或使用数据类型角度选取评价指标,构建形成评价模型。而Cai[14]从更为宽泛角度,在数据质量模型、质量服务模型、业务模型及信任模型基础上,构建形成大数据质量评价模型。

    以上基于不同视角的评价模型既体现了数据质量的客观评价思想,又体现了大数据质量评价的过程性、应用情境的适用性理念,成为大数据质量评价理论的重要构成部分。随着对大数据质量内涵认识的不断深入,质量管理研究的不断发展,尤其是随着大数据类型的日趋多样、结构日趋复杂、流动过程日趋繁复,与之相适应的大数据质量评价模型将会不断发展。

  • 4.2 大数据质量评价体系与评价指标研究

    4.2

    作为具有复杂特征的数据资源,大数据质量是一个多维概[25],决定了其评价维度与评价指标的多样性和复杂[47]。以不同评价理念、不同适用情境的评价模型为基础,针对大数据质量评价维度与评价指标,部分学者提出基于表征数据质量特[9,62]、数据生命周[63]、数据使用问[10]等的选取标准。围绕大数据质量本质属性,也有学者提出面向多样化结构类型的评价指[51]、基于应用情境的评价维[20,24],更有学者提出根据数据来源的特定范围选定评价维度,从人类活动、商业活动及机器生成三方面数据源明确测量维度与指[64]。较为典型的大数据质量评价指标体系如表1所示。

    表1 典型大数据质量评价指标体系

    研究者质量评价维度具体评价指标来源文献
    Toivonen M数据质量维度数据使用质量维度可达性维度可用性维度

    完整性、可靠性、准确性、一致性

    数据可解释性

    系统可用性、交互可用性、安全性

    时效性、响应性、流通性、有效性等

    [25]
    张绍华等

    固有质量度量维度、环境质量度量维度

    表达质量度量维度、可访问质量度量维度

    可信性、客观性、可靠性、价值密度、多样性、可解释性、简明性、一致性

    易懂性、适量性、完整性、相关性、增值性、及时性、易操作性、广泛性

    可访问性、安全性

    [28]
    Juddoo S内在维度、语境维度、代表性维度、可访问性维度[65]
    Batini C等、Dumbill E

    准确性维度(accuracy)

    完备性维度(completeness)

    冗余性维度(redundancy)

    可读性维度(readability)

    可达性与可用性维度(accessibility and availability)

    一致性维度(consistency)

    信任性 维度(trust)

    正确性、有效性、精确性

    针对性、关联性

    最小性、紧凑性、简洁性

    可理解性、清晰性、简单性

    衔接性、连贯性

    可信性、可靠性、信誉度、数据来源权威性

    [18][66]
    Aggarwal A

    数量规模维度

    变化速度维度

    品种种类维度

    准确性和可及性

    清晰度和相关性

    一致性和及时性

    [24]
    Abdullah N等

    数据的内容和结构维度

    可用性和有用性维度

    准确性、完整性、一致性、完备性

    有效性、及时性、可访问性

    [62]
    Kulkarni A

    基于内容的度量

    基于情境的度量

    基于评级的度量

    准确性、可信性、完备性、一致性

    有效性、关联性、时效性、可验证性

    [6]
    Merino J等

    情境充分性(contextual adequacy)

    时间充足性(temporal adequacy)

    操作充分性(operational adequacy)

    完整性、一致性、机密性、精确性

    可信性、时间性、有效性、易理解性

    [54]
    Caballero I等

    情境一致性(contextual consistency)

    时间一致性(temporal consistency)

    操作一致性(operational consistency)

    相关性、可信度、易理解性、准确性和保密性

    时间并发性、可用性、流行性

    可用性、可移植性、精确性、完整性和可追溯性

    [13]
    Taleb I等

    基于内容的度量维度

    基于语境的度量维度

    基于评级的度量维度

    基于内容度量维度,信息本身用作质量指标;

    基于语境度量维度,元数据用作质量指标;

    基于评级度量维度,可使用信息,也可以使用信息来源明确等级作为指标

    [53]
    Haryadi A F

    依赖于语境的评价维度

    独立于语境的评价维度

    准确性、可信度、相关性、通用性、完整性、全面性、一致性、唯一性、及时性

    有效性、可追溯性

    [20]
    莫祖英

    原始质量

    过程质量

    结果质量

    数据源规范性、安全稳定性、数据到达率;数据采集的完整性、无误性、实时性;数据描述框架、数据时间的一致性、数据定义的一致性等

    数据清洗的准确性、数据的一致性、数据的置信度、数据的有效性、数据集成、数据存取效率、数据清洗粒度

    结果数据的价值性、数据分析方法

    [60]
    Cai L等

    数据质量固有特征(包括可得性、可用性、可靠性、相关性四个维度)

    用户客户满意度特征(包括质量呈现性维度)

    可访问性、授权性、及时性

    数据定义/文档、可靠性、元数据

    准确性、一致性、完备性、充分性、可审计性、适应性、可读性、结构要素

    [14]
    表1
                    典型大数据质量评价指标体系

    由表1可见,现有研究涵盖了从大数据内容、效用、表述、来源到大数据产生、存储、管理和使用过程等多角度、全方位的质量评价维度与指标。但大数据质量评价维度更应与特定使用情境相[65],不考虑内容情境将无法有效评估大数据质量,且没有一致的质量属性与分类适用于所有内容情[9]。因此,大数据质量评价应涵盖更广泛维度、包含更宽泛指标,既包括主观的也包括客观的维度,既包括独立于任务的也包括依赖于任务的指[25,65]

    与此同时,在大数据质量评价中,并不是所有质量维度在不同项目评价中都需要或同样重要,与任务目的、输出类型、时间临界性、应用场景等相[16],可以随着质量属性目标、适用情境、评价目标、评价适用性等需求的变化而变化,在使用过程中,可以根据环境和情境选择适用的质量属性和评估指[9]

    质量元数据也是大数据质量评价的重要构成部[26],在使用质量属性和质量政策的数据质量评估研究中,需要准确把握质量元数[6]。体现了大数据质量与常规数据质量评价的显差异。具体而言,Immonen[9]指出,质量元数据的质量属性由类型、准则、价值范围、可接受值及对应规则等度量标准所构成,具体包括准确性、完备性、一致性、关联性、有效性、及时性、可信性等维[9,67]

    综合现有研究,有学者指出,尽管存在近200个大数据质量评价指标,但对其性质并没有达成一致意见,且一些质量属性过于抽象,缺少概念和/或度量的一致性规[9]。目前已有评价体系与指标研究倾向于对大数据质量的基本面评估,正如Juddoo[65]所指出的,大数据质量评价维度和标准具有显著的时间性特点,适用于复杂数据环境、具体情境与应用目标、具体数据类型的大数据质量评价体系还有待进一步研究。

  • 4.3 大数据质量评价方法研究

    4.3

    大数据质量评价的复杂性决定需要采用不同于常规数据评价的策略、方法和工[67]。断言可采用常规数据质量方法评价大数据质量的思想是幼稚[35]

    Kläs[68]提出的具有跨组织、可扩展性大数据质量评估方法(SQA4BD),Rao[19]基于业务语境、适用于过程驱动数据质量管理(PDDQM)的过程建模核心方法,Yao[69]基于MapReduce框架的大数据质量预测分布式并行过程建模方法,与数据质量评价模型相适配,均是面向大数据质量整体评价过程,体现了整体性、过程性与综合性思想。

    与此同时,Taleb[53]开发了基于BLB的大数据质量评估算法,通过大数据自举采样,减少链路预测算法的运行时间和计算量;Farzi[70]提出的适用于数据缺失时大数据质量评价的基于数据挖掘算法评价方法;Han[71]提出的动态运用成本、时间和资源分配的质量弹性挖掘算法;Li[72]提出基于实体识别结果的实体同一性判定方法;Lai[73]设应用IIDQI程序、迭代检验活动识别数据质量缺陷,测量关键质量特性等,均是针对大数据质量特性在评价过程中特定环节的具体问题提供了解决方法。

    数据源作为大数据质量评价特殊性关键阶段,Lin[74]提出用以评估多元异构数据源质量的数据源概率覆盖模型。Ardagna[27]建立数据质量适配器模块,根据用户需求、数据类型、情境触发配置适合异构源数据质量评估方法。

    围绕大数据质量具体属性及评价维度,Miao[75]提出的基于时间戳和独立时间戳判断方法,Heinrich[76]提出的基于模糊逻辑推断时效性衰减函数的数据时效性判定方法,Li[77]在时效性数据模型基础上提出独立于时间戳的数据时效性判定方法等,均是针对数据时效性维度的具体评价方法。Endler[78]、Razniewski[79]、Emran[80]面向一般或某些特定数据集,提出适用于数据完整性的判定方法。而周傲英[81]的面向不确定数据模型的基于排序与剪枝等启发式技术的新型算法,Zhang[82]的基于均方误差参数的多模态数据集精确性判定方法,是针对数据精确度维度评价方法。Heinrich[83]则提出的结合期望实现的特定概述规则的语义一致性度量方法。以上诸项研究成果,面向大数据质量核心属性和关键质量维度,更具针对性,是评价方法和工具的深层次、拓展性研究。

    由以上研究可见,与常规数据质量评价方法相比,大数据质量评价方法在全面性、针对性方面均有较大突破,能够与大数据质量特点与本质属性相结合。但面向数据质量应用情境、过程复杂性与动态性,与之匹配、相适应的方法还有待深入研究。

  • 5 大数据质量领域实践与应用研究

    5
  • 5.1 大数据质量优化与提升策略研究

    5.1

    数据质量提升是数据质量管理的首要目[35]。大数据质量管理框架覆盖组织数据生态链的所有质量管理活动,有效支撑组织将注意力、资源和行动聚焦于质量管理与服务质量提升之[31]

    在质量管理优化与提升思想与方略方面,从专业和过程角度,罗纳德·巴赫曼[84]提出通过专业部门和信息技术的协调与合作的大数据质量管理模式;Wahyudi[15]基于数据生命周期理论,构建形成面向特定环境、特定目标和特定初始条件集合的大数据质量管理通用过程模型;张绍华[28]结合六西格玛管理方法提出大数据质量项目管理六西格玛模型。虽然作为管理模型,但为组织与实施大数据质量提升提供思想指导,奠定了基础性框架,为数据质量提升实践提供指导性路径。

    在具体管理策略与提升手段研究中,以大数据质量本质与核心属性为基础,Glowalla[21]、Sidi[85]在研究中指出,大数据质量管理与提升主要包括数据驱动策略和过程驱动策略两种具体策略。在具体方面,面向过程验证、根源分析和补救的源自外部大数据质量提升方[25],适应不同情境、针对大数据流程每个阶段数据质量评估与优化方[9],通过技术系统地提升跨行业纵向数据质量方[86]等均是面向过程。与此同时,面向非结构化数据的结构化模型表示与多源、多尺度数据的融合,通过建立质量管理框架与置信区间、利用半结构化和非结构化数据提高稀疏结构数据质量等方[52],大数据环境中数据来源的调控与维护方[19],部分学者从知识和语义概[87]、数据间严密关[88]、基于概念依赖图的高效重复记录检[89]等角度方法与手段均是面向数据,均是从微观视角、具体实践环节对数据质量提升策略与手段的研究,以达到数据质量提升之目的。

  • 5.2 具体领域大数据质量管理实践研究

    5.2

    虽然大数据管理与利用涉及众多领域,但国内外大数据质量管理实践研究更多集中于政府管理、健康医疗、企业管理、教育管理、天文地理、生命科学等领域。其中尤以政府管理、健康医学领域研究更具代表性。

    在政府大数据质量管理实践方面,数据质量是政府大数据效能与价值发挥的关键因素,数据质量管理与提升是各国政府亟待解决的重要问[90]。Batini[18]指出,通过对数据来源的潜能采取主动检查手段能够提升政府大数据质量。围绕意大利五个宪政办公室发布的开放大数据质量,Ciancarini[91]基于W3C标准、AGID标准获得此类数据质量评价与优化方法。洪学海[92]从时间维、空间维、业务维3个维度,构建形成大数据全景式数据质量测度模型。基于已有数据质量评价维度和政府大数据特性,马一[93]构建形成我国政府大数据质量评价体系,提出政府数据增值性管理机制。以上典型性研究聚焦和应对政府大数据从单一来源转向多源异构、数据管理与提供主体变换、数据价值增值方式转变、应用场景动态发展等带来的挑战,是对该领域具有普遍性问题的研究。

    健康医学大数据质量实践研究领域,研究关注度随着健康医学大数据研究与利用的热度而提升。在数据准确性、数据失效、系统软件等数据质量问题产生根源剖析基础上,Becker[67]基于美国陆军医疗指挥部(MEDCOM)的医疗操作数据系统(MODS)项目数据质量分析结果,在医疗领域大数据质量评价维度建构、质量测量、质量提升工具等方面获得进展。Suraj Juddoo的研究团[94,95]采用内部解释学循环研究方法,基于组织数据质量维度的层次结构框架,揭示并确定健康大数据质量评价的核心维度。Hoffman[96]提出通过数据审计、人力和技术解决方案、监管等健康大数据质量提升策略。马国耀[97]基于“校验-反馈-优化”数据质量控制技术将数据质量改善过程落实到数据处理的各个阶段,提出卫生数据质量控制解决方案。但学者也有指出,利用数据处理、存储、输入和处理技术等自动化手段的医疗健康数据质量控制是一把双刃[96]

    在其他领域,陈[98]针对电力大数据,Hazen[99]的供应链大数据质量监控方法,Haryadi[20]围绕金融服务机构大数据的质量管理与提升研究也具有一定的代表性。

    可见,现有大数据质量管理实践与应用研究更多集中于社会公众较为关切的、数据价值影响较大领域,以期通过质量管理与提升来提高决策质量和管理水平。随着数据价值的认知度的提升,大数据质量管理与提升研究将会逐步向各个领域渗透,并向纵深发展。

  • 6 研究述评与启示

    6

    通过以上国内外大数据质量研究的梳理、综述,可以发现:

    首先,大数据质量研究围绕大数据特征和大数据质量基本属性展开。作为一个前沿性研究领域,社会各界虽没有就大数据概念达成共识,也没有能够清晰阐释大数据质量本质。但纵观国内外大数据质量研究,在内涵剖析、质量管理、质量评价和实践应用等方面,均是以大数据特征(无论是3V、4V,还是5V、7V)为基础,以大数据质量复杂性、动态性和情境化等属性为主脉。呈现以应用目标和情境为导向、以数据类型为基础、以数据生命周期为脉络、以数据特征为核心的理论特征。但作为一个新兴领域,且受制于其核心概念的分歧,尚缺少对大数据质量内涵和本质地系统挖掘与全面揭示,也缺少对质量体系诸方面核心思想的提炼与凝结,进而导致大数据质量理论基础有待夯实,其框架、内容尚需更全面、系统和深入地探索。

    其次,大数据质量研究与常规数据质量研究一脉相承。虽然国内外学者围绕大数据及其质量特征展开了系列性、创新性研究,但由以上诸方面综述可见,常规数据质量相关研究成果、主要观点成为大数据质量研究的重要基础。尤其在质量管理、质量评价方面,在吸收借鉴常规数据质量核心观点基础上的探索性研究。大数据作为一种新型数据形态,其质量研究缺少与大数据价值实现、与所处时代环境相结合的理论和实践方面突破性研究进展,尤其是缺少与大数据技术环境、人文环境相结合的拓展性研究。

    再次,大数据质量研究是一个复杂、多维体系。由以上综述可见,大数据质量研究内容既包括理论层面,又涵盖实践领域;既包括宏观层面分析,又包括微观角度剖析;既立足于组织整体,又根植于各类具体工作,形成了具有一定指导意义与实践价值的理论体系。然而,与常规数据管理一样,大数据质量现有研究更侧重于关注站在具体组织机构视角、以某一层面为切入点的微观管理与调控,更多研究着重于组织层面、操作层面。大数据作为一种战略性资源,更需要站在宏观层面的前瞻性、系统化质量研究,尤其是从国家层面、战略层面与大数据技术、技术发展相结合的研究与管理,才能够建立起以质量为基础的大数据战略,进一步发挥其潜在价值,发挥更大的社会效益。

  • 参考文献

    • 1

      Lohr S. The change of big data[N]. New York Times, 2012-02-11.

    • 2

      Laney D. 3D data management: Controlling data volume, velocity and variety[J]. META Group Research Note, 2001, 6: 70.

    • 3

      Gantz J, Reinsel D. Extracting value from chaos[J]. IDC iView, 2011, 1142(2011): 1-12.

    • 4

      Gudivada V N, Baeza-Yates R, Raghavan V V. Big data: Promises and problems[J]. IEEE Computer, 2015, 48(3): 20-23.

    • 5

      Franks B. 驾驭大数据[M]. 北京: 人民邮电出版社, 2013.

    • 6

      Kulkarni A. A study on metadata management and quality evaluation in big data management[J]. Engineering Technology & Applied Science Research, 2016, 4(7): 455-459.

    • 7

      Lee Y W, Pipino L L, Funk J D, et al. 数据质量征途[M]. 黄伟, 王嘉寅, 苏秦, 等译. 北京: 高等教育出版社, 2015.

    • 8

      汪应洛, 黄伟, 朱志祥. 大数据产业及管理问题的一些初步思考[J]. 科技促进发展, 2014(1): 15-19.

    • 9

      Immonen A, Pääkkönen P, Ovaska E. Evaluating the quality of social media data in big data architecture[J]. IEEE Access, 2015, 3: 2028-2043.

    • 10

      Liu J, Li J, Li W, et al. Rethinking big data: A review on the data quality and usage issues[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 115: 134-142.

    • 11

      Boyd D, Crawford K. Critical questions for big data provocations for a cultural, technological, and scholarly phenomenon[J]. Information, Communication and Society, 2012, 15: 662-679.

    • 12

      Sukumar R, Ramachandran N, Ferrell R K. ‘Big Data’ in health care: How good is it?[J]. International Journal of Health Care Quality Assurance, 2015: 2-9.

    • 13

      Caballero I, Serrano M, Piattini M. A data quality in use model for big data[C]// Proceedings of the International Conference on Conceptual Modeling. Heidelberg: Springer, 2014: 65-74.

    • 14

      Cai L, Zhu Y Y. The challenges of data quality and data quality assessment in the big data era[J]. Data Science Journal, 2015, 14: Article No. 2.

    • 15

      Wahyudi A, Kuk G, Janssen M. A process pattern model for tackling and improving big data quality[J]. Information Systems Frontiers, 2018, 20: 457-469.

    • 16

      Haryadi A F, Hulstijn J, Wahyudi A, et al. Antecedents of big data quality: An empirical examination in financial service organizations[C]// Proceedings of 2016 IEEE International Conference on Big Data. IEEE, 2016: 116-121.

    • 17

      Gao J, Xie C, Tao C. Big data validation and quality assurance—Issuses, challenges, and needs[C]// Proceedings of 2016 IEEE Symposium on Service-Oriented System Engineering. IEEE, 2016: 433-441.

    • 18

      Batini C, Rula A, Scannapieco M, et al. From data quality to big data quality[J]. Journal of Database Management, 2015, 26(1): 60-82.

    • 19

      Rao D, Gudivada V N, Raghavan V V. Data quality issues in big data[C]// Proceedings of IEEE International Conference on Big Data. IEEE, 2015: 2654-2660.

    • 20

      Haryadi A F. Requirements on and antecedents of big data quality: An empirical examination to improve big data quality in financial service organizations[D]. Delft: Delft University of Technology, 2016: 13.

    • 21

      Glowalla P, Balazy P, Basten D, et al. Process-driven data quality management—An application of the combined conceptual life cycle model[C]// Proceedings of the 2014 47th Hawaii International Conference on System Sciences. Washington DC: IEEE Computer Society, 2014: 4700-4709.

    • 22

      Clarke. The OECD guidelines[EB/OL]. [2017-4-4]. http://www.rogerclarke.com/DV/PaperOECD.html.

    • 23

      Soares S. Big data governance[M]// An Emerging Imperative. MC Press, 2012.

    • 24

      Aggarwal A. Data quality evaluation framework to assess the dimensions of 3V’s of big data[J]. International Journal of Emerging Technology and Advanced Engineering, 2017, 7(10): 503-506.

    • 25

      Toivonen M. Big data quality challenges in the context of business analytics[D]. Helsinki: University of Helsinki, 2015: 47-48.

    • 26

      Kläs M, Trendowicz A, Jedlitschka A. What makes big data different from a data quality assessment perspective? Practical challenges for data and information quality research[R]. ODQ2015 30 March 2015,

      Garching, Germany.

    • 27

      Ardagna D, Cappiello C, Samá W, et al. Context-aware data quality assessment for big data[J]. Future Generation Computer Systems, 2018, 89: 548-562.

    • 28

      张绍华, 潘蓉, 宗宇伟. 大数据治理与服务[M]. 上海: 上海科学技术出版社, 2016: 120.

    • 29

      Juddoo S. Overview of data quality challenges in the context of Big Data[C]// Proceedings of the 2015 International Conference on Computing, Communication and Security. IEEE, 2015: 1-9.

    • 30

      Sneed H M, Erdoes K. Testing big data (assuring the quality of large databases)[C]// Proceedings of the 2015 IEEE Eighth International Conference on Software Testing, Verification and Validation Workshops. IEEE, 2015: 1-6.

    • 31

      Liedtke C A. Quality, analytics, and big data[R]. Strategic Improvement Systems, 2016.

    • 32

      蔡莉, 朱扬勇. 大数据质量[M]. 上海: 上海科学技术出版社, 2017: 5.

    • 33

      Federal D A S. Data quality framework, version 1.0[R]. Justice Sector Information Strategy, Ministry of Justice, US, 2008.

    • 34

      Parkinson J. Six big data challenges[EB/OL]. [2017-02-01]. http://www.cioinsight.com/c/a/Expert-Voices/Managing-Big-Data-Six-Operational-Challenges-484979.

    • 35

      Loshin D. Big data analytics: From strategic planning to enterprise integration with tools, techniques, NoSQL, and graph[M]. Morgan Kaufmann Publishers, 2013: 13.

    • 36

      Ge M, Dohnal V. Quality management in big data[J]. Informatics, 2018, 5: 19.

    • 37

      Calder A. ISO/IEC 38500: The IT governance standard[M]. IT Governance Publishing, 2008.

    • 38

      Data Governance Institute. The DGI data governance framework[R]. 2009.

    • 39

      IBM Corporation. IBM data governance council maturity model: Building a roadmap for effective data governance[R]. 2007.

    • 40

      ISACA. COBIT 5: Enabling information[M]. ISA, 2013.

    • 41

      Gartner Group. Big data[EB/OL]. http:// www.gartner.com/it-glossary/big-data.

    • 42

      DAMA International. DAMA数据管理知识体系指南[M]. 马欢, 刘晨, 等译. 北京: 清华大学出版社, 2012.

    • 43

      Taleb I, Dssouli R, Serhani M A. Big data pre-processing: A quality framework[C]// Proceedings of the IEEE International Congress on Big Data. IEEE, 2015: 191-198.

    • 44

      Taleb I, Serhani M A, Dssouli R. Big data quality: A survey[C]// Proceedings of the 2018 IEEE International Congress on Big Data. IEEE, 2018: 166-173.

    • 45

      Chen Y T, Sun E W, Lin Y B. Coherent quality management for big data systems: a dynamic approach for stochastic time consistency[J]. Annals of Operations Research, 2018: Article No. 2795.

    • 46

      Cheah Y W, Canon R, Plale B, et al. Milieu: Lightweight and configurable big data provenance for science[C]// Proceedings of the 2013 IEEE International Congress on Big Data. IEEE, 2013: 46-53.

    • 47

      Beckеr D, King T D, McMullеn B. Big data, big data quality problеm[C]// Proceedings of the 2015 IEEE Intеrnational Conferencе on Santa Clara. IEEE, 2015: 2644-2653.

    • 48

      Pawar S H, Thakore D. An assessment model to evaluate quality attributes in big data quality[J]. International Journal of Computer Science Trends and Technology, 2017, 5(2): 373-376.

    • 49

      Reddy G M, Deshmukh G, Kumar R A, et al. Enhanced big data quality frame work[J]. International Journal of Computer Science and Information Technologies, 2016, 7(3): 1408-1409.

    • 50

      Saha B, Srivastava D. Data quality: The other face of Big Data[C]// Proceedings of the International Conference on Data Engineering. IEEE, 2014: 1294-1297.

    • 51

      金范. 数据质量管理与安全管理[M]. 上海: 上海科学技术出版社, 2016: 47.

    • 52

      Soares S. 大数据治理[M]. 匡斌, 译. 北京: 清华大学出版社, 2014.

    • 53

      Taleb I, El Kassabi H T, Serhani M A, et al. Big data quality: A quality dimensions evaluation[C]// Proceedings of the 2016 International IEEE Conferences on Ubiquitous Intelligence & Computing, Advanced and Trusted Computing, Scalable Computing and Communications, Cloud and Big Data Computing, Internet of People, and Smart World Congress. IEEE, 2016: 759-765.

    • 54

      Merino J, Caballero I, Rivas B, et al. A data quality in use model for big data[J]. Future Generation Computer Systems, 2016, 63: 123-130.

    • 55

      Krogstie J, Gao S. A semiotic approach to investigate quality issues of open big data ecosystems[M]// Information and Knowledge Management in Complex Systems. Springer International Publishing, 2015: 41-50.

    • 56

      Bizer C. Quality-driven information filtering—in the context of web-based information systems[M]. Saarbrücken: VDM Verlag, 2007: 1-22.

    • 57

      Desai K Y. Big data quality modeling and validation[D]. San Jose: San José State University, 2018, 5: 18-58.

    • 58

      Fabijan A, Helena H O, Bosch J. Customer feedback and data collection techniques in software R&D: A literature review[C]// Proceedings of the International Conference of Software Business. Springer: 2015, 1: 139-153.

    • 59

      Bertino E. Big data—Opportunities and challenges panel position paper[C]// Proceedings of the 2013 IEEE 37th Annual Computer Software and Applications Conference. Washington DC: IEEE Computer Society, 2013: 479-480.

    • 60

      莫祖英. 大数据质量测度模型构建[J]. 情报理论与实践, 2018, 41(3): 11-15.

    • 61

      Floridi L. Big data and information quality[M]// The Philosophy of Information Quality. Springer International Publishing, 2014: 303-315.

    • 62

      Abdullah N, Ismail S A, Sophiayati S, et al. Data quality in big data: A review[J]. International Journal of Advances in Soft Computing and its Applications, 2015: 17-27.

    • 63

      Sukumar S R, Natarajan R, Ferrell R K. Quality of big data in health care[J]. International Journal of Health Care Quality Assurance, 2015, 28(6): 621-634.

    • 64

      Firmani D, Mecella M, Scannapieco M, et al. On the meaningfulness of “Big Data Quality”[J]. Data Science and Engineering, 2016, 1(1): 6-20.

    • 65

      Juddoo S. Overview of data quality challenges in the context of Big Data[C]// Proceedings of the 2015 International Conference on Computing, Communication and Security. IEEE, 2016.

    • 66

      Dumbill E. Making sense of big data[J]. Big Data, 2013, 1(1): 1-2.

    • 67

      Becker D, King T D, McMullen B, et al. Big data quality case study preliminary findings[R]. U.S. Army Medcom Mods, 2013: 1-54.

    • 68

      Kläs M, Putz W, Lutz T. Quality evaluation for big data: A scalable assessment approach and first evaluation results[C]// Proceedings of the Joint Conference of the International Workshop on Software Measurement & the International Conference on Software Process & Product Measurement. IEEE, 2017.

    • 69

      Yao L, Ge Z. Big data quality prediction in the process industry: A distributed parallel modeling framework[J]. Journal of Process Control, 2018, 68: 1-13.

    • 70

      Farzi S, Dastjerdi A B. Data quality measurement using data mining[J]. International Journal of Computer Theory and Engineering, 2010, 2(1): 115-118.

    • 71

      Han R, Nie L, Ghanem M M, et al. Elastic algorithms for guaranteeing quality monotonicity in big data mining[C]// Proceedings of the 2013 IEEE International Conference on Big Data, 2013: 45-50.

    • 72

      Li L L, Li J Z, Gao H. Evaluating entity-description conflict on duplicated data[J]. Journal of Combinatorial Optimization, 2016, 31(2): 918-941.

    • 73

      Lai S T, Leu F Y. An iterative and incremental data preprocessing procedure for improving the risk of big data project[C]// Proceedings of the International Conference on Innovative Mobile and Internet Services in Ubiquitous Computing. Heidelberg: Springer, 2017, 612: 483-492.

    • 74

      Lin Y M, Wang H Z, Li J Z, et al. Data source selection for information integration in big data era[J]. Information Sciences, 2019, 479: 197-213.

    • 75

      Miao D, Li J, Liu X, et al. Vertex cover in conflict graphs: Complexity and a near optimal approximation[C]// Proceedings of the International Conference on Combinatorial Optimization and Applications. New York: Springer, 2015: 395-408.

    • 76

      Heinrich B, Hristova D. A fuzzy metric for currency in the context of Big Data[C]// Proceedings of the Twenty Second European Conference on Information Systems, 2014: 1-15.

    • 77

      Li M H, Li J Z, Cheng S Y. Uncertain rule based method for evaluating data currency[J]. Journal of Software, 2014, 25(S2): 147-156.

    • 78

      Endler G, Baumgärtel P, Wahl A M, et al. Is estimation of data completeness through time series forecasts feasible[C]// Proceedings of the Advances in Databases and Information Systems. Springer International Publishing, 2015: 261-274.

    • 79

      Razniewski S, Nutt W. Assessing the completeness of geographical data[C]// Proceedings of the Big Data. Berlin: Springer, 2013: 228-237.

    • 80

      Emran N A, Embury S, Missier P, et al. Measuring data completeness for microbial genomics database[C]// Proceedings of the Intelligent Information and Database Systems. Berlin: Springer, 2013: 186-195.

    • 81

      周傲英, 金澈清, 王国仁, 等. 不确定性数据管理技术研究综述[J]. 计算机学报, 2009, 32(1): 1-16.

    • 82

      Zhang Y, Wang H Z, Yang Z S, et al. Relative accuracy evaluation[J]. PLoS ONE, 2014, 9(8): e103853.

    • 83

      Heinrich B, Klier M, Schiller A, et al. Assessing data quality–A probability-based metric for semantic consistency[J]. Decision Support Systems, 2018, 110: 95-106.

    • 84

      罗纳德·巴赫曼, 吉多·肯珀, 托马斯·格尔策. 大数据时代下半场: 数据治理、驱动与变现[M]. 刘志则, 刘源, 译. 北京: 北京联合出版公司, 2017: 101.

    • 85

      Sidi F, Panahy P H S, Affendey L S, et al. Data quality: A survey of data quality dimensions[C]// Proceedings of the 2012 International Conference on Information Retrieval & Knowledge Management. IEEE, 2012: 300-304.

    • 86

      Ganapathi A, Chen Y, Ganapathi A, et al. Data quality: Experiences and lessons from operationalizing big data[C]// Proceedings of the IEEE International Conference on Big Data. IEEE, 2017.

    • 87

      叶焕倬, 吴迪. 相似重复记录清理方法研究综述[J]. 现代图书情报技术, 2010, 26(9): 56-66.

    • 88

      蒋勋, 刘喜文. 大数据环境下面向知识服务的数据清洗研究[J]. 图书与情报, 2013(5): 16-21.

    • 89

      庞雄文, 姚占林, 李拥军. 大数据量的高效重复记录检测方法[J]. 华中科技大学学报(自然科学版), 2010(2): 8-11.

    • 90

      Williamson A. Big data and the implications for government[J]. Legal Information Management, 2014, 14(4): 253-257.

    • 91

      Ciancarini P, Poggi F, Russo D. Big data quality: a roadmap for open data[C]// Proceedings of the 2016 IEEE Second International Conference on Big Data Computing Service and Applications. IEEE, 2016: 210-215.

    • 92

      洪学海, 王志强, 杨青海. 面向共享的政府大数据质量标准化问题研究[J]. 大数据, 2017(3): 44-52.

    • 93

      马一鸣. 政府大数据质量评价体系构建研究[D]. 长春: 吉林大学, 2016.

    • 94

      Juddoo S, George C, Duquenoy P, et al. Data governance in the health industry: Investigating data quality dimensions within a big data context[J]. Applied System Innovation, 2018, 1(4): 43;

    • 95

      Juddoo S, George C. Discovering the most important data quality dimensions in health big data using latent semantic analysis[C]// Proceedings of the IEEE International Conference on Advances in Big Data, Computing and Data Communication Systems, Durban, South Africa, 2018.

    • 96

      Hoffman S. Medical big data and big data quality problems[J]. Social Science Electronic Publishing, 2014: 289-316.

    • 97

      马国耀, 孙勇韬, 马玉玲. 数据校验技术在医疗健康大数据质量控制中的应用分析[J]. 中国卫生信息管理杂志, 2016, 13(4): 417-419.

    • 98

      陈超. 电力大据质量评价模型及动态探查技术研究[J]. 现代电子技术, 2014(4): 153-155.

    • 99

      Hazen B, Boone C, Ezell J, et al. Data quality for data science, predictive analytics, and big data in supply chain management: An introduction to the problem and suggestions for research and applications[J]. International Journal of Production Economics, 2014, 154: 72-80.

刘冰

机 构:天津师范大学管理学院,天津 300387

Affiliation:Management School, Tianjin Normal University, Tianjin 300387

邮 箱:borther_ lb@126.com

作者简介:刘冰,男,1971年生,博士,教授,硕士生导师,主要研究方向为信息用户与信息评价、信息质量评价与管理,E-mail:borther_ lb@126.com

庞琳

机 构:天津师范大学管理学院,天津 300387

Affiliation:Management School, Tianjin Normal University, Tianjin 300387

作者简介:庞琳,女,1992年生,硕士,助教,主要研究方向为信息用户与信息评价。

车 尧

角 色:责任编辑

Role:Executive editor

研究者质量评价维度具体评价指标来源文献
Toivonen M数据质量维度数据使用质量维度可达性维度可用性维度

完整性、可靠性、准确性、一致性

数据可解释性

系统可用性、交互可用性、安全性

时效性、响应性、流通性、有效性等

[25]
张绍华等

固有质量度量维度、环境质量度量维度

表达质量度量维度、可访问质量度量维度

可信性、客观性、可靠性、价值密度、多样性、可解释性、简明性、一致性

易懂性、适量性、完整性、相关性、增值性、及时性、易操作性、广泛性

可访问性、安全性

[28]
Juddoo S内在维度、语境维度、代表性维度、可访问性维度[65]
Batini C等、Dumbill E

准确性维度(accuracy)

完备性维度(completeness)

冗余性维度(redundancy)

可读性维度(readability)

可达性与可用性维度(accessibility and availability)

一致性维度(consistency)

信任性 维度(trust)

正确性、有效性、精确性

针对性、关联性

最小性、紧凑性、简洁性

可理解性、清晰性、简单性

衔接性、连贯性

可信性、可靠性、信誉度、数据来源权威性

[18][66]
Aggarwal A

数量规模维度

变化速度维度

品种种类维度

准确性和可及性

清晰度和相关性

一致性和及时性

[24]
Abdullah N等

数据的内容和结构维度

可用性和有用性维度

准确性、完整性、一致性、完备性

有效性、及时性、可访问性

[62]
Kulkarni A

基于内容的度量

基于情境的度量

基于评级的度量

准确性、可信性、完备性、一致性

有效性、关联性、时效性、可验证性

[6]
Merino J等

情境充分性(contextual adequacy)

时间充足性(temporal adequacy)

操作充分性(operational adequacy)

完整性、一致性、机密性、精确性

可信性、时间性、有效性、易理解性

[54]
Caballero I等

情境一致性(contextual consistency)

时间一致性(temporal consistency)

操作一致性(operational consistency)

相关性、可信度、易理解性、准确性和保密性

时间并发性、可用性、流行性

可用性、可移植性、精确性、完整性和可追溯性

[13]
Taleb I等

基于内容的度量维度

基于语境的度量维度

基于评级的度量维度

基于内容度量维度,信息本身用作质量指标;

基于语境度量维度,元数据用作质量指标;

基于评级度量维度,可使用信息,也可以使用信息来源明确等级作为指标

[53]
Haryadi A F

依赖于语境的评价维度

独立于语境的评价维度

准确性、可信度、相关性、通用性、完整性、全面性、一致性、唯一性、及时性

有效性、可追溯性

[20]
莫祖英

原始质量

过程质量

结果质量

数据源规范性、安全稳定性、数据到达率;数据采集的完整性、无误性、实时性;数据描述框架、数据时间的一致性、数据定义的一致性等

数据清洗的准确性、数据的一致性、数据的置信度、数据的有效性、数据集成、数据存取效率、数据清洗粒度

结果数据的价值性、数据分析方法

[60]
Cai L等

数据质量固有特征(包括可得性、可用性、可靠性、相关性四个维度)

用户客户满意度特征(包括质量呈现性维度)

可访问性、授权性、及时性

数据定义/文档、可靠性、元数据

准确性、一致性、完备性、充分性、可审计性、适应性、可读性、结构要素

[14]

表1 典型大数据质量评价指标体系

image /

无注解

  • 参考文献

    • 1

      Lohr S. The change of big data[N]. New York Times, 2012-02-11.

    • 2

      Laney D. 3D data management: Controlling data volume, velocity and variety[J]. META Group Research Note, 2001, 6: 70.

    • 3

      Gantz J, Reinsel D. Extracting value from chaos[J]. IDC iView, 2011, 1142(2011): 1-12.

    • 4

      Gudivada V N, Baeza-Yates R, Raghavan V V. Big data: Promises and problems[J]. IEEE Computer, 2015, 48(3): 20-23.

    • 5

      Franks B. 驾驭大数据[M]. 北京: 人民邮电出版社, 2013.

    • 6

      Kulkarni A. A study on metadata management and quality evaluation in big data management[J]. Engineering Technology & Applied Science Research, 2016, 4(7): 455-459.

    • 7

      Lee Y W, Pipino L L, Funk J D, et al. 数据质量征途[M]. 黄伟, 王嘉寅, 苏秦, 等译. 北京: 高等教育出版社, 2015.

    • 8

      汪应洛, 黄伟, 朱志祥. 大数据产业及管理问题的一些初步思考[J]. 科技促进发展, 2014(1): 15-19.

    • 9

      Immonen A, Pääkkönen P, Ovaska E. Evaluating the quality of social media data in big data architecture[J]. IEEE Access, 2015, 3: 2028-2043.

    • 10

      Liu J, Li J, Li W, et al. Rethinking big data: A review on the data quality and usage issues[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 115: 134-142.

    • 11

      Boyd D, Crawford K. Critical questions for big data provocations for a cultural, technological, and scholarly phenomenon[J]. Information, Communication and Society, 2012, 15: 662-679.

    • 12

      Sukumar R, Ramachandran N, Ferrell R K. ‘Big Data’ in health care: How good is it?[J]. International Journal of Health Care Quality Assurance, 2015: 2-9.

    • 13

      Caballero I, Serrano M, Piattini M. A data quality in use model for big data[C]// Proceedings of the International Conference on Conceptual Modeling. Heidelberg: Springer, 2014: 65-74.

    • 14

      Cai L, Zhu Y Y. The challenges of data quality and data quality assessment in the big data era[J]. Data Science Journal, 2015, 14: Article No. 2.

    • 15

      Wahyudi A, Kuk G, Janssen M. A process pattern model for tackling and improving big data quality[J]. Information Systems Frontiers, 2018, 20: 457-469.

    • 16

      Haryadi A F, Hulstijn J, Wahyudi A, et al. Antecedents of big data quality: An empirical examination in financial service organizations[C]// Proceedings of 2016 IEEE International Conference on Big Data. IEEE, 2016: 116-121.

    • 17

      Gao J, Xie C, Tao C. Big data validation and quality assurance—Issuses, challenges, and needs[C]// Proceedings of 2016 IEEE Symposium on Service-Oriented System Engineering. IEEE, 2016: 433-441.

    • 18

      Batini C, Rula A, Scannapieco M, et al. From data quality to big data quality[J]. Journal of Database Management, 2015, 26(1): 60-82.

    • 19

      Rao D, Gudivada V N, Raghavan V V. Data quality issues in big data[C]// Proceedings of IEEE International Conference on Big Data. IEEE, 2015: 2654-2660.

    • 20

      Haryadi A F. Requirements on and antecedents of big data quality: An empirical examination to improve big data quality in financial service organizations[D]. Delft: Delft University of Technology, 2016: 13.

    • 21

      Glowalla P, Balazy P, Basten D, et al. Process-driven data quality management—An application of the combined conceptual life cycle model[C]// Proceedings of the 2014 47th Hawaii International Conference on System Sciences. Washington DC: IEEE Computer Society, 2014: 4700-4709.

    • 22

      Clarke. The OECD guidelines[EB/OL]. [2017-4-4]. http://www.rogerclarke.com/DV/PaperOECD.html.

    • 23

      Soares S. Big data governance[M]// An Emerging Imperative. MC Press, 2012.

    • 24

      Aggarwal A. Data quality evaluation framework to assess the dimensions of 3V’s of big data[J]. International Journal of Emerging Technology and Advanced Engineering, 2017, 7(10): 503-506.

    • 25

      Toivonen M. Big data quality challenges in the context of business analytics[D]. Helsinki: University of Helsinki, 2015: 47-48.

    • 26

      Kläs M, Trendowicz A, Jedlitschka A. What makes big data different from a data quality assessment perspective? Practical challenges for data and information quality research[R]. ODQ2015 30 March 2015,

      Garching, Germany.

    • 27

      Ardagna D, Cappiello C, Samá W, et al. Context-aware data quality assessment for big data[J]. Future Generation Computer Systems, 2018, 89: 548-562.

    • 28

      张绍华, 潘蓉, 宗宇伟. 大数据治理与服务[M]. 上海: 上海科学技术出版社, 2016: 120.

    • 29

      Juddoo S. Overview of data quality challenges in the context of Big Data[C]// Proceedings of the 2015 International Conference on Computing, Communication and Security. IEEE, 2015: 1-9.

    • 30

      Sneed H M, Erdoes K. Testing big data (assuring the quality of large databases)[C]// Proceedings of the 2015 IEEE Eighth International Conference on Software Testing, Verification and Validation Workshops. IEEE, 2015: 1-6.

    • 31

      Liedtke C A. Quality, analytics, and big data[R]. Strategic Improvement Systems, 2016.

    • 32

      蔡莉, 朱扬勇. 大数据质量[M]. 上海: 上海科学技术出版社, 2017: 5.

    • 33

      Federal D A S. Data quality framework, version 1.0[R]. Justice Sector Information Strategy, Ministry of Justice, US, 2008.

    • 34

      Parkinson J. Six big data challenges[EB/OL]. [2017-02-01]. http://www.cioinsight.com/c/a/Expert-Voices/Managing-Big-Data-Six-Operational-Challenges-484979.

    • 35

      Loshin D. Big data analytics: From strategic planning to enterprise integration with tools, techniques, NoSQL, and graph[M]. Morgan Kaufmann Publishers, 2013: 13.

    • 36

      Ge M, Dohnal V. Quality management in big data[J]. Informatics, 2018, 5: 19.

    • 37

      Calder A. ISO/IEC 38500: The IT governance standard[M]. IT Governance Publishing, 2008.

    • 38

      Data Governance Institute. The DGI data governance framework[R]. 2009.

    • 39

      IBM Corporation. IBM data governance council maturity model: Building a roadmap for effective data governance[R]. 2007.

    • 40

      ISACA. COBIT 5: Enabling information[M]. ISA, 2013.

    • 41

      Gartner Group. Big data[EB/OL]. http:// www.gartner.com/it-glossary/big-data.

    • 42

      DAMA International. DAMA数据管理知识体系指南[M]. 马欢, 刘晨, 等译. 北京: 清华大学出版社, 2012.

    • 43

      Taleb I, Dssouli R, Serhani M A. Big data pre-processing: A quality framework[C]// Proceedings of the IEEE International Congress on Big Data. IEEE, 2015: 191-198.

    • 44

      Taleb I, Serhani M A, Dssouli R. Big data quality: A survey[C]// Proceedings of the 2018 IEEE International Congress on Big Data. IEEE, 2018: 166-173.

    • 45

      Chen Y T, Sun E W, Lin Y B. Coherent quality management for big data systems: a dynamic approach for stochastic time consistency[J]. Annals of Operations Research, 2018: Article No. 2795.

    • 46

      Cheah Y W, Canon R, Plale B, et al. Milieu: Lightweight and configurable big data provenance for science[C]// Proceedings of the 2013 IEEE International Congress on Big Data. IEEE, 2013: 46-53.

    • 47

      Beckеr D, King T D, McMullеn B. Big data, big data quality problеm[C]// Proceedings of the 2015 IEEE Intеrnational Conferencе on Santa Clara. IEEE, 2015: 2644-2653.

    • 48

      Pawar S H, Thakore D. An assessment model to evaluate quality attributes in big data quality[J]. International Journal of Computer Science Trends and Technology, 2017, 5(2): 373-376.

    • 49

      Reddy G M, Deshmukh G, Kumar R A, et al. Enhanced big data quality frame work[J]. International Journal of Computer Science and Information Technologies, 2016, 7(3): 1408-1409.

    • 50

      Saha B, Srivastava D. Data quality: The other face of Big Data[C]// Proceedings of the International Conference on Data Engineering. IEEE, 2014: 1294-1297.

    • 51

      金范. 数据质量管理与安全管理[M]. 上海: 上海科学技术出版社, 2016: 47.

    • 52

      Soares S. 大数据治理[M]. 匡斌, 译. 北京: 清华大学出版社, 2014.

    • 53

      Taleb I, El Kassabi H T, Serhani M A, et al. Big data quality: A quality dimensions evaluation[C]// Proceedings of the 2016 International IEEE Conferences on Ubiquitous Intelligence & Computing, Advanced and Trusted Computing, Scalable Computing and Communications, Cloud and Big Data Computing, Internet of People, and Smart World Congress. IEEE, 2016: 759-765.

    • 54

      Merino J, Caballero I, Rivas B, et al. A data quality in use model for big data[J]. Future Generation Computer Systems, 2016, 63: 123-130.

    • 55

      Krogstie J, Gao S. A semiotic approach to investigate quality issues of open big data ecosystems[M]// Information and Knowledge Management in Complex Systems. Springer International Publishing, 2015: 41-50.

    • 56

      Bizer C. Quality-driven information filtering—in the context of web-based information systems[M]. Saarbrücken: VDM Verlag, 2007: 1-22.

    • 57

      Desai K Y. Big data quality modeling and validation[D]. San Jose: San José State University, 2018, 5: 18-58.

    • 58

      Fabijan A, Helena H O, Bosch J. Customer feedback and data collection techniques in software R&D: A literature review[C]// Proceedings of the International Conference of Software Business. Springer: 2015, 1: 139-153.

    • 59

      Bertino E. Big data—Opportunities and challenges panel position paper[C]// Proceedings of the 2013 IEEE 37th Annual Computer Software and Applications Conference. Washington DC: IEEE Computer Society, 2013: 479-480.

    • 60

      莫祖英. 大数据质量测度模型构建[J]. 情报理论与实践, 2018, 41(3): 11-15.

    • 61

      Floridi L. Big data and information quality[M]// The Philosophy of Information Quality. Springer International Publishing, 2014: 303-315.

    • 62

      Abdullah N, Ismail S A, Sophiayati S, et al. Data quality in big data: A review[J]. International Journal of Advances in Soft Computing and its Applications, 2015: 17-27.

    • 63

      Sukumar S R, Natarajan R, Ferrell R K. Quality of big data in health care[J]. International Journal of Health Care Quality Assurance, 2015, 28(6): 621-634.

    • 64

      Firmani D, Mecella M, Scannapieco M, et al. On the meaningfulness of “Big Data Quality”[J]. Data Science and Engineering, 2016, 1(1): 6-20.

    • 65

      Juddoo S. Overview of data quality challenges in the context of Big Data[C]// Proceedings of the 2015 International Conference on Computing, Communication and Security. IEEE, 2016.

    • 66

      Dumbill E. Making sense of big data[J]. Big Data, 2013, 1(1): 1-2.

    • 67

      Becker D, King T D, McMullen B, et al. Big data quality case study preliminary findings[R]. U.S. Army Medcom Mods, 2013: 1-54.

    • 68

      Kläs M, Putz W, Lutz T. Quality evaluation for big data: A scalable assessment approach and first evaluation results[C]// Proceedings of the Joint Conference of the International Workshop on Software Measurement & the International Conference on Software Process & Product Measurement. IEEE, 2017.

    • 69

      Yao L, Ge Z. Big data quality prediction in the process industry: A distributed parallel modeling framework[J]. Journal of Process Control, 2018, 68: 1-13.

    • 70

      Farzi S, Dastjerdi A B. Data quality measurement using data mining[J]. International Journal of Computer Theory and Engineering, 2010, 2(1): 115-118.

    • 71

      Han R, Nie L, Ghanem M M, et al. Elastic algorithms for guaranteeing quality monotonicity in big data mining[C]// Proceedings of the 2013 IEEE International Conference on Big Data, 2013: 45-50.

    • 72

      Li L L, Li J Z, Gao H. Evaluating entity-description conflict on duplicated data[J]. Journal of Combinatorial Optimization, 2016, 31(2): 918-941.

    • 73

      Lai S T, Leu F Y. An iterative and incremental data preprocessing procedure for improving the risk of big data project[C]// Proceedings of the International Conference on Innovative Mobile and Internet Services in Ubiquitous Computing. Heidelberg: Springer, 2017, 612: 483-492.

    • 74

      Lin Y M, Wang H Z, Li J Z, et al. Data source selection for information integration in big data era[J]. Information Sciences, 2019, 479: 197-213.

    • 75

      Miao D, Li J, Liu X, et al. Vertex cover in conflict graphs: Complexity and a near optimal approximation[C]// Proceedings of the International Conference on Combinatorial Optimization and Applications. New York: Springer, 2015: 395-408.

    • 76

      Heinrich B, Hristova D. A fuzzy metric for currency in the context of Big Data[C]// Proceedings of the Twenty Second European Conference on Information Systems, 2014: 1-15.

    • 77

      Li M H, Li J Z, Cheng S Y. Uncertain rule based method for evaluating data currency[J]. Journal of Software, 2014, 25(S2): 147-156.

    • 78

      Endler G, Baumgärtel P, Wahl A M, et al. Is estimation of data completeness through time series forecasts feasible[C]// Proceedings of the Advances in Databases and Information Systems. Springer International Publishing, 2015: 261-274.

    • 79

      Razniewski S, Nutt W. Assessing the completeness of geographical data[C]// Proceedings of the Big Data. Berlin: Springer, 2013: 228-237.

    • 80

      Emran N A, Embury S, Missier P, et al. Measuring data completeness for microbial genomics database[C]// Proceedings of the Intelligent Information and Database Systems. Berlin: Springer, 2013: 186-195.

    • 81

      周傲英, 金澈清, 王国仁, 等. 不确定性数据管理技术研究综述[J]. 计算机学报, 2009, 32(1): 1-16.

    • 82

      Zhang Y, Wang H Z, Yang Z S, et al. Relative accuracy evaluation[J]. PLoS ONE, 2014, 9(8): e103853.

    • 83

      Heinrich B, Klier M, Schiller A, et al. Assessing data quality–A probability-based metric for semantic consistency[J]. Decision Support Systems, 2018, 110: 95-106.

    • 84

      罗纳德·巴赫曼, 吉多·肯珀, 托马斯·格尔策. 大数据时代下半场: 数据治理、驱动与变现[M]. 刘志则, 刘源, 译. 北京: 北京联合出版公司, 2017: 101.

    • 85

      Sidi F, Panahy P H S, Affendey L S, et al. Data quality: A survey of data quality dimensions[C]// Proceedings of the 2012 International Conference on Information Retrieval & Knowledge Management. IEEE, 2012: 300-304.

    • 86

      Ganapathi A, Chen Y, Ganapathi A, et al. Data quality: Experiences and lessons from operationalizing big data[C]// Proceedings of the IEEE International Conference on Big Data. IEEE, 2017.

    • 87

      叶焕倬, 吴迪. 相似重复记录清理方法研究综述[J]. 现代图书情报技术, 2010, 26(9): 56-66.

    • 88

      蒋勋, 刘喜文. 大数据环境下面向知识服务的数据清洗研究[J]. 图书与情报, 2013(5): 16-21.

    • 89

      庞雄文, 姚占林, 李拥军. 大数据量的高效重复记录检测方法[J]. 华中科技大学学报(自然科学版), 2010(2): 8-11.

    • 90

      Williamson A. Big data and the implications for government[J]. Legal Information Management, 2014, 14(4): 253-257.

    • 91

      Ciancarini P, Poggi F, Russo D. Big data quality: a roadmap for open data[C]// Proceedings of the 2016 IEEE Second International Conference on Big Data Computing Service and Applications. IEEE, 2016: 210-215.

    • 92

      洪学海, 王志强, 杨青海. 面向共享的政府大数据质量标准化问题研究[J]. 大数据, 2017(3): 44-52.

    • 93

      马一鸣. 政府大数据质量评价体系构建研究[D]. 长春: 吉林大学, 2016.

    • 94

      Juddoo S, George C, Duquenoy P, et al. Data governance in the health industry: Investigating data quality dimensions within a big data context[J]. Applied System Innovation, 2018, 1(4): 43;

    • 95

      Juddoo S, George C. Discovering the most important data quality dimensions in health big data using latent semantic analysis[C]// Proceedings of the IEEE International Conference on Advances in Big Data, Computing and Data Communication Systems, Durban, South Africa, 2018.

    • 96

      Hoffman S. Medical big data and big data quality problems[J]. Social Science Electronic Publishing, 2014: 289-316.

    • 97

      马国耀, 孙勇韬, 马玉玲. 数据校验技术在医疗健康大数据质量控制中的应用分析[J]. 中国卫生信息管理杂志, 2016, 13(4): 417-419.

    • 98

      陈超. 电力大据质量评价模型及动态探查技术研究[J]. 现代电子技术, 2014(4): 153-155.

    • 99

      Hazen B, Boone C, Ezell J, et al. Data quality for data science, predictive analytics, and big data in supply chain management: An introduction to the problem and suggestions for research and applications[J]. International Journal of Production Economics, 2014, 154: 72-80.