编辑推荐

适读人群:广大读者

  《大数据质量》为“大数据技术与应用”丛书之一,列入“十三五”国家重点图书出版规划项目。《大数据质量》共7章。第1章叙述数据质量的概况,列举出数据质量的影响和产生因素、数据质量的定义及面临的挑战、以及数据质量与信息质量的关系。第2章介绍了与数据质量有关的各种国际标准和行业标准。第3章讨论了数据分类和数据模型,并针对半结构化和非结构化数据,给出了一些数据模型和质量模型。第4章详细阐述数据质量的相关技术,包括:数据集成、数据剖析、数据清洁和数据溯源,并给出它们在大数据环境下的实现技术和方案。第5章详细论述了数据质量评估维度的选取,质量维度的测量和评估方法,同时,每一种常用的评估方法都给出具体的评估案例。第6章描述数据质量的管理方法和质量管理成熟度模型。第7章以位置大数据为例,详细分析了位置大数据的来源、质量问题,评估模型和质量控制,给出确实可行的数据质量解决方法。

内容简介

  数据作为一种基础性与战略性资源得到了广泛认可,数据服务成为很多组织和机构日常运营中必不可少的重要环节。当下,数据质量在理论越来越受到关注,不仅是制约数据产业发展的关键问题,也是大数据应用研究中绕不开的重大问题。《大数据质量》汇集了国内外数据质量研究的经典理论、技术和方法,以及新的前沿发展趋势;首先介绍了传统数据质量研究的各种代表性成果,并在此基础上,分析大数据时代下数据质量面临的挑战,并详细介绍基于大数据的数据质量相关技术的实现;最后,通过一个实际案例,提出一套完整的大数据质量解决方案。

作者简介

  蔡莉,副教授,云南大学软件学院系主任,中国计算机学会西南网络与MIS专委会委员,昆明市仪器仪表学会理事。在软件学院工作期间,主持国家自然科学基金、教育部、云南省科技厅和教育厅等多项数据挖掘和数据质量的科研项目;同时,在国内外重要期刊和会议上发表40余篇论文,多篇被SCI和EI检索。出版教材2部,拥有3个软件著作权,并获得过多个教学成果奖励。


  朱扬勇,复旦大学教授、博士生导师,数据科学研究中心主任、上海市政府信息化专家委员会专家。致力于数据科学与技术、数据挖掘及其应用等领域。主持过国家自然科学基金、国家863项目、上海市科委重点等多项数据挖掘领域的研究课题。

目录

第1章理解数据质量1

●1.1数据质量问题2
1.1.1数据质量带来的影响2
1.1.2影响数据质量的因素4

●1.2数据质量概述7
1.2.1数据质量定义7
1.2.2大数据时代数据质量面临的挑战8

●1.3数据质量与信息质量10
1.3.1从数据质量到信息质量的发展历程11
1.3.2数据质量与信息质量的区别与联系12
参考文献14第2章数据质量标准17

●2.1ISO8000国际标准18
2.1.1ISO8000的历史与现状18
2.1.2ISO/TS8000100系列概述20
2.1.3ISO/TS8000100主数据质量22
2.1.4ISO22745:2010概述24

●2.2地理信息质量标准ISO1910028
2.2.1地理信息数据质量31
2.2.2地理信息数据质量评价33

●2.3统计数据质量标准35
2.3.1国际统计数据标准概述35
2.3.2IMF的数据公布通用标准(GDDS)36
2.3.3IMF的数据公布特殊标准(SDDS)38

●2.4科学数据质量标准39
2.4.1科学数据标准规范39
2.4.2科学数据质量框架43
参考文献44第3章数据分类及数据模型47

●3.1数据类型及分类48
3.1.1数据类型48
3.1.2数据分类49

●3.2结构化数据模型51
3.2.1概念模型51
3.2.2逻辑模型53

●3.3半结构化和非结构化数据模型56
3.3.1XML语言57
3.3.2半结构化数据模型——数据和数据质量(D2Q)模型67
3.3.3非结构化数据模型——四面体模型71
参考文献79第4章数据质量相关技术81

●4.1数据集成82
4.1.1数据仓库的基本概念82
4.1.2数据仓库的体系架构83
4.1.3数据仓库的元数据87

●4.2数据剖析89
4.2.1数据剖析的方法89
4.2.2数据剖析实例92

●4.3数据清洁95
4.3.1数据清洁概述95
4.3.2“脏”数据的来源96
4.3.3数据清洁的原理与框架97
4.3.4数据清洁工具100
4.3.5大数据环境下的数据清洁102

●4.4数据溯源105
4.4.1数据溯源的基本概念105
4.4.2数据溯源的分类106
4.4.3数据溯源模型107
4.4.4数据溯源的方法109
4.4.5数据溯源的应用111
4.4.6大数据溯源111
参考文献115第5章数据质量评估121

●5.1数据质量维度122
5.1.1数据质量维度定义122
5.1.2常用的数据质量维度123
5.1.3其他的数据质量维度126
5.1.4质量维度度量127

●5.2数据质量评估框架130
5.2.1DQAF框架131
5.2.2AIMQ框架133
5.2.3DQA框架136

●5.3数据质量评估方法137
5.3.1定性评估137
5.3.2定量评估138
5.3.3综合评估140

●5.4数据质量评估案例——媒体信息可信度质量评估152
5.4.1背景概述152
5.4.2媒体信息可信度评价指标体系153
5.4.3媒体信息可信度的综合评价模型154
5.4.4实验过程及结果分析160
参考文献163第6章数据质量管理167

●6.1质量管理168
6.1.1质量管理发展历程168
6.1.2全面质量管理170

●6.2数据质量管理概述171
6.2.1数据质量管理方法172
6.2.2数据质量知识库管理173
6.2.3MIT全面数据质量管理175

●6.3数据质量管理团队建设176
6.3.1任命首席数据官177
6.3.2建立数据质量管理团队178

●6.4质量管理成熟度模型179
6.4.1信息质量管理成熟度模型180
6.4.2数据质量管理成熟度模型181
参考文献184第7章位置大数据中的质量研究187

●7.1概述188
7.1.1位置大数据的来源188
7.1.2位置大数据的应用领域196

●7.2位置大数据面临的质量问题198
7.2.1GPS轨迹数据的质量问题198
7.2.2签到数据的质量问题199
7.2.3手机定位数据的质量问题200
7.2.4智能公交IC卡数据的质量问题201
7.2.5OSM地图数据的质量问题202

●7.3位置大数据的质量评估模型203
7.3.1GPS轨迹数据的质量评估模型203
7.3.2签到数据的质量评估模型205
7.3.3手机定位数据的质量评估模型206
7.3.4OSM地图数据的质量评估模型207
7.3.5基于云平台的位置大数据质量评估系统211

●7.4位置大数据质量控制214
7.4.1位置大数据清洁214
7.4.2位置大数据质量控制215
7.4.3OSM地图数据质量保证217
参考文献221

前言/序言

  质量是关于符合性的一种度量,即符合国际/国家标准或者符合使用者需求的程度。ISO9000系列质量体系是一个公认的国际标准,被全球110多个国家采用,既包括发达国家,也包括发展中国家。这一标准的执行使得市场竞争更加激烈,产品和服务质量得到日益提高。  国际标准化组织制订的国际标准——《质量管理体系基础和术语》(ISO9000:2008)中指出:产品质量是指产品的一组固有特性满足要求的程度。与通常的有形产品不同,数据常常被认为是无形的,数据质量的评价要困难很多。1980年以来,学术界、工业界和国际组织针对数据质量的测量、评估和管理提出了许多理论、技术和方法,却缺乏一个广泛认可的标准。ISO正在开发的数据质量国际标准(ISO8000),目前也只有20多个国家接受它。  除了数据是无形的之外,建立数据质量标准的又一难点在于数据具备资源性、产品性和服务性。数据的资源性是指数据类似于矿藏和原矿,强调的是可开采性和可利用性;数据的产品性是指数据经过加工后可以形成数据产品,进入市场流通;数据的服务性是指数据能够以提供服务的方式进入市场,使用者不需要购买和拥有数据,只是使用了数据服务。因此,从这三个大类的性质来看,数据质量的评价体系就存在很大差异,而且每个类别都会面临不同的需求符合性。  数据作为一种基础性资源和一种战略性资源,已经获得广泛认可,数据服务业已广泛开展,各地数据交易所纷纷成立;这时,数据质量就逐渐成为制约数据产业发展的关键问题。此外,由于大数据自身特性,直接采用传统的、面向结构化数据的质量理论和方法来处理质量问题并不合适,数据质量的研究在新环境下面临着更大的挑战。  数据作为一种特殊资源,其质量应当符合真实性、合法性和可用性的基本要求。《大数据质量》主要从数据的资源性来阐述数据质量,在传统数据质量研究的基础上,结合大数据的特性,阐述基于大数据的数据质量相关技术的实现,并通过一个实际案例,提出一套完整的大数据质量解决方案。  《大数据质量》共7章。第1章叙述数据质量的概况,列举出数据质量的影响和产生因素、数据质量的定义及面临的挑战,以及数据质量与信息质量的关系。第2章介绍了与数据质量有关的各种国际标准和行业标准。第3章讨论了数据分类和数据模型,并针对半结构化和非结构化数据,给出了一些数据模型和质量模型。第4章详细阐述数据质量的相关技术,包括:数据集成、数据剖析、数据清洁和数据溯源,并给出它们在大数据环境下的实现技术和方案。第5章详细论述了数据质量评估维度的选取,质量维度的测量和评估方法,同时每一种常用的评估方法都给出具体的评估案例。第6章描述数据质量的管理方法和质量管理成熟度模型。第7章以位置大数据为例,详细分析了位置大数据的来源、质量问题,评估模型和质量控制,给出确实可行的数据质量解决方法。  《大数据质量》可作为高等院校相关专业高年级学生和研究生的数据质量课程教材,以及从事数据质量研究和应用的科技工作者的技术参考。  特别感谢国内外数据质量专著、教材和许多高水平论文报告的作者们,他们是黄伟、刁兴春、曹建军、黎建辉、樊文飞、RichardY.Wang、YangW.Lee、ElizabethM.Pierce、DanetteMcGilvray、JohnTalburt、CarloBatini、MonicaScannapieca等教授。在《大数据质量》中引用了他们的部分成果,使《大数据质量》较全面地反映数据质量各个研究领域的最新进展。感谢李英姿、李永轩和周怡帆三位硕士研究生提供的支持。  《大数据质量》由朱扬勇教授和蔡莉副教授共同策划并拟定框架内容,并由蔡莉副教授执笔,朱扬勇教授审阅修订。限于作者学术水平,错误之处难免,恳请读者不吝指教。任何意见和建议,请发至电子邮件。对此,我们将深为感激。

其他推荐