《R统计数据清洗及应用》

书海网短评：
■重点关注数据清洗方法的自动化，既包括理论知识，也包括使用R语言编写的应用。■使读者能够设计数据清洗过程，用于进行一次性分析或者设置生产系统以便定期进行数据清洗。■探索各种统计技术，以便解决诸如不

内容简介

■重点关注数据清洗方法的自动化，既包括理论知识，也包括使用R语言编写的应用。

■使读者能够设计数据清洗过程，用于进行一次性分析或者设置生产系统以便定期进行数据清洗。

■探索各种统计技术，以便解决诸如不完整、矛盾和离群等方面的问题，更好地进行数据清洗组件的集成和质量监控。

■图书配套网站提供特征数据和R范例代码。

前言/序言

前言

在数据分析中，数据清洗往往是最为耗时的部分。在“官方统计”(OfficialStatistics)社区，很久以前就已经开始将数据清洗作为一个单独的学科进行研究(在该社区，数据清洗被称为“数据编辑”)。此外，在研究中还引入了数据库的相关知识，尽管如此，针对大型统计社区的文献著作还是非常有限。正是因为这个原因，当出版方邀请我们对之前为useR!2013大会编写的《R数据清洗简介》教程进行扩展，进而编纂成一《R统计数据清洗及应用》时，我们毫不犹豫就答应了，这也是我们的心声。一方面，我们认为，过去50年中在“官方统计”社区发布的一些方法应该为更多的用户所了解和使用，而《R统计数据清洗及应用》或许可以为此助一臂之力。另一方面，我们正在从基于调查的数据源过渡到管理型“大”数据源，希望《R统计数据清洗及应用》能够帮助为“官方统计”社区增加一些(通常是预先存在的)相关技术。

对于我们来说，通过编写《R统计数据清洗及应用》也可以帮助我们系统地梳理相关知识，进一步完善之前针对这一主题所编写的软件。回过头来看，我们最终不仅成功完成了《R统计数据清洗及应用》的编写，还重新开发并普及了很多之前编写的数据清洗R软件包。为什么要这样做呢？其中一个原因是，我们发现了一些很好的方法，能够普及和扩展我们的软件和方法；另一个原因就是，我们希望将最近出现的“tidyverse”接口风格与R功能联系起来。

《R统计数据清洗及应用》包含的内容

《R统计数据清洗及应用》包含一系列精选的主题，我们认为这些主题对于开发数据清洗(也称为数据编辑)系统非常有用。主题范围非常广泛，与计算机科学、数字方法、技术标准、统计以及数据建模和编程等相关的主题，全部涵盖其中。

《R统计数据清洗及应用》涵盖“技术数据清洗”方面的主题，包括数字、文本和日期类型的转换和解释。同时对与这些数据类型相关的技术标准也做了较为详细的介绍。在对象的数据内容方面，相关主题包括数据验证(数据检查)、错误定位、各种错误校正方法以及缺失值插补方法。

对于《R统计数据清洗及应用》中讨论的理论知识，为了便于用户理解，我们会尽可能地提供可执行的R代码进行举例说明。此外，我们还提供了相应的练习，希望可以指导读者进一步加强对软件和对应方法的理解。

广泛的主题既反映出这一课题涵盖范围之广，同时也体现了作者广博的专业知识。当然，还有很多主题并未在书中进行介绍，其中，最重要的主题可能要算清洗时间序列对象和离群值检测。

《R统计数据清洗及应用》面向的读者

《R统计数据清洗及应用》的读者应该对数学和统计学有基本的了解，同时还应该具备一定的编程经验。我们假定读者已经了解期望值、方差、基础微积分和线性代数方面的知识。如果具备一定的R语言知识，那么对理解《R统计数据清洗及应用》中的内容会有很大的帮助，因为《R统计数据清洗及应用》就是使用R语言进行说明介绍的。不过，为了便于读者理解和参考，我们还是利用一章内容简要介绍了相关的基础知识。

致谢

《R统计数据清洗及应用》最终能够顺利出版，离不开很多人的辛勤工作。在这里，我们要感谢荷兰统计局的同事们，他们在百忙之中抽出时间与我们就数据验证、插补和错误定位进行了卓有成效的讨论，为我们提供了很多真知灼见。《R统计数据清洗及应用》中的部分章节参考了合著者所发表的论文和报告。我们要感谢JeroenPannekoek、SanderScholtus和JaccoDaalmans的帮助，没有你们的密切合作，就没有《R统计数据清洗及应用》的成功出版。此外，R核心团队、软件包开发人员也为我们提供了非常大的帮助，当然，还有R社区的大力支持，在此，一并表示感谢。

最后，还要感谢我们的家人，感谢他们的关爱与支持。

2017年6月

Mark和Edwin