编辑推荐

适读人群:统计学专业人员、对统计学感兴趣的人员、工作中需要用到统计学的人员、想学习统计学又不知如何学习的人员。广大的数据分析师。

《小白学统计》公众号主理人冯国双博士作品

冯国双博士另著有《小白学SAS一书》

行家张文彤博士带头点赞

涉及Excel、SPSS、R、SAS、JMP等常用工具软件

内容简介

在《白话统计》中你可以解决很多简单的网络搜索所不能解决的问题。在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么“做”线性回归分析,在你遇到实际数据时仍然不知道如何分析。在《白话统计》中你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据笔者多年的分析经验,它们在实践中通常是奏效的。《白话统计》凝结了作者十多年来对统计分析的理解,对各种方法的介绍采用全新的理念和思路,不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。当然,《白话统计》同时提供了如何实现结果的软件(涉及Excel、SAS、R、JMP、SPSS等)操作。

作者简介

冯国双,北京大学医学部博士,具有十多年的数据统计分析经验,知名统计学平台“小白学统计”的创始者与维护者。已主编多部统计学专著,出版《小白学SAS》,同时兼任多个与统计有关的学术委员会委员。兴趣爱好:在热爱统计分析之余,还对古玩奇石、盆景制作和诗词鉴赏略有心得。

精彩书评

统计并不难,难的是怎样学起来不头疼。我一直都想写一本平易近人的统计入门书,奈何俗务缠身,未能如愿。《白话统计》在这方面做了很有意义的尝试,有观点的书,值得有观点的您来读!
——张文彤博士


统计是动态的历史,历史是静态的统计。只有了解统计学,你我或许才能真正窥见“云计算”和“大数据”时代的精彩……
——陈晓峰中国移动在线服务公司


我在审稿中经常为一些统计学问题而烦恼。在试读了《白话统计》后,我发现,绝大多数发表文章中遇到的关于统计学的困惑都可以从《白话统计》中找到答案。
——吕相征中华预防医学杂志编辑部主任


推荐序

宋代禅宗大师青原行思曾提出参禅的三重境界:参禅之初,看山是山,看水是水;禅有悟时,看山不是山,看水不是水;禅中彻悟,看山仍是山,看水仍是水。统计学的学习过程何尝不是这样:初学统计时,看到一种方法,觉得就是这种方法,如学到t检验,觉得t检验就是用于两组均值比较的方法;经过一段时间的学习,突然发现原来看过的方法并不是所想的那样,如在线性回归中也看到了t检验的身影,这时觉得t检验不再是自己想象中的t检验了;再经过一段时间的学习,就会明白方法还是原来的方法,所谓的疑惑只是自己心动而已,这时就真正理解了t检验的含义,而不再把它当作一种固定于特定场合的检验方法。
对于统计学初学者而言,通过课堂老师的讲授,不难达到第一种境界;然后通过接触各种资料,慢慢就会发现各种方法跟课堂上所讲可能有所不同,剪不断,理还乱,逐渐进入第二种境界;此时,如果不能厘清思路,则很容易陷入迷惑和混乱,想达到第三种境界就难上加难了。当然,你可以充分利用网络资源查找各种信息,从而为自己解惑。然而这种资源虽然多,但较为零散,而且可能会看到众说纷纭的情况,使得你更加凌乱。幸运的是,冯国双博士的这本《白话统计》以通俗、幽默的语言深入浅出地介绍了统计学中的各种概念和思想,为很多人消除了留在心中多年的存疑,可以在这一阶段帮助读者答疑解惑。其中有些内容曾经发布在微信公众号“小白学统计”中,也因此受到了很多网友的好评。
目前,欧美有不少类似白话介绍统计方法之类的书籍,这类书的特点是:不像教材那样用沉重、拘谨的语言来介绍统计学方法,而是以风趣、浅显的话语来解释说明;内容不一定多,但尽量深入。相比之下,国内的这类书籍并不多见,在生物统计学领域尤其缺乏。这就导致很多非统计学专业人士觉得统计学“面目可憎”,始终无法真正喜欢上统计学。可喜的是,目前逐渐成长起来的年轻的统计学家已经意识到这一问题,冯博士的这本《白话统计》正是让统计学尽量接地气的一种有益尝试。
《白话统计》凝结了作者十多年来对统计学的理解,采用别具一格的编写理念和思路,对各种方法的介绍不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。《白话统计》对基本概念和方法的介绍没有采用教材中非常严谨的语言,而是尽可能用白话来解释说明。例如,在介绍累积分布和概率密度时,用到了《神雕侠侣》中的情节;在介绍假设检验思想时,用到了“女士品茶”的故事;在介绍中心极限定理时,采用了里约奥运会期间的一则虚拟故事。这不仅使得抽象理论形象化、复杂问题简单化,也增加了《白话统计》的趣味性和可读性,体现了作者深厚的理论功底和丰富的实践经验。
在此,我把《白话统计》这本著作推荐给各位读者,无论是初学者、统计学专业人士,还是统计学应用工作者,相信都能从中获益。


陈峰
南京医科大学教授

目录

第1篇基础篇
第1章为什么要学统计2
1.1统计学有什么用3
1.2生活世事皆统计4
1.3如何学统计4

第2章变异――统计学存在的基础6
2.1随机与变异6
2.2特朗普与罗斯福的胜出――抽样调查到底可不可靠8
2.3什么是抽样误差9

第3章郭靖的内力能支撑多久――谈概率分布11
3.1累积分布与概率密度的通俗理解12
3.2是生存还是死亡?这是一个问题――用Weibull分布寻找生存规律16
3.32003年的那场SARS――用Logistic分布探索疾病流行规律20
3.4“普通”的正态分布23
3.5几个常用分布――t分布、χ2分布、F分布28

第4章关于统计资料类型的思考35
4.1计数资料等于分类资料吗36
4.2计数资料可否采用连续资料的方法进行分析37
4.3分类资料中的无序和有序是如何确定的38
4.4连续资料什么时候需要转换为分类资料39
4.5连续资料如何分组――寻找cut-off值的多种方法41
4.6什么是虚拟变量/哑变量47

第5章如何正确展示你的数据52
5.1均数和中位数――你被平均了吗53
5.2方差与标准差――变异的度量54
5.3自由度――你有多少自由活动的范围56
5.4百分位数――利用百分数度量相对位置57
5.5如何比较苹果和橘子――利用Z值度量相对位置59
5.6某百岁老人调查报告说:少运动才能活得久――谈一下比例和率61
5.7在文章中如何正确展示百分比63

第6章寻找失踪的运动员――中心极限定理64
6.1中心极限定理针对的是样本统计量而非原始数据65
6.2样本量大于30就可以认为是正态分布了吗67

第7章从“女士品茶”中领会假设检验的思想70
7.1女士品茶的故事70
7.2零假设和备择假设.72
7.3假设检验中的两类错误73
7.4P值的含义76
7.5为什么P值小于0.05(而不是0.02)才算有统计学意义78
7.6为什么零假设要设定两组相等而不是两组不等79

第8章参数估计――一叶落而知秋81
8.1点估计81
8.2最小二乘估计82
8.3最大似然估计84
8.4贝叶斯估计86

第9章置信区间估计――给估计留点余地88
9.1置信区间的理论与实际含义88
9.2置信区间与P值的关系90
9.3利用标准误计算置信区间91
9.4利用Bootstrap法估计置信区间92

第2篇实用篇
第10章常用统计方法大串讲98
10.1一般线性模型――方差分析与线性回归的统一99
10.2广义线性模型――线性回归与Logistic回归的统一103
10.3广义可加模型――脱离“线性”束缚107
10.4多水平模型――打破“独立”条件112
10.5结构方程模型――从单因单果到多因多果119

第11章正态性与方差齐性127
11.1用统计检验方法判断正态性127
11.2用描述的方法判断正态性130
11.3方差分析中的方差齐性判断133
11.4理解线性回归中的方差齐性135

第12章t检验――不仅是两组比较138
12.1从另一个角度来理解t检验138
12.2如何正确应用t检验140
12.3t检验用于回归系数的检验141
12.4t检验的替代――Wilcoxon秩和检验142

第13章方差分析与变异分解145
13.1方差分析中变异分解的思想145
13.2为什么回归分析中也有方差分析147
13.3铁打的方差分析,流水的实验设计148
13.4方差分析后为什么要进行两两比较152
13.5多重比较方法的选择建议154
13.6所有的多组都需要做两两比较吗――兼谈固定效应和随机效应164
13.7重复测量方差分析详解166
13.8方差分析的替代――Kruskal-Wallis秩和检验176
13.9多组秩和检验后的两两比较方法178

第14章卡方检验――有“卡”未必走遍天下181
14.1卡方检验用于分类资料组间比较的思想181
14.2卡方用于拟合优度评价――从Hardy-Weinberg定律谈起184
14.3似然比χ2、M-Hχ2、校正χ2与Fisher精确检验186
14.4等级资料到底可不可以用卡方检验191
14.5卡方检验的两两比较193
14.6Cochran-Armitage趋势检验194
14.7分类变量的赋值是如何影响分析结果的196

第15章相关分析与一致性检验200
15.1从协方差到线性相关系数200
15.2线性相关系数及其置信区间203
15.3如何比较两个线性相关系数有无差异206
15.4分类资料的相关系数207
15.5基于秩次的相关系数210
15.6相关分析中的几个陷阱213
15.7用ICC和CCC指标判断一致性215
15.8用Bland-Altman图判断一致性218
15.9Kappa检验在一致性分析中的应用219

第16章线性回归及其分析思路222
16.1残差――识别回归模型好坏的关键223
16.2回归系数的正确理解226
16.3回归系数检验VS模型检验227
16.4均值的置信区间VS个体的预测区间228
16.5逐步回归筛选变量到底可不可靠――谈变量筛选策略230
16.6如何评价模型是好还是坏――交叉验证思路237
16.7线性回归的应用条件――你的数据能用线性回归吗240
16.8如何处理非正态――Box-Cox变换247
16.9如何处理非线性――Box-Tidwell变换248
16.10方差不齐怎么办――加权最小二乘法250
16.11当共线性导致结果异常时怎么办――岭回归、Lasso回归254
16.12发现异常值应该删除吗――谈几种处理异常值的方法260
16.13如何处理缺失值――是删除还是填补268
16.14一个非教材的非典型案例――线性回归的综合分析276

精彩书摘

  《白话统计》:
  其余时间的内力消耗以此类推。到了第18炷香的时候,上图显示,内力几乎消耗殆尽,应该在95%以上。下图同样显示,到第18炷香时,内力消耗不足1%,说明此时主要以游斗为主,夹杂一些江南七怪武功。
  现在我们把刚才几幅图中的规律总结一下。
  (1)理解累积分布和概率密度的概念。图3.5中的上图、图3.3和图3.1体现的是“累积分布”的概念,累积分布函数一般用F(x)来表示;而图3.5中的下图、图3.4和图3.2体现的是“概率密度”的概念,概率密度函数一般用f(x)来表示。
  累积分布比较容易理解,也就是内力不断累积,最终消耗殆尽的一个过程。通俗来说,也就是从0一直累积到100%,累积的速度可以相等(图3.1),也可以不相等(图3.3、图35中的上图)。概率密度也就是概率的密度。我们经常说人口密度等,意思就是在某个点上人口集中。通俗而言,密度就是在某个点上数据比较集中,在本例中就是内力集中消耗(如降龙十八掌内力集中消耗比较严重)。
  (2)理解累积分布的斜率与概率密度的关系。累积分布的斜率越大,概率密度也越大。事实上,密度值等于累积分布中对应点的斜率。如图3.3中,前5炷香斜率最大,对应图3.4中前5炷香的值最大(10)。再如图3.5中,上图绿线是第15炷香时对应的切线,这一点的斜率值等于下图中第15炷香对应的密度值(下图中绿线高度)。
  ……

前言/序言

前言
在一《白话统计》中如果没有自己的观点,而只是各种已知知识的堆叠,那这《白话统计》还有什么意义呢?
——作者

时光飞逝,从我的第一《白话统计》出版到现在,转眼已经过去了7年。期间,我的统计分析经验在不断积累,对统计学方法也有了更深一步的认识。但有一点始终未变,那就是我对统计学的热爱以及推广统计学的理念。从我的第一《白话统计》开始,我的理念就是,尽量写一本让非统计学专业人员也能看懂的统计书。直到《白话统计》的面世,尽管每《白话统计》的风格不一,但我始终遵循这一理念。
推广和普及统计学并不是一件容易的事情。由于各种原因,不少人在初学统计学时有点抵触,所以我尽量通过各种方式努力使统计学“平易近人”,写书便是其中之一。多年前我曾在百度空间创建了自己的“卫生统计空间”,阅读量达到近百万次,后来由于百度空间关闭而结束。后来我又在微信公众平台上创建了“小白学统计”公众号。在《白话统计》出版之际,该公众号恰好满两岁,粉丝也刚好满2万人。不少人在公众号上留言,建议我将内容整理成册并出版。因此,在后期我就一边写新的文章,一边将其整理修订。虽然《白话统计》脱胎于“小白学统计”公众号,但内容其实和公众号里的文章并不相同。
事实上,我几乎重写了所有内容,因为正式出版的书籍不能像公众号里的文章那样随意。所以,尽管你会看到书中的内容有与公众号相似之处,但《白话统计》更为系统和详细。
关于《白话统计》的名字,我曾在公众号上征集各位读者的意见,很多人建议直接用《小白学统计》这一书名。但经过仔细考虑,以及几位试读朋友的建议,最终还是命名为《白话统计》。因为《白话统计》并没有像教材一样系统地介绍各种统计方法,而更像随笔或补充读物。如果用武侠小说来类比,则更像梁羽生笔下的《玄功要诀》或金庸小说中的《易筋经》,虽然并不侧重教你具体招式,但却可以让你在学其他招数的时候事半功倍。


这是一本怎样的书
第一,你可以把《白话统计》看作一本“翻译”书。我在尽力把统计学中的公式“翻译”成白话文。比如,你在很多统计学书中看到正态分布的公式,而在《白话统计》中,你看到的是正态分布公式的解释及其实际含义;再如,你在统计学书中看到最大似然估计的公式时可能会有点困惑,《白话统计》则通过例子通俗地解释最大似然估计的计算思想。
第二,你还可以把《白话统计》看作统计学教材的补充内容。《白话统计》并不是简单地介绍各种统计方法,而是尽量把各种方法串联起来,从思路上理解方法本身。例如,教材中都会介绍如何用t检验进行两组比较,《白话统计》则重在阐述t检验的思想本身,这样你在任何场合(如线性回归、相关分析)看到t检验都不会觉得陌生;而且《白话统计》还专门用了一章的篇幅对常见的各种统计学方法进行了串讲,从一般线性模型到广义可加模型,尽量让你明白它们之间的关系。
第三,如果你愿意,则也可以把《白话统计》看作一本打发时间的消遣读物。《白话统计》对所有概念和方法都尽量以通俗的语言而非官方语言来阐释。例如,在介绍分布时,通过大家熟知的郭靖如何消耗内力来进行说明,从而避免了不少人对“分布”这一概念完全摸不着头脑的尴尬;在介绍假设检验思想时,用了“女士品茶”这一浅显的例子来说明其思路。


从这《白话统计》中你能学到的和不能学到的
白话统计》分为两大部分:基础篇和实用篇。其中,基础篇介绍了统计学中常见的概念及初学者容易存在的疑惑。例如,很多人都头疼的分布(第3章)、初学者不易理解的假设检验(第7章)、比较重要的中心极限定理(第6章)、参数估计和置信区间(第8章和第9章)等。
实用篇则侧重介绍各种方法的思路及实现,先对各种常见方法进行了串讲(第10章),然后分别介绍了t检验(第12章)、方差分析(第13章)、卡方检验(第14章)、相关分析(第15章)、回归分析(第16章)。但是千万不要被我列举的表面现象所迷惑,这些方法可能你觉得都“会”,但如果你打开《白话统计》,则会发现原来这些内容并不是这么简单的。
一《白话统计》如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么“做”线性回归分析,在你遇到实际数据时仍然不知道如何分析。在《白话统计》中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据我多年的分析经验,它们在实践中通常是奏效的。
如果你想从《白话统计》中学习如何一步步地进行软件操作,那你可能会失望。《白话统计》没有教你具体的软件操作过程,因为软件实现是最简单的,而统计分析思路则是更为复杂的。学习统计,最遥远的距离是,你面对着电脑中的统计软件(中文版),菜单上的每个中文都认识,却始终不知道该点什么。这很让人受挫,不是吗?然而这不是软件操作的问题,而是统计思路的问题。《白话统计》将教你摆脱这一尴尬局面。


什么人适合阅读《白话统计
如果你对统计学是完全的零基础,那么看前半部分内容应该问题不大,但对后半部分的统计方法可能需要花点心思,因为学习后半部分内容还是需要一定的统计学基础的。所以《白话统计》主要适合以下读者:
.刚刚接触统计学,跟着老师听了几堂课,但是脑子里依然是一团糨糊的人。
.学过统计学,但是对各种方法之间的关联并不清楚,想更进一步融会贯通的人。
.在课堂上学过统计学,但遇到实际数据却不知如何下手,想了解数据分析思路的人。
.统计学已经学得不错了,但有点眼高手低,对有些概念并未真正理解的人。
.会一点数据分析,但是在实际数据面前容易头脑不清晰,想学习数据分析技巧的人。
.会用简单的统计软件(如SPSS),但点开菜单却不知道里面的选项是什么意思、不知该如何勾选、也不知如何解读结果的人。
.喜欢本人作品、“小白学统计”公众号的粉丝。
……


白话统计》所用的软件
白话统计》中结果的展示主要基于SAS9.4和JMPPro13。书中凡是涉及计算或结果展示的内容,大都给出了软件实现的语句或操作过程。考虑到不同读者有各自的软件使用习惯,书中分别给出了SAS9.4、R3.4.3、SPSS20和JMPPro13的软件实现过程,部分特殊内容也用到了Medcalc和Stata12.0。


白话统计》中的配套资源下载
白话统计》中所有例子的数据、SAS程序和R程序都可以在知了帮网站下载,以节省读者输入数据和程序的时间。


致谢
首先,非常感谢陈峰老师在百忙之中帮忙作序,陈老师是一位儒雅型的生物统计学教授,能够请到陈老师作序,为《白话统计》增色不少。其次,感谢成都道然科技有限责任公司在整体策划和插图上的努力,你们看到书中那些生动的漫画都出自他们的手笔。
最后还必须感谢“小白学统计”公众号的粉丝,正是你们的鼓励,才让我义无反顾地将其内容整理成册并出版。
白话统计》是作者多年经验的累积,而且查阅了大量国内外文献,但仍不敢说百分之百正确。如果书中有任何观点上的错误,那说明本人水平仍有不足,所有错误均由本人承担责任,还请读者不吝指正,可在“小白学统计”公众号里留言。

冯国双


其他推荐