内容简介

数据分析》着重介绍各种数据分析技术背后的原理,有利于实践者将技术具体应用到各种领域,或者在此基础上发展新的技术。《数据分析》共分三部分。部分介绍统计学基本概念,包括蒙特卡罗方法和马尔科夫链。第二部分介绍统计学,并从频率派和贝叶斯派两种角度对比分析了各种数据建模的工具。第三部分重点介绍各种数据分析方法,比如关联函数、周期图、图像重建等。附录提供了相关的数学知识,以备读者查阅。《数据分析》可作为物理、工程相关专业研究生关于数据分析技术的标准教材,也可供科学家和工程师参考阅读。

目录

译者序
前言
第1章概率
1.1概率定律
1.2概率分布
1.2.1离散和连续概率分布
1.2.2累积概率分布函数
1.2.3变量变化
1.3概率分布的特征
1.3.1中位数、众数和半峰全宽
1.3.2矩、均值和方差
1.3.3矩母函数和特征函数
1.4多变量概率分布
1.4.1两个独立变量的分布
1.4.2协方差
1.4.3多个独立变量的分布
第2章一些有用的概率分布函数
2.1排列组合
2.2二项分布
2.3泊松分布
2.4高斯分布(正态分布)
2.4.1用中心极限定理推导高斯分布
2.4.2关于中心极限定理的摘要和评论
2.4.3高斯分布的均值、矩和方差
2.5多元高斯分布
2.6卡方分布
2.6.1卡方分布的推导
2.6.2卡方分布的均值、众数和方差
2.6.3n取极大值的卡方分布
2.6.4简化卡方
2.6.5相关变量的卡方
2.7贝塔分布
第3章随机数和蒙特卡罗方法
3.1引言
3.2不均匀随机偏差
3.2.1逆向累积分布函数
3.2.2多维偏差
3.2.3生成高斯偏差的BoxMüller方法
3.2.4接受拒绝算法
3.2.5均匀分布比例法
3.2.6从更复杂的概率分布中产生随机偏差
3.3蒙特卡罗积分
3.4马尔可夫链
3.4.1平稳有限的马尔可夫链
3.4.2不变概率分布
3.4.3连续参数和多参数马尔可夫链
3.5马尔可夫链蒙特卡罗采样
3.5.1马尔可夫链蒙特卡罗计算示例
3.5.2MetropolisHastings算法
3.5.3吉布斯采样器
第4章频率统计学基础
4.1频率统计学简介
4.2未加权数据的均值与方差
4.3含有不相关测量误差的数据
4.4有相关测量误差的数据
4.5方差的方差和学生t分布
4.5.1方差的方差
4.5.2学生t分布
4.5.3总结
4.6主成分分析及其相关系数
4.6.1相关系数
4.6.2主成分分析
4.7柯尔莫诺夫斯米尔诺夫检验
4.7.1单样本KS检验
4.7.2双样本KS检验
第5章线性最小二乘估计
5.1引言
5.2似然统计
5.2.1似然函数
5.2.2最大似然原理
5.2.3与最小二乘和χ2最小化的关系
5.3多项式对数据的拟合
5.3.1直线拟合
5.3.2任意多项式拟合
5.3.3方差、协方差和偏差
5.3.4蒙特卡罗误差分析
5.4协方差的需求和误差的传播
5.4.1协方差的需求
5.4.2误差的传播
5.4.3蒙特卡罗误差传播
5.5广义线性最小二乘法
5.5.1非多项式函数的线性最小二乘法
5.5.2测量误差之间的相关性拟合
5.5.3拟合优度的χ2检验
5.6多个因变量拟合
第6章非线性最小二乘估计
6.1引言
6.2非线性拟合的线性化
6.2.1数据含有不相关测量误差
6.2.2数据含有相关测量误差
6.2.3实际考量
6.3其他最小化S的方法
6.3.1网格映射法
6.3.2最速下降法、牛顿法以及马夸特法
6.3.3单纯形优化
6.3.4模拟退火法
6.4误差估计
6.4.1黑塞矩阵的逆阵
6.4.2直接计算协方差矩阵
6.4.3总结以及估计的协方差矩阵
6.5置信极限
6.6自变量和因变量都含有误差的拟合
6.6.1含有不相关误差的数据
6.6.2含有相关误差的数据
第7章贝叶斯统计
7.1贝叶斯统计简介
7.2单参数估计:均值、众数和方差
7.2.1引言
7.2.2高斯先验和似然函数
7.2.3二项分布和贝塔分布
7.2.4泊松分布和一致的先验
7.2.5关于先验概率分布的更多信息
7.3多参数估计
7.3.1问题的形式描述
7.3.2拉普拉斯近似
7.3.3高斯似然函数和先验:与最小二乘的联系
7.3.4困难的后验分布:马尔可夫链蒙特卡罗采样
7.3.5可信区间
7.4假设检验
7.5讨论
7.5.1先验概率分布
7.5.2似然函数
7.5.3后验分布函数
7.5.4概率的含义
7.5.5思考
第8章傅里叶分析导论
8.1引言
8.2完备的标准正交函数集合
8.3傅里叶级数
8.4傅里叶变换
8.4.1傅里叶变换对
8.4.2有用的傅里叶变换对的总结
8.5离散傅里叶变换
8.5.1从连续傅里叶变换推导
8.5.2从离散取样的正弦和余弦函数的正交关系推导
8.5.3帕塞瓦尔定理和功率谱
8.6卷积和卷积定理
8.6.1卷积
8.6.2卷积定理
第9章序列分析:功率谱和周期图
9.1引言
9.2连续序列:数据窗口、谱窗口以及混叠
9.2.1数据窗口和谱窗口
9.2.2混叠
9.2.3任意的数据窗口
9.3离散序列
9.3.1过量采样Fm的必要性
9.3.2奈奎斯特频率
9.3.3整合采样
9.4噪声的影响
9.4.1确定性的或随机性的过程
9.4.2白噪声的功率谱
9.4.3噪声环境下的确定性信号
9.4.4非白、非高斯噪声
9.5非一致间隔的序列
9.5.1最小二乘周期图
9.5.2LombScargle周期图
9.5.3一般化的LombScargle周期图
9.6有变化周期的信号:OC图
第10章序列分析:卷积和协方差
10.1卷积回顾
10.1.1脉冲响应函数
10.1.2频率响应函数
10.2反卷积和数据重建
10.2.1噪声在反卷积中的效用
10.2.2维纳反卷积
10.2.3RichardsonLucy算法
10.3自协方差函数
10.3.1自协方差函数的基本性质
10.3.2与功率谱的关系
10.3.3随机过程的应用
10.4互协方差函数
10.4.1互协方差函数的基本性质
10.4.2与χ2和互谱的关系
10.4.3噪声中脉冲信号的检测
附录A一些有用定积分
附录B拉格朗日乘数法
附录C高斯概率分布的附加性质
附录Dn维球体
附录E线性代数和矩阵回顾
附录F当n值变大时[1+f(x)/n]n的极限
附录G脉冲响应函数的格林函数解
附录H二阶自回归过程

前言/序言

  若推理不够,经验可以胜任。
  数学是通向科学的大门和钥匙。
  ——罗杰·培根(约1214—1294年)
  现代化计算机的发展深刻地改变了统计学的面貌。现在分析数据常规使用的技术在几年前都是不切实际,甚至是不可想象的。普通的笔记本电脑就能够轻松处理大数据并进行详尽的计算。曾经被认为深奥的技术现在已经成为常规工具:主成分分析、马尔可夫链蒙特卡罗抽样、非线性模型拟合、贝叶斯统计、LombScargle周期图等。科学家和工程师比以往任何时候都需要熟练掌握更多、更尖端的方法来分析数据。
  多年来,我为天文系、物理系,偶尔也为工程系的研究生讲授数据分析的课程。课程的目的是培养实验者解释数据的必要能力,并为理论家提供足够的知识来理解(甚至有时是质疑)这些解释。我无法找到一本具体的书,或者一些相关的书籍,可以作为该课程的教材。课程中的大部分材料都不是初级的,而且通常不包括在许多关于数据分析的介绍性书籍范围内。而涵盖这些材料的书籍一般都高度专业,写作风格和语言对于大多数学生来说也都晦涩难懂。用特定计算机语言所写的书籍,大多涵盖特定算法,更合适作为补充资料。
  鉴于教学需要,我为自己的课程编写了讲义,并将这些讲义整理成书。《数据分析》是一本关于数据分析的有一定深度的书,而不是统计学入门书籍。诚然,人们可能会质疑是否需要对线性回归进行额外的基础性介绍。但同时,《数据分析》涵盖了必要的基本概念和工具,内容自成体系,使各种背景的读者都易于理解。虽然书中包括很多具体的例子,但它不是一本统计方法的“食谱”,也并不包含计算机代码。相反,这门课程和这《数据分析》强调的是各种技术背后的原理,使从业者能够将技术应用于自己的问题,并能在必要时开发新的技术。《数据分析》的目标读者是研究生,也适用于高年级的本科生和在职的专业人士。
  《数据分析》重点关注物理科学和工程领域工作人员的需求,因而尽可能少地描述那些在其他研究领域常用而在物理学中很少发挥重要作用的统计工具。所以,《数据分析》对假设检验没有太多介绍,甚至忽略了ANOVA技术,尽管这些工具会在生命科学领域得到广泛应用。相反,数据的模型拟合和数据序列的分析在物理科学中是常见的,贝叶斯统计也越来越受到关注。《数据分析》将更加全面地讨论这些主题。
  即使如此,这些主题也必须经过严格的筛选来满足一《数据分析》的篇幅要求,而我选择的标准是实用性。《数据分析》覆盖了物理科学家和工程师经常使用的数据分析工具,主要分为三个部分。
  第一部分用3章介绍了概率的相关知识:第1章涵盖概率方面的基本概念,第2章介绍了一些实用的概率分布,最后第3章讨论了随机数和蒙特卡罗方法,包括马尔可夫链蒙特卡罗采样。
  第二部分包括第4~7章,第4章介绍了统计学中的一些基本概念,第5章和第6章从频率论的角度(极大似然估计、线性和非线性的卡方最小化)介绍模型拟合,第7章从贝叶斯的角度介绍模型拟合。
  最后一部分专门介绍数据序列。先复习傅里叶分析(第8章),然后讨论功率谱和周期图(第9章),之后是卷积和图像重建,最后以自相关和互相关结束(第10章)。
  《数据分析》重点强调了误差分析。这反映了我的一个坚定信念:数据分析不应该仅仅只是产生一个结果,而是还要评估这个结果的可靠性。这可能是一个数字加一个方差,也可能是置信区间,或者当处理似然函数或贝叶斯分析时,它可以是很多一维或者二维的边际分布图。
  坚定的贝叶斯学派可能会对《数据分析》只花一章来介绍贝叶斯统计而感到不悦。事实上,虽然前两章是关于概率的,却提供了贝叶斯统计的必要基础;而第3章中对于马尔可夫链蒙特卡罗采样的漫长讨论,几乎完全是由贝叶斯统计所引导出来的。就像通常默认的,介绍最小二乘法估计的那两章里面很全面地讲述了似然函数。《数据分析》也可以作为一门只教授贝叶斯统计课程的教科书。因为书中讨论了数据分析的贝叶斯方法和频率论方法,可以直接比较两者。我发现这种比较可以大大提高学生对贝叶斯统计学的理解。
  书中几乎所有的材料都已经公开发表或出版,但《数据分析》中的表述是我自己的。我的目标是以一种让我的学生和同事都容易理解的方式来撰写《数据分析》。《数据分析》的主要作用是将数学家的优雅且精确的语言翻译成数据科学家和工程师能够掌握的更宽松的工作语言。《数据分析》并不提及异方差数据,但会讨论变量数据,还会涉及相关的测量错误!
  《数据分析》尽管在表述上是数学的,但写作风格是物理科学的。我的目的是让叙述清晰和准确,而不是严格,因此读者在书中找不到证明或引理。《数据分析》假设读者已经很熟悉多变量微积分,并且熟悉复数。书中也大量使用了线性代数。经验告诉我,大部分研究生至少上过一门线性代数课程,但他们很少使用线性代数知识,特别是涉及特征值和特征向量时。因此附录E提供了线性代数的详细回顾。一些会打乱《数据分析》主线的专题也被归入附录。由于序列分析的重要性,我们用一整章专门介绍了傅里叶分析。
  最后,如果你打算阅读或教授《数据分析》,一个亘古不变的事实就是:“对于很多事情我们要先学习,才能去做,就像建筑工人在建造房子的过程中学习建筑技巧和七弦琴演奏者通过弹奏学习一样,我们要从实践中去学习”。为了学习如何分析数据,我们着手去分析数据——

其他推荐