内容简介

Python数据分析师修炼之道》详细阐述了与Python数据分析相关的基本解决方案,主要包括Anaconda和JupyterNotebook、NumPy向量计算、数据分析库pandas、可视化和数据分析、Python统计计算、预测分析模型等内容。此外,《Python数据分析师修炼之道》还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。

Python数据分析师修炼之道》既可作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

目录

目录

第1章Anaconda和JupyterNotebook1

1.1Anaconda1

1.2JupyterNotebook3

1.2.1创建自己的JupyterNotebook3

1.2.2JupyterNotebook用户界面4

1.3使用JupyterNotebook5

1.3.1在代码单元格中运行代码5

1.3.2在文本单元格中运行markdown语法6

1.3.3键盘快捷操作9

1.4本章小结10

第2章NumPy向量计算11

2.1NumPy简介11

2.2NumPy数组13

2.2.1在NumPy中创建数组13

2.2.2数组的属性16

2.2.3数组中的基本数学运算17

2.2.4数组的常见操作19

2.3使用NumPy进行模拟23

2.3.1投掷硬币23

2.3.2模拟股票收益25

2.4本章小结27

第3章数据分析库pandas29

3.1pandas库29

3.1.1导入pandas中的对象30

3.1.2Series30

3.1.3创建pandas中的Series31

3.1.4DataFrame34

3.1.5创建pandasDataFrame35

3.1.6剖析DataFrame36

3.2pandas操作37

3.2.1检查数据37

3.2.2数据的选取、添加和删除37

3.2.3DataFrame切片40

3.2.4基于标记的选择操作40

3.3数据集42

3.3.1数据集中按部门划分的员工数量42

3.3.2员工的流失率42

3.3.3平均时薪43

3.3.4平均工作年限43

3.3.5任职时间最长的员工44

3.3.6员工的整体满意度44

3.4进一步思考46

3.4.1低满意度员工46

3.4.2低工作满意度和低工作参与度的员工47

3.4.3员工比较48

3.5本章小结53

第4章可视化和数据分析55

4.1matplotlib简介55

4.2pyplot简介58

4.3面向对象接口64

4.4常见的自定义方式70

4.4.1颜色70

4.4.2限定坐标轴71

4.4.3设置刻度和刻度标记71

4.4.4图例73

4.4.5标注74

4.4.6生成网格、水平线和垂直线75

4.5基于seaborn和pandas的EDA76

4.5.1seaborn库76

4.5.2执行探索性数据分析77

4.5.3核心目标78

4.5.4变量类型78

4.6单独分析变量79

4.6.1理解主变量80

4.6.2数值变量81

4.6.3类别变量83

4.7变量间的关系86

4.7.1散点图86

4.7.2箱形图89

4.7.3复杂的条件图92

4.8本章小结94

第5章Python统计计算95

5.1SciPy简介95

5.1.1统计子包95

5.1.2置信区间98

5.1.3概率计算100

5.2假设测试101

5.3执行统计测试102

5.4本章小结107

第6章预测分析模型109

6.1预测分析和机器学习109

6.2理解scikit-learn库110

6.3使用scikit-learn构建回归模型113

6.4利用回归模型预测房屋价格118

6.5本章小结122

前言/序言

前言

Python是高级数据分析师和统计人员所用的最常见和最流行的语言之一,可用于处理大型数据集和复杂的数据可视化任务。

Python数据分析师修炼之道》介绍了Python语言中的核心工具和库,以帮助读者与数据分析处理过程协同工作、准备相关数据以执行简单的统计学分析,进而构建具有实际意义的数据可视化结果。《Python数据分析师修炼之道》将讨论Python语言中的各种库,如NumPy、pandas、matplotlib、seaborn、SciPy和scikit-learn,并将其应用于实际数据分析和统计示例中。在阅读过程中,读者将会领略到如何高效地使用JupyterNoyebook,并借助于NumPy和landas库对数据进行操控。此外,还将利用Python库实现简单的预测模型、统计计算-分析和数据分析技术。

在阅读完《Python数据分析师修炼之道》后,读者在基于Python的数据分析方面将具备较为丰富的经验。

适用读者

Python数据分析师修炼之道》面向初级数据分析师、数据工程师和BI专业人员,他们希望使用Python工具执行高效的数据分析。要理解《Python数据分析师修炼之道》所涉及的概念,读者应具备Python编程方面的一些背景知识。

Python数据分析师修炼之道》内容

第1章:Anaconda和JupyterNotebook。本章介绍了Python中一些较为重要的数据科学库,并对Python预测分析所用的主要对象、属性、方法和函数进行了整体描述。

第2章:NumPy向量计算。本章讨论NumPy库,这也是Python项目中几乎全部科学计算所使用的库。学习如何使用NumPy数组,对于Python数据科学来说十分重要。

第3章:数据分析库pandas。本章将整体介绍pandas库。对于Python编程语言来说,pandas库提供了高性能、易于使用的数据结构和分析工具,因而受到了数据科学家以及Python社区开发者的喜爱。本章将通过相关示例展示如何利用pandas执行描述性分析。

第4章:可视化和数据分析。本章将考查数据科学的可视化效果。Python针对不同的功能提供了多种可视化选项。本章将学习两种最为流行的库,即matplotlib和seaborn,并面向真实数据集执行探索性数据分析。

第5章:Python统计计算。本章解释了如何利用Python执行统计计算,并据此考查包含青少年饮酒信息的数据集。

第6章:预测分析模型。本章简要介绍了预测分析,并通过构建一个模型对青少年的饮酒习惯进行预测。

资源下载

Python数据分析师修炼之道》将引领读者整体了解Python中的数据分析过程、Python数据科学栈中的主要库,并讨论如何使用各种Python工具有效地分析、可视化和处理数据。

读者可访问http://www.packtpub.com并通过个人账户下载示例代码文件。另外,在http://www.packtpub.com/support中注册成功后,我们将以电子邮件的方式将相关文件发与读者。

读者可根据下列步骤下载代码文件。

(1)访问www.packtpub.com,利用电子邮件地址和密码登录,或注册。

(2)选择SUPPORT选项卡。

(3)单击CodeDownloads&Errata。

(4)在Serach文本框中输入书名。

当文件下载完毕后,确保使用下列最新版本软件解压文件夹。

?Windows系统下的WinRAR/7-Zip。

?Mac系统下的Zipeg/iZip/UnRarX。

?Linux系统下的7-Zip/PeaZip。

另外,读者还可访问GitHub获取《Python数据分析师修炼之道》的代码包,对应网址为https://github.com/PacktPublishing/Become-a-Python-Data-Analyst。此外,读者还可访问https://github.com/PacktPublishing/,以了解丰富的代码和视频资源。

下载彩色图像

另外,我们还进一步提供了《Python数据分析师修炼之道》所用截图/图表的彩色图像,读者可访问http://www.packtpub.com/sites/default/files/downloads/BecomeaPythonDataAnalyst_ColorImages.pdf进行下载。

Python数据分析师修炼之道》约定

Python数据分析师修炼之道》通过不同的文本风格区分相应的信息类型。下面通过一些示例对此类风格以及具体含义的解释予以展示。

代码块如下所示。

#Thelargestheading

##Thesecondlargestheading

######Thesmallestheading

当某个代码块希望引起读者的足够重视时,一般会采用黑体表示,如下所示。

[default]

exten=>s,1,Dial(Zap/1|30)

exten=>s,2,Voicemail

(u100)

exten=>s,102,Voicemail(b100)

exten=>

i,1,Voicemail(s0)

图标则表示较为重要的说明事项。

图标则表示提示信息和操作技巧。

读者反馈和客户支持

欢迎读者对《Python数据分析师修炼之道》的建议或意见予以反馈。对此,读者可向feedback@packtpub.com发送邮件,并以书名作为邮件标题。若读者对《Python数据分析师修炼之道》有任何疑问,均可发送邮件至questions@packtpub.com,我们将竭诚为您服务。若读者针对某项技术具有专家级的见解,抑或计划撰写书籍或完善某部著作的出版工作,则可访问www.packtpub.com/authors。

勘误表

尽管我们在最大程度上做到尽善尽美,但错误依然在所难免。如果读者发现谬误之处,无论是文字错误抑或是代码错误,还望不吝赐教。对此,读者可访问http://www.packtpub.com/submit-errata,选取对应书籍,然后单击ErrataSubmissionForm超链接,并输入相关问题的详细内容。

版权须知

一直以来,互联网上的版权问题从未间断,Packt出版社对此类问题异常重视。若读者在互联网上发现《Python数据分析师修炼之道》任意形式的副本,请告知网络地址或网站名称,我们将对此予以处理。关于盗版问题,读者可发送邮件。


其他推荐