第1章Python数据科学堆栈1
1.1概述1
1.2Python库和软件包2
1.2.1IPython:一个功能强大的交互式shell2
1.2.2Jupyter Notebook4
1.2.3使用IPython还是Jupyter8
1.2.4Numpy9
1.2.5Scipy10
1.2.6Matplotlib10
1.2.7Pandas11
1.3使用Pandas11
1.3.1读取数据12
1.3.2数据操作13
1.4数据类型转换21
1.5聚合和分组24
1.6从Pandas导出数据26
1.7Pandas可视化29
1.8总结31
第2章统计数据可视化33
2.1概述33
2.2可视化图表34
2.3图表的组件36
2.4Seaborn40
2.5图的类型41
2.5.1折线图(Line graph)42
2.5.2散点图(Scatter plot)45
2.5.3直方图(Histogram)48
2.5.4箱线图(Boxplot)51
2.6Pandas DataFrame54
2.7修改图的组件57
2.7.1配置轴对象的标题和标签57
2.7.2修改线条颜色和样式60
2.7.3修改图的大小60
2.8导出图像63
2.9总结67
第3章使用大数据框架69
3.1概述69
3.2Hadoop70
3.2.1使用HDFS操控数据71
3.3Spark数据处理平台73
3.3.1Spark SOL以及Pandas DataFrame75
3.4Parquet文件80
3.4.1编写Parquet文件81
3.4.2使用Parquet和Partitions提高分析性能82
3.5处理非结构化数据84
3.6总结87
第4章Spark DataFrame89
4.1概述89
4.2使用Spark DataFrame使用方法90
4.3从Spark DataFrame中写入输出94
4.4探索和了解Spark DataFrame更多特点95
4.5使用Spark DataFrame对数据进行相关操作98
4.6Spark DataFrame绘制图形106
4.7总结112
第5章处理缺失值以及相关性分析114
5.1概述114
5.2设置Jupyter Notebook115
5.3缺失值116
5.4处理Spark DataFrame中的缺失值119
5.5相关性121
5.6总结126
第6章进行探索性数据分析127
6.1概述127
6.2定义商业问题128
6.2.1问题识别129
6.2.2需求收集130
6.2.3数据管道和工作流130
6.2.4识别可测量的指标130
6.2.5文档和展示131
6.3将商业问题转化为可测量的度量标准和进行探索性数据分析(Exploratory Data Analysis, EDA)131
6.3.1数据采集132
6.3.2数据生成分析132
6.3.3KPI可视化133
6.3.4特征重要性133
6.4数据科学项目生命周期的结构化方法145
6.4.1第一阶段:理解和定义业务问题146
6.4.2第二阶段:数据访问与发现146
6.4.3第三阶段:数据工程和预处理147
6.4.4第四阶段:模型开发148
6.5总结149
第7章大数据分析中的再现性150
7.1概述150
7.2Jupyter Notebooks的再现性151
7.2.1业务问题介绍152
7.2.2记录方法和工作流程152
7.2.3数据管道153
7.2.4相关性153
7.2.5使用源代码版本控制153
7.2.6模块化过程154
7.3以可复制的方式收集数据154
7.3.1标记单元格和代码单元格中的功能155
7.3.2解释标记语言中的业务问题156
7.3.3提供数据源的详细介绍157
7.3.4解释标记中的数据属性157
7.4进行编码实践和标准编写162
7.4.1环境文件162
7.4.2编写带有注释的可读代码162
7.4.3工作流程的有效分割163
7.4.4工作流文档163
7.5避免重复167
7.5.1使用函数和循环优化代码168
7.5.2为代码/算法重用开发库/包169
7.6总结170
第8章创建完整的分析报告171
8.1概述171
8.2Spark可从不同的数据源读取数据172
8.3在Spark DataFrame上进行SQL操作173
8.4生成统计测量值181
8.5总结185
附录187