目 录
第1章 Anaconda和Jupyter Notebook 1
1.1 Anaconda 1
1.2 Jupyter Notebook 3
1.2.1 创建自己的Jupyter Notebook 3
1.2.2 Jupyter Notebook用户界面 4
1.3 使用Jupyter Notebook 5
1.3.1 在代码单元格中运行代码 5
1.3.2 在文本单元格中运行markdown语法 6
1.3.3 键盘快捷操作 9
1.4 本章小结 10
第2章 NumPy向量计算 11
2.1 NumPy简介 11
2.2 NumPy数组 13
2.2.1 在NumPy中创建数组 13
2.2.2 数组的属性 16
2.2.3 数组中的基本数学运算 17
2.2.4 数组的常见操作 19
2.3 使用NumPy进行模拟 23
2.3.1 投掷硬币 23
2.3.2 模拟股票收益 25
2.4 本章小结 27
第3章 数据分析库pandas 29
3.1 pandas库 29
3.1.1 导入pandas中的对象 30
3.1.2 Series 30
3.1.3 创建pandas中的Series 31
3.1.4 DataFrame 34
3.1.5 创建pandas DataFrame 35
3.1.6 剖析DataFrame 36
3.2 pandas操作 37
3.2.1 检查数据 37
3.2.2 数据的选取、添加和删除 37
3.2.3 DataFrame切片 40
3.2.4 基于标记的选择操作 40
3.3 数据集 42
3.3.1 数据集中按部门划分的员工数量 42
3.3.2 员工的流失率 42
3.3.3 平均时薪 43
3.3.4 平均工作年限 43
3.3.5 任职时间最长的员工 44
3.3.6 员工的整体满意度 44
3.4 进一步思考 46
3.4.1 低满意度员工 46
3.4.2 低工作满意度和低工作参与度的员工 47
3.4.3 员工比较 48
3.5 本章小结 53
第4章 可视化和数据分析 55
4.1 matplotlib简介 55
4.2 pyplot简介 58
4.3 面向对象接口 64
4.4 常见的自定义方式 70
4.4.1 颜色 70
4.4.2 限定坐标轴 71
4.4.3 设置刻度和刻度标记 71
4.4.4 图例 73
4.4.5 标注 74
4.4.6 生成网格、水平线和垂直线 75
4.5 基于seaborn和pandas的EDA 76
4.5.1 seaborn库 76
4.5.2 执行探索性数据分析 77
4.5.3 核心目标 78
4.5.4 变量类型 78
4.6 单独分析变量 79
4.6.1 理解主变量 80
4.6.2 数值变量 81
4.6.3 类别变量 83
4.7 变量间的关系 86
4.7.1 散点图 86
4.7.2 箱形图 89
4.7.3 复杂的条件图 92
4.8 本章小结 94
第5章 Python统计计算 95
5.1 SciPy简介 95
5.1.1 统计子包 95
5.1.2 置信区间 98
5.1.3 概率计算 100
5.2 假设测试 101
5.3 执行统计测试 102
5.4 本章小结 107
第6章 预测分析模型 109
6.1 预测分析和机器学习 109
6.2 理解scikit-learn库 110
6.3 使用scikit-learn构建回归模型 113
6.4 利用回归模型预测房屋价格 118
6.5 本章小结 122