第一篇 基础入门篇
第1章 Python机器学习入门 1
1.1 机器学习是人工智能的一个分支 2
1.1.1 什么是智能 2
1.1.2 智能的特点 4
1.1.3 人工智能及其研究内容 5
1.1.4 人工智能的主要学派 7
1.1.5 人工智能的研究和应用范畴 9
1.2 理解机器学习 10
1.2.1 学习与机器学习 10
1.2.2 机器学习的分类 11
1.2.3 典型的机器学习方法 12
1.2.4 深度学习 17
1.3 数据、大数据及其组织方式 18
1.3.1 数据及大数据 18
1.3.2 数据库与数据仓库 18
1.4 机器学习的一般步骤 19
1.5 本章小结 21
1.6 习题 21
1.7 高手点拨 21
第2章 设置机器学习的
环境 23
2.1 机器学习工具及Python
Anaconda的安装 24
2.1.1 机器学习工具 24
2.1.2 Python Anaconda 24
2.1.3 Python Anaconda版的安装
和使用 28
2.1.4 机器学习库scikit- learn 32
2.2 环境测试 33
2.3 综合实例—第一个机器学习
实例 34
2.4 本章小结 36
2.5 习题 36
2.6 高手点拨 36
第3章 Python机器学习
基础 39
3.1 NumPy数值计算基础 40
3.2 Matplotlib可视化基础 59
3.2.1 matplotlib.pyplot绘图元素和
基本流程 59
3.2.2 绘制散点图 60
3.2.3 绘制折线图和点线图 62
3.2.4 绘制柱状图 64
3.2.5 绘制饼图 67
3.2.6 绘制箱线图 69
3.2.7 绘制直方图 70
3.2.8 绘制子图 71
3.3 Seaborn统计数据可视化 72
3.3.1 特征关系可视化 73
3.3.2 特征分类别可视化 76
3.3.3 特征分布可视化 90
3.3.4 矩阵可视化 98
3.4 访问数据文件 101
3.4.1 NumPy访问二进制文件 101
3.4.2 Pandas访问文本文件 104
3.4.3 Pandas访问Excel文件 107
3.5 Pandas DataFrame操作 108
3.5.1 DataFrame对象及其属性 108
3.5.2 使用字典方式访问
DataFrame 110
3.5.3 使用属性方式访问
DataFrame 112
3.5.4 DataFrame访问行的特殊方法 113
3.5.5 使用DataFrame.loc[ ],
DataFrame.iloc[ ]对
DataFrame进行切片 114
3.5.6 更改DataFrame中的数据 119
3.6 综合实例—iris数据集特征、
特征间关系及分类别分析 121
3.7 本章小结 129
3.8 习题 129
3.9 高手点拨 130
第4章 统计分析数学基础及
Python实现 131
4.1 基本统计知识 132
4.1.1 中位数、众数、极差 132
4.1.2 相关性、协方差、相关系数、
协方差矩阵 133
4.1.3 数据的分组聚合 135
4.1.4 数据透视表与交叉表 136
4.2 NumPy统计分析 136
4.3 Pandas统计分析 140
4.3.1 Pandas DataFrame描述性
统计 141
4.3.2 Pandas DataFrame数据
离散化 146
4.3.3 使用GroupBy拆分数据并
进行描述性统计 150
4.3.4 使用agg方法聚合数据 157
4.3.5 使用apply方法聚合数据 160
4.3.6 使用transform方法聚合
数据 161
4.3.7 使用pivot_table创建
透视表 163
4.3.8 使用crosstab创建交叉表 171
4.4 综合实例—iris数据集统计
分析 173
4.5 本章小结 189
4.6 习题 189
4.7 高手点拨 190
第二篇 数据预处理篇
第5章 数据分析第一步—
产生和加载
数据集 191
5.1 使用NumPy的函数产生模拟
数据集 192
5.2 使用scikit-learn样本生成器
生成数据集 198
5.3 访问scikit-learn自带数据
文件 206
5.4 访问外部数据文件 210
5.5 综合实例—加载boston数据集、
另存为并重新访问 211
5.6 本章小结 214
5.7 习题 215
5.8 高手点拨 215
第6章 数据分析第二步—
数据预处理 217
6.1 数据预处理的基础知识 218
6.1.1 一般流程和常用方法 218
6.1.2 标准化和正则化 219
6.1.3 特征选择 221
6.1.4 特征降维—主成分分析、
线性判别分析 222
6.1.5 Pandas与scikit- learn数据
预处理概述 227
6.2 使用scikit-learn进行数据
预处理 228
6.2.1 使用sklearn对数据集进行
Z- score标准化 228
6.2.2 使用sklearn对数据集进行
极差标准化 232
6.2.3 使用sklearn对数据集
正则化 235
6.2.4 使用sklearn对数据集
二值化 238
6.2.5 使用sklearn进行缺失值
插补 239
6.2.6 使用sklearn对分类特征
编码 240
6.3 特征降维 242
6.3.1 PCA降维 242
6.3.2 LDA降维 247
6.3.3 TSNE降维 250
6.4 综合实例—breast_cancer
数据集预处理 253
6.5 本章小结 258
6.6 习题 259
6.7 高手点拨 259
第三篇 机器学习算法篇
第7章 回归分析 261
7.1 回归分析及常用方法 262
7.1.1 线性回归 262
7.1.2 逻辑回归 263
7.1.3 多项式回归 263
7.1.4 逐步回归 263
7.1.5 岭回归 263
7.1.6 套索回归 264
7.1.7 弹性网络回归 264
7.2 线性回归理论基础 264
7.3 使用scikit-learn进行线性
回归 266
7.4 使用scikit-learn进行岭回归 271
7.5 使用scikit-learn进行逻辑
回归 274
7.6 使用scikit-learn进行多项式
回归 280
7.6.1 单特征数据集多项式回归 280
7.6.2 多特征数据集多项式回归 285
7.7 综合实例—波士顿房价数据集
回归分析 291
7.8 本章小结 295
7.9 习题 296
7.10 高手点拨 296
第8章 分类算法—决策树
学习 297
8.1 决策树算法基础 298
8.1.1 信息熵、信息增益、信息
增益率 298
8.1.2 决策树算法 302
8.2 使用scikit-learn进行决策树
学习 303
8.3 综合实例—使用决策树对鸢尾花
数据集iris进行分类 314
8.4 本章小结 319
8.5 习题 319
8.6 高手点拨 320