第1章Python数据分析与可视化概述
1.1从MATLAB到Python
1.2NumPy
1.3Pandas
1.4Matplotlib
1.5SciPy与SymPy
第2章新生数据分析与可视化
2.1使用Pandas对数据预处理
2.2使用Matplotlib库画图
2.3使用Pandas进行绘图
第3章Python表格处理分析
3.1背景介绍
3.2前期准备与基本操作
3.2.1基本术语概念说明
3.2.2安装openpyxl并创建一个工作簿
3.2.3从Excel工作簿中读取数据
3.2.4迭代访问数据
3.2.5插入数据
3.3进阶内容
3.3.1为Excel表单添加公式
3.3.2为表单添加条件格式
3.3.3为Excel表单添加图表
3.4数据分析实例
3.4.1背景与前期准备
3.4.2使用openpyxl读取数据并转为DataFrame
3.4.3绘制数值列直方图
3.4.4绘制相关性矩阵
3.4.5绘制散布矩阵
3.4.6将可视化结果插入Excel表格
第4章美国加利福尼亚州房价预测的数据分析
4.1数据的读入和初步分析
4.1.1数据读入
4.1.2分割测试集与训练集
4.1.3数据的初步分析
4.2数据的预处理
4.2.1拆分数据
4.2.2空白值的填充
4.2.3数据标准化
4.2.4数据的流程化处理
4.3模型的构建
4.3.1查看不同模型的表现
4.3.2选择效果最好的模型进行预测
第5章影评数据分析与电影推荐
5.1明确目标与准备数据
5.2工具选择
5.3初步分析
5.3.1用户角度分析
5.3.2电影角度分析
5.4电影推荐
第6章医疗花费预测
6.1数据读取
6.2数据预处理
6.2.1字符串类型的转换
6.2.2数据的分布和映射
6.3数据分析
6.3.1协方差矩阵和热力图
6.3.2DBSCAN聚类算法
6.3.3支持向量机分类算法
6.4线性回归
6.5结果预测
6.6结果分析
第7章用户消费行为分析
7.1RFM模型简介
7.2数据读入
7.3数据清洗和预处理
7.3.1数据清洗
7.3.2数据预处理
7.4RFM统计量计算
7.5RFM归类
7.6结果保存
7.7可视化结果
第8章用户流失预警
8.1读入数据
8.2数据预处理和自变量标准化
8.3五折交叉验证
8.4代入三种模型
8.5调整prob阈值,输出精度评估
第9章在Kaggle上预测房价
9.1读取数据集
9.2预处理数据集
9.3训练模型
9.4k折交叉验证
9.5模型选择和调整
9.6在Kaggle上提交预测结果
第10章世界杯
10.1数据说明
10.2世界杯观众
10.3世界杯冠军
10.4世界杯参赛队伍与比赛
10.5世界杯进球
第11章股价预测
11.1使用Tsfresh进行升维和特征工程
11.2程序设计思路
11.3程序设计步骤
11.3.1读入并分析数据
11.3.2移窗
11.3.3升维
11.3.4方差过滤
11.3.5使用AdaBoostRegressor模型进行回归预测
11.3.6预测结果分析
第12章基于上下文感知的多模态交通推荐
12.1案例目标
12.2数据说明
12.2.1查询记录
12.2.2显示记录
12.2.3点击记录
12.2.4用户记录
12.3解决方案
12.3.1导入工具包和数据
12.3.2特征导入和数据处理
12.3.3模型训练与结果保存
第13章美国波士顿房价预测
13.1背景介绍
13.2数据清洗
13.3数据分析
13.4分析结果
第14章机器人最优路径走迷宫
14.1关键技术
14.1.1马尔可夫决策过程
14.1.2Bellman方程
14.2程序设计步骤
14.2.1初始化迷宫地图
14.2.2计算不同位置的最优路径
第15章基于Kmeans算法的鸢尾花数据聚类和可视化
15.1数据及工具简介
15.1.1Iris数据集(鸢尾花数据集)
15.1.2Tkinter
15.2案例分析
15.2.1模块引入
15.2.2布局图形界面
15.2.3读取数据文件
15.2.4聚类
15.2.5聚类结果可视化
15.2.6误差分析及其可视化
15.2.7使用流程
第16章利用手机的购物评论分析手机特征
16.1数据准备
16.2数据分析
16.2.1模型介绍
16.2.2算法应用
16.2.3名词提取
16.2.4情感分析
第17章菜谱分析
17.1数据集介绍
17.2数据观察
17.2.1数据读入
17.2.2分布统计
17.3数据预处理
17.3.1英文单词标准化
17.3.2数据向量化
17.4模型构建
第18章基于回归问题和XGBoost模型的房价预测
18.1XGBoost模型介绍
18.2技术方案
18.2.1数据分析
18.2.2XGBoost模型参数
18.2.3调参过程
18.3完整代码及结果展示
第19章基于VGG19和TensorBoard的图像分类和数据可视化
19.1背景概念介绍
19.1.1VGG19模型
19.1.2TensorBoard
19.1.3CIFAR10数据集
19.2网络搭建与TensorBoard可视化实战
19.2.1网络搭建
19.2.2准备数据并构建网络实例
19.2.3TensorBoard训练过程可视化
第20章基于Elasticsearch实现附近小区信息搜索
20.1Elasticsearch的简介与安装
20.1.1Elasticsearch的简介
20.1.2Elasticsearch的安装
20.2数据准备
20.2.1网页分析与信息提取
20.2.2获取经纬度
20.2.3数据格式转换
20.3Python实现Elasticsearch基础操作
20.3.1创建索引和插入数据
20.3.2查询数据和数据类型
20.3.3删除相关操作
20.3.4检索功能
20.4房价地理位置坐标搜索实现
第21章汽车贷款违约的数据分析
21.1数据样本分析
21.1.1数据样本概述
21.1.2变量类型分析
21.1.3Python代码实践
21.2数据的预处理
21.2.1目标变量探索
21.2.2X变量初步探索
21.2.3连续变量的缺失值处理
21.2.4分类变量的缺失值处理
21.3数据分析的模型建立与评估
21.3.1数据的预处理与训练集划分
21.3.2采用回归模型进行数据分析
21.3.3采用决策树进行数据分析
21.3.4采用随机森林优化决策树模型
第22章基于Spark的搜索引擎日志用户行为分析
22.1功能需求
22.1.1搜索引擎用户行为分析的意义
22.1.2搜索引擎日志概述
22.2系统架构
22.2.1用户搜索流程
22.2.2系统架构设计
22.3功能实现
22.3.1Spark本地运行环境搭建
22.3.2搜索引擎日志数据获取
22.3.3分析指标
22.3.4Spark任务提交
第23章科比职业生涯进球分析
23.1预处理
23.2分析科比的命中率
23.3分析科比的投篮习惯
附录APyTorch环境搭建
A.1Linux平台下PyTorch环境搭建
A.2Windows平台下PyTorch环境搭建
参考文献