Python机器学习及实践：从零开始通往Kaggle竞赛之路（2022年度版）

定　价：¥99.00

作　者：	范淼、徐晟桐
出版社：	清华大学出版社
丛编项：
标　签：	暂缺

购买这本书可以去

ISBN：	9787302614241	出版时间：	2022-10-01	包装：	平装-胶订
开本：	16开	页数：		字数：

内容简介

　　本书在不涉及大量数学模型与复杂编程知识的前提下，从零开始逐步带领读者熟悉并掌握当下流行的基于Python 3的数据分析，以及支持单机、深度和分布式机器学习的开源程序库，如pandas、Scikitlearn、PyTorch、TensorFlow、PaddlePaddle、PySparkML等。全书分4部分。入门篇包括对全书核心概念的指南性介绍，以及在多种主流操作系统（Windows、macOS、Ubuntu）上配置基本编程环境的详细说明。基础篇涵盖Python 3的编程基础、基于pandas的数据分析，以及使用Scikitlearn解决大量经典的单机（单核/多核）机器学习问题。进阶篇介绍如何使用PyTorch、TensorFlow、PaddlePaddle搭建多种深度学习网络框架，以及如何基于PySpark的ML编程库完成一些常见的分布式机器学习任务。实践篇利用全书所讲授的Python编程、数据分析、机器学习知识，帮助读者挑战和参与Kaggle多种类型的竞赛实战，同时介绍如何使用Git在Gitee、GitHub平台上维护和管理日常代码与编程项目。本书适合所有对人工智能领域，特别是机器学习、数据挖掘、自然语言处理等技术及其实践感兴趣的初学者。

作者简介

暂缺《Python机器学习及实践：从零开始通往Kaggle竞赛之路（2022年度版）》作者简介

图书目录

第1部分入门篇
第1章全书指南3
1.1Python编程3
1.2数据分析5
1.3机器学习6
1.3.1任务9
1.3.2经验10
1.3.3性能11
1.4Kaggle竞赛13
1.5Git代码管理14
1.6章末小结15
第2章基本环境搭建与配置16
2.1Windows操作系统下基本环境的搭建与配置16
2.1.1查看Windows的版本与原始配置16
2.1.2下载并安装Anaconda3（Windows）17
2.1.3使用Anaconda Navigator创建虚拟环境python_env（Windows）19
2.1.4在虚拟环境python_env下使用Anaconda Navigator安装
Jupyter Notebook与PyCharm Professional（Windows）20
2.2macOS操作系统下基本环境的搭建与配置21
2.2.1查看macOS的版本与原始配置21
2.2.2下载并安装Anaconda3（macOS）23
2.2.3使用Anaconda Navigator创建虚拟环境python_env（macOS）24
2.2.4在虚拟环境python_env下使用Anaconda Navigator安装
Jupyter Notebook与PyCharm Professional（macOS）24〖1〗Python机器学习及实践——从零开始通往Kaggle竞赛之路（2022年度版）〖1〗目录2.3Ubuntu操作系统下基本环境的搭建与配置26
2.3.1查看Ubuntu的版本与原始配置26
2.3.2下载并安装Anaconda3（Ubuntu）27
2.3.3在终端中创建虚拟环境python_env（Ubuntu）28
2.3.4在虚拟环境python_env下使用conda命令安装Jupyter
Notebook（Ubuntu）29
2.4Jupyter Notebook使用简介31
2.4.1在虚拟环境python_env下启动Jupyter Notebook31
2.4.2创建一个.ipynb文件32
2.4.3试运行.ipynb文件内的Python 3程序33
2.5PyCharm使用简介34
2.5.1在虚拟环境python_env下启动PyCharm34
2.5.2基于虚拟环境python_env的Python 3.8解释器创建一个
.py文件35
2.5.3试运行.py文件内的Python 3程序35
2.6章末小结37
第2部分基础篇
第3章 Python编程基础41
3.1Python编程环境配置41
3.1.1基于命令行/终端的交互式编程环境41
3.1.2基于Web的交互式开发环境42
3.1.3集成式开发环境43
3.2Python基本语法44
3.2.1赋值44
3.2.2注释45
3.2.3缩进46
3.3Python数据类型46
3.4Python数据运算49
3.5Python流程控制53
3.5.1分支语句53
3.5.2循环控制55
3.6Python函数设计56
3.7Python面向对象编程57
3.8Python编程库（包）导入60
3.9Python编程综合实践62
3.10章末小结63
第4章 pandas数据分析64
4.1pandas环境配置65
4.1.1使用Anaconda Navigator搭建和配置环境66
4.1.2使用conda命令搭建和配置环境66
4.2pandas核心数据结构67
4.2.1Series68
4.2.2DataFrame69
4.3pandas读取/写入文件数据70
4.3.1读取/写入CSV文件数据70
4.3.2读取/写入JSON文件数据73
4.3.3读取/写入Excel文件数据76
4.4pandas数据分析的常用功能80
4.4.1添加数据80
4.4.2删除数据83
4.4.3查询/筛选数据84
4.4.4修改数据86
4.4.5数据统计87
4.4.6数据排序89
4.4.7函数应用90
4.5pandas数据合并92
4.6pandas数据清洗93
4.7pandas数据分组与聚合95
4.8章末小结97
第5章 Scikitlearn单机机器学习98
5.1Scikitlearn环境配置99
5.1.1使用Anaconda Navigator搭建和配置环境100
5.1.2使用conda命令搭建和配置环境100
5.2Scikitlearn无监督学习102
5.2.1降维学习与可视化102
5.2.2聚类算法113
5.3Scikitlearn监督学习模型121
5.3.1分类预测121
5.3.2数值回归141
5.4Scikitlearn半监督学习模型154
5.4.1自学习框架155
5.4.2标签传播算法157
5.5单机机器学习模型的常用优化技巧159
5.5.1交叉验证160
5.5.2特征工程162
5.5.3参数正则化170
5.5.4超参数寻优174
5.5.5并行加速训练176
5.6章末小结179
第3部分进阶篇
第6章 PyTorch/TensorFlow/PaddlePaddle深度学习185
6.1PyTorch/TensorFlow/PaddlePaddle环境配置187
6.2前馈神经网络191
6.2.1前馈神经网络的PyTorch实践192
6.2.2前馈神经网络的TensorFlow实践197
6.2.3前馈神经网络的PaddlePaddle实践199
6.3卷积神经网络202
6.3.1卷积神经网络的PyTorch实践204
6.3.2卷积神经网络的TensorFlow实践208
6.3.3卷积神经网络的PaddlePaddle实践211
6.4循环神经网络214
6.4.1循环神经网络的PyTorch实践216
6.4.2循环神经网络的TensorFlow实践220
6.4.3循环神经网络的PaddlePaddle实践222
6.5自动编码器226
6.5.1自动编码器的PyTorch实践227
6.5.2自动编码器的TensorFlow实践231
6.5.3自动编码器的PaddlePaddle实践234
6.6神经网络模型的常用优化技巧238
6.6.1随机失活238
6.6.2批量标准化249
6.7章末小结260
第7章 PySparkML分布式机器学习262
7.1PySpark环境配置264
7.1.1使用Anaconda Navigator搭建和配置环境264
7.1.2使用conda命令搭建和配置环境265
7.1.3安装JRE267
7.2PySpark分布式数据结构268
7.2.1RDD269
7.2.2DataFrame271
7.3PySpark分布式特征工程273
7.3.1特征抽取273
7.3.2特征转换279
7.4PySparkML分布式机器学习模型284
7.5分布式机器学习模型的常用优化技巧292
7.5.1留一验证293
7.5.2K折交叉验证295
7.6章末小结297
第4部分实践篇
第8章 Kaggle竞赛实践301
8.1泰坦尼克号罹难乘客预测302
8.1.1数据分析303
8.1.2数据预处理305
8.1.3模型设计与寻优306
8.1.4提交测试307
8.2Ames房产价值评估308
8.2.1数据分析309
8.2.2数据预处理315
8.2.3模型设计与寻优316
8.2.4提交测试317
8.3推特短文本分类318
8.3.1数据分析320
8.3.2数据预处理321
8.3.3模型设计与寻优322
8.3.4提交测试323
8.4CIFAR100图像识别324
8.4.1数据分析326
8.4.2数据预处理327
8.4.3模型设计与寻优328
8.4.4提交测试331
8.5章末小结333
第9章 Git代码管理334
9.1Git本地环境搭建335
9.1.1Windows下Git工具的安装与配置335
9.1.2macOS下Git工具的安装与配置336
9.1.3Ubuntu下Git工具的安装与配置336
9.2Git远程仓库配置337
9.2.1GitHub介绍337
9.2.2GitHub远程仓库的创建与配置338
9.2.3Gitee介绍339
9.2.4Gitee远程仓库的创建与配置339
9.3Git基本指令340
9.3.1克隆仓库340
9.3.2提交修改341
9.3.3远程推送343
9.4Git分支管理343
9.4.1创建分支344
9.4.2分支合并345
9.4.3合并冲突346
9.4.4删除分支347
9.5贡献Git项目348
9.5.1Fork项目348
9.5.2本地克隆、修改与推送349
9.5.3发起拉取请求349
9.6章末小结351
后记352
第1章简介篇1
1.1机器学习综述1
1.1.1任务3
1.1.2经验5
1.1.3性能5
1.2Python编程库8
1.2.1为什么使用Python8
1.2.2Python机器学习的优势9
1.2.3NumPy & SciPy10
1.2.4Matplotlib11
1.2.5Scikitlearn11
1.2.6Pandas11
1.2.7Anaconda12
1.3Python环境配置12
1.3.1Windows系统环境12
1.3.2Mac OS 系统环境17
1.4Python编程基础18
1.4.1Python基本语法19
1.4.2Python 数据类型20
1.4.3Python 数据运算22
1.4.4Python 流程控制26
1.4.5Python 函数（模块）设计28
1.4.6Python 编程库（包）的导入29
1.4.7Python 基础综合实践30
1.5章末小结33第2章基础篇34
2.1监督学习经典模型34
2.1.1分类学习35
2.1.2回归预测64
2.2无监督学习经典模型81
2.2.1数据聚类81
2.2.2特征降维91
2.3章末小结97
第3章进阶篇98
3.1模型实用技巧98
3.1.1特征提升99
3.1.2模型正则化111
3.1.3模型检验121
3.1.4超参数搜索122
3.2流行库/模型实践129
3.2.1自然语言处理包（NLTK）131
3.2.2词向量（Word2Vec）技术133
3.2.3XGBoost模型138
3.2.4Tensorflow框架140
3.3章末小结152
第4章实战篇153
4.1Kaggle平台简介153
4.2Titanic罹难乘客预测157
4.3IMDB影评得分估计165
4.4MNIST手写体数字图片识别174
4.5章末小结180
后记181
参考文献182