Python爬虫与反爬虫开发从入门到精通

定　价：¥99.00

作　者：	刘延林著
出版社：	北京大学出版社
丛编项：
标　签：	暂缺

购买这本书可以去

ISBN：	9787301322697	出版时间：	2021-08-01	包装：	平装
开本：	16开	页数：	388	字数：

内容简介

　　随着网络技术的迅速发展，如何有效地提取并利用信息，以及如何有效地防止信息被爬取，已成为一个巨大的挑战。《Python爬虫与反爬虫开发从入门到精通》从零开始系统地介绍了Python网络爬虫与反爬虫的开发与实战技能，全书共分为4篇，具体内容安排如下。第1篇：基础篇（第1～3章）。系统地讲解了Python爬虫与反爬虫开发环境的搭建、爬虫与反爬虫通用基础知识、Python编程基础。第2篇：爬虫篇（第4～8章）。这分讲解了网络爬虫的相关知识与技能，主要包括网络爬虫快速入门、XPath匹配网页数据、re正则匹配数据、WebSocket数据抓取、Scrapy爬虫框架应用与开发等。第3篇：反爬虫篇（第9～16章）。这分讲解了网络反爬虫的相关知识与技能，主要包括爬虫与反爬虫的区别与认识、反爬—Header信息校验、反爬—IP限制、反爬—动态渲染页面、反爬—文本混淆、反爬—特征识别、反爬—验证码识别、反爬—APP数据抓取等。第4篇：实战篇（第17章）。本篇主要列举了4个案例，综合讲解Python爬虫与反爬虫项目的实战应用。《Python爬虫与反爬虫开发从入门到精通》从零基础开始讲解，系统全面，案例丰富，注重实战，既适合Python程序员和爬虫爱好者阅学习，也可以作为广大职业院校相关专业的材或参考用书。

作者简介

　　刘延林，云镜团队创始人，拥有多年网络爬虫开发经验，著有《Python网络爬虫开发从入门到精通》，擅长Python网络爬虫、Web、数据挖掘与分析、网络安全、产品研发等领域。

图书目录

第1篇基础篇
第1章爬虫与反爬虫开发环境搭建　/2
1.1　Python 3环境搭建　/3
1.2　PyCharm的安装与基本使用　/7
1.3　Tesseract-OCR　/16
1.4　mitmproxy　/18
1.5　JDK 1.8　/22
本章小结　/24
第2章　爬虫与反爬虫通用基础知识　/25
2.1　网页基础　/26
2.2　网络传输协议　/28
2.3　Session和Cookies　/31
2.4　Nginx服务器　/34
2.5　代理IP　/36
2.6　HTTP接口概念　/40
2.7　手问答　/40
本章小结　/41
第3章　Python编程基础　/42
3.1　Python的基础语法　/43
3.2　基本数据类型　/49
3.3　流程控制　/55
3.4　函数　/60
3.5　文件操作　/61
3.6　面向对象　/64
3.7　多线程　/68
3.8　手实训　/70
3.9　手问答　/71
本章小结　/72
第2篇　爬虫篇
第4章　网络爬虫快速入门　/74
4.1　爬虫的基本结构及工作流程　/75
4.2　urllib网络请求库　/75
4.3　requests网络请求库　/82
4.4　urllib3网络请求库　/86
4.5　Postman接口测试工具　/90
4.6　手实训　/95
4.7　手问答　/95
本章小结　/96
第5章　XPath匹配网页数据　/97
5.1　安装XPath　/98
5.2　XPath的基础语法　/98
5.3　在Python中使用XPath匹配数据　/99
5.4　XPath表达式技巧　/103
5.5　扩展补充知识点　/105
5.6　手实训　/107
5.7　手问答　/109
本章小结　/109
第6章　re正则匹配数据　/110
6.1　re.compile函数　/111
6.2　re.match函数　/111
6.3　re.search函数　/113
6.4　re.match与re.search的区别　/114
6.5　检索和替换　/114
6.6　findall函数　/115
6.7　常见正则表达式写法　/116
6.8　手实训　/117
6.9　手问答　/119
本章小结　/120
第7章　WebSocket数据抓取　/121
7.1　WebSocket通信原理　/122
7.2　使用aioWebSocket获取数据　/122
7.3　手实训　/129
7.4　手问答　/131
本章小结　/131
第8章　Scrapy爬虫框架应用与开发　/132
8.1　Scrapy框架的基本架构　/133
8.2　安装Scrapy　/134
8.3　创建项目　/135
8.4　定义Item　/135
8.5　编写个Spider　/136
8.6　运行爬虫　/137
8.7　提取Item　/137
8.8　在Shell中尝试Selector选择器　/138
8.9　提取数据　/139
8.10　使用Item　/140
8.11　Item Pipeline　/141
8.12　将Item写入JSON文件　/142
8.13　手实训　/143
8.14　手问答　/146
本章小结　/146
第3篇　反爬虫篇
第9章　爬虫与反爬虫　/148
9.1　爬虫知识的回顾与总结　/149
9.2　反爬虫的概念与定义　/154
本章小结　/155
第10章　反爬—Header信息校验　/156
10.1　User-Agent　/157
10.2　Cookie校验　/162
10.3　Referer校验　/165
10.4　签名校验　/166
10.5　手实训　/170
10.6　手问答　/176
本章小结　/176
第11章　反爬—IP限制　/177
11.1　代理设置　/178
11.2　代理池构建　/179
11.3　搭建自己的代理服务器　/183
11.4　使用Nginx实现封禁IP　/194
11.5　手问答　/195
本章小结　/196
第12章　反爬—动态渲染页面　/197
12.1　动态渲染案例介绍　/198
12.2　常见应对动态渲染页面的解决办法　/201
12.3　使用Selenium爬取动态渲染页面　/201
12.4　获取浏览器Network请求和响应　/218
12.5　手实训　/222
12.6　手问答　/224
本章小结　/225
第13章　反爬—文本混淆　/226
13.1　图片伪装反爬　/227
13.2　CSS偏移反爬　/231
13.3　编码映射反爬　/238
13.4　字体反爬　/242
13.5　手实训　/248
13.6　手问答　/252
本章小结　/252
第14章　反爬—特征识别　/253
14.1　浏览器指纹　/254
14.2　WebDriver驱动识别　/255
14.3　使用mitmproxy　/262
14.4　网页精灵　/269
14.5　手实训　/275
14.6　手问答　/277
本章小结　/277
第15章　反爬—验证码识别　/278
15.1　普通图形验证码　/279
15.2　滑动验证码　/281
15.3　滑动拼图验证码　/285
15.4　手实训　/292
15.5　手问答　/294
本章小结　/295
第16章　反爬—APP数据抓取　/296
16.1　APP的抓包分析　/297
16.2　Appium自动化　/310
16.3　APK安装包反编译　/324
16.4　APK反编译知识补充　/327
16.5　手实训　/327
16.6　手问答　/332
本章小结　/332
第4篇　实战篇
第17章　项目实战　/334
17.1　土地市场网——地块公示　/335
17.2　纽约工商数据采集　/348
17.3　携程旅行火车票票价数据采集　/356
17.4　智联招聘数据采集　/361
附录A　爬虫法律法规　/368
附录B　实验环境的搭建方法及说明　/371
附录C　Python常见面试题精选　/375