注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络软件与程序设计Python爬虫与反爬虫开发从入门到精通

Python爬虫与反爬虫开发从入门到精通

Python爬虫与反爬虫开发从入门到精通

定 价:¥99.00

作 者: 刘延林 著
出版社: 北京大学出版社
丛编项:
标 签: 暂缺

购买这本书可以去


ISBN: 9787301322697 出版时间: 2021-08-01 包装: 平装
开本: 16开 页数: 388 字数:  

内容简介

  随着网络技术的迅速发展,如何有效地提取并利用信息,以及如何有效地防止信息被爬取,已成为一个巨大的挑战。《Python爬虫与反爬虫开发从入门到精通》从零开始系统地介绍了Python网络爬虫与反爬虫的开发与实战技能,全书共分为4篇,具体内容安排如下。第1篇:基础篇(第1~3章)。系统地讲解了Python爬虫与反爬虫开发环境的搭建、爬虫与反爬虫通用基础知识、Python编程基础。第2篇:爬虫篇(第4~8章)。这分讲解了网络爬虫的相关知识与技能,主要包括网络爬虫快速入门、XPath匹配网页数据、re正则匹配数据、WebSocket数据抓取、Scrapy爬虫框架应用与开发等。第3篇:反爬虫篇(第9~16章)。这分讲解了网络反爬虫的相关知识与技能,主要包括爬虫与反爬虫的区别与认识、反爬—Header信息校验、反爬—IP限制、反爬—动态渲染页面、反爬—文本混淆、反爬—特征识别、反爬—验证码识别、反爬—APP数据抓取等。第4篇:实战篇(第17章)。本篇主要列举了4个案例,综合讲解Python爬虫与反爬虫项目的实战应用。《Python爬虫与反爬虫开发从入门到精通》从零基础开始讲解,系统全面,案例丰富,注重实战,既适合Python程序员和爬虫爱好者阅学习,也可以作为广大职业院校相关专业的材或参考用书。

作者简介

  刘延林,云镜团队创始人,拥有多年网络爬虫开发经验,著有《Python网络爬虫开发从入门到精通》,擅长Python网络爬虫、Web、数据挖掘与分析、网络安全、产品研发等领域。

图书目录

第1篇 基础篇
第1章 爬虫与反爬虫开发环境搭建 /2
1.1 Python 3环境搭建 /3
1.2 PyCharm的安装与基本使用 /7
1.3 Tesseract-OCR /16
1.4 mitmproxy /18
1.5 JDK 1.8 /22
本章小结 /24
第2章 爬虫与反爬虫通用基础知识 /25
2.1 网页基础 /26
2.2 网络传输协议 /28
2.3 Session和Cookies /31
2.4 Nginx服务器 /34
2.5 代理IP /36
2.6 HTTP接口概念 /40
2.7 手问答 /40
本章小结 /41
第3章 Python编程基础 /42
3.1 Python的基础语法 /43
3.2 基本数据类型 /49
3.3 流程控制 /55
3.4 函数 /60
3.5 文件操作 /61
3.6 面向对象 /64
3.7 多线程 /68
3.8 手实训 /70
3.9 手问答 /71
本章小结 /72
第2篇 爬虫篇
第4章 网络爬虫快速入门 /74
4.1 爬虫的基本结构及工作流程 /75
4.2 urllib网络请求库 /75
4.3 requests网络请求库 /82
4.4 urllib3网络请求库 /86
4.5 Postman接口测试工具 /90
4.6 手实训 /95
4.7 手问答 /95
本章小结 /96
第5章 XPath匹配网页数据 /97
5.1 安装XPath /98
5.2 XPath的基础语法 /98
5.3 在Python中使用XPath匹配数据 /99
5.4 XPath表达式技巧 /103
5.5 扩展补充知识点 /105
5.6 手实训 /107
5.7 手问答 /109
本章小结 /109
第6章 re正则匹配数据 /110
6.1 re.compile函数 /111
6.2 re.match函数 /111
6.3 re.search函数 /113
6.4 re.match与re.search的区别 /114
6.5 检索和替换 /114
6.6 findall函数 /115
6.7 常见正则表达式写法 /116
6.8 手实训 /117
6.9 手问答 /119
本章小结 /120
第7章 WebSocket数据抓取 /121
7.1 WebSocket通信原理 /122
7.2 使用aioWebSocket获取数据 /122
7.3 手实训 /129
7.4 手问答 /131
本章小结 /131
第8章 Scrapy爬虫框架应用与开发 /132
8.1 Scrapy框架的基本架构 /133
8.2 安装Scrapy /134
8.3 创建项目 /135
8.4 定义Item /135
8.5 编写个Spider /136
8.6 运行爬虫 /137
8.7 提取Item /137
8.8 在Shell中尝试Selector选择器 /138
8.9 提取数据 /139
8.10 使用Item /140
8.11 Item Pipeline /141
8.12 将Item写入JSON文件 /142
8.13 手实训 /143
8.14 手问答 /146
本章小结 /146
第3篇 反爬虫篇
第9章 爬虫与反爬虫 /148
9.1 爬虫知识的回顾与总结 /149
9.2 反爬虫的概念与定义 /154
本章小结 /155
第10章 反爬—Header信息校验 /156
10.1 User-Agent /157
10.2 Cookie校验 /162
10.3 Referer校验 /165
10.4 签名校验 /166
10.5 手实训 /170
10.6 手问答 /176
本章小结 /176
第11章 反爬—IP限制 /177
11.1 代理设置 /178
11.2 代理池构建 /179
11.3 搭建自己的代理服务器 /183
11.4 使用Nginx实现封禁IP /194
11.5 手问答 /195
本章小结 /196
第12章 反爬—动态渲染页面 /197
12.1 动态渲染案例介绍 /198
12.2 常见应对动态渲染页面的解决办法 /201
12.3 使用Selenium爬取动态渲染页面 /201
12.4 获取浏览器Network请求和响应 /218
12.5 手实训 /222
12.6 手问答 /224
本章小结 /225
第13章 反爬—文本混淆 /226
13.1 图片伪装反爬 /227
13.2 CSS偏移反爬 /231
13.3 编码映射反爬 /238
13.4 字体反爬 /242
13.5 手实训 /248
13.6 手问答 /252
本章小结 /252
第14章 反爬—特征识别 /253
14.1 浏览器指纹 /254
14.2 WebDriver驱动识别 /255
14.3 使用mitmproxy /262
14.4 网页精灵 /269
14.5 手实训 /275
14.6 手问答 /277
本章小结 /277
第15章 反爬—验证码识别 /278
15.1 普通图形验证码 /279
15.2 滑动验证码 /281
15.3 滑动拼图验证码 /285
15.4 手实训 /292
15.5 手问答 /294
本章小结 /295
第16章 反爬—APP数据抓取 /296
16.1 APP的抓包分析 /297
16.2 Appium自动化 /310
16.3 APK安装包反编译 /324
16.4 APK反编译知识补充 /327
16.5 手实训 /327
16.6 手问答 /332
本章小结 /332
第4篇 实战篇
第17章 项目实战 /334
17.1 土地市场网——地块公示 /335
17.2 纽约工商数据采集 /348
17.3 携程旅行火车票票价数据采集 /356
17.4 智联招聘数据采集 /361
附录A 爬虫法律法规 /368
附录B 实验环境的搭建方法及说明 /371
附录C Python常见面试题精选 /375

本目录推荐