注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络网络与数据通信网络数据爬取与分析实务

网络数据爬取与分析实务

网络数据爬取与分析实务

定 价:¥68.00

作 者: 李周平
出版社: 上海交通大学出版社
丛编项:
标 签: 暂缺

购买这本书可以去


ISBN: 9787313200327 出版时间: 2018-09-01 包装: 平装
开本: 16开 页数: 字数:  

内容简介

  本书按照网络数据爬取、数据清洗与处理、数据存储、数据分析的逻辑脉络,介绍了数据科学的相关知识。 全书主要内容涉及理论、实战、工具三个层面。其中,理论层面主要介绍了网络爬虫,数据处理与存储,机器学习的相关概念、原理与算法;实战层面主要通过影评、二手房、招聘网站等实战项目,阐述了数据爬取、处理与存储的代码实现,并通过相关数据集的实例,介绍了机器学习算法的实现与效果评估;工具层面主要讲解了如何通过Python的Urllib、Request、BeautifulSoup、Pandas、Scikit-learn等第三方工具包实现数据的爬取、处理与分析,以及通过SQLite这一轻量级数据库工具实现数据的存储。

作者简介

  李周平 上海财经大学博士,网络与软件工程师,现任上海商学院信息与计算机学院教师。长期从事网络爬虫、数据挖掘、机器学习、自然语言处理、Python程序开发等方面的教学和培训工作,具有十余年的Python项目开发经验,获得多项软件专利。

图书目录

第1章 数据科学概述 

1.1什么是数据科学 

1.2数据分析师、数据工程师与数据科学家 

第2章Python语法基础 

2.1 Python的程序结构 

2.2 Python编码规范 

2.3 Python编程环境的搭建 

2.4 Python的数据结构 

2.5 Python控制语句 

习题 

第3章 使用Urllib库编写爬虫 

3.1 网络爬虫概述 

3.2 使用Urllib.request模块编写爬虫 

3.3 修改User-Agent属性模拟浏览器访问 

3.4 HTTP协议详解 

3.5 模拟HTTP-GET方法的爬虫 

3.6 模拟HTTP-POST方法的爬虫 

习题 

第4章 使用正则表达式提取数据 

4.1 正则表达式原理 

4.2 正则表达式语法 

4.3 re模块常用的函数 

4.4 正则表达式应用实例 

习题 

第5章 使用BeautifulSoup库提取数据 

5.1 BeautifulSoup包简介 

5.2 BeautifulSoup的信息提取 

5.3 BeautifulSoup的遍历 

习题 

第6章 爬虫项目实战 

6.1网易新闻中心爬虫 

6.2 通过Session模拟登录豆瓣 

6.3 链家二手房信息爬虫 

6.4爬取拉勾网JSON格式数据 

习题 

第7章 Pandas数据处理基础 

7.1数据处理概述 

7.2 Pandas数据结构 

7.3 DataFrame的基本操作 

7.4 DataFrame数据的连接 

7.4 Pandas数据输入输出 

习题 

第8章 Pandas数据处理常用方法 

8.1 分组统计与转换 

8.2 缺失值处理 

8.3 时间序列数据处理 

8.4 向量转换 

习题 

第9章 数据处理实战 

9.1二手房数据处理 

9.2 职位数据处理 

9.3 职位描述的文本信息处理 

习题 

第10章 SQLite数据库操作 

10.1 SQLite数据库简介 

10.2 Python读写SQLite 

10.3 Pandas读写SQLite 

习题 

第11章 机器学习概述 

11.1 认识机器学习 

11.2 机器学习的应用范围 

11.3 机器学习的算法 

11.4 Scikit-learn机器学xibao 

习题 

第12章 从线性回归到分类 

12.1线性回归算法 

12.2 逻辑回归分类算法 

习题 

第13章 分类模型及应用 

13.1 K近邻分类算法 

13.2 决策树分类算法 

13.3 随机森林分类算法 

习题 

第14章 分类模型的评估 

14.1训练与测试样本 

14.2 性能评价指标 

14.3分类阈值的调整 

习题 

参考文献 


本目录推荐