网络数据爬取与分析实务

定　价：¥68.00

作　者：	李周平
出版社：	上海交通大学出版社
丛编项：
标　签：	暂缺

购买这本书可以去

ISBN：	9787313200327	出版时间：	2018-09-01	包装：	平装
开本：	16开	页数：		字数：

内容简介

　　本书按照网络数据爬取、数据清洗与处理、数据存储、数据分析的逻辑脉络，介绍了数据科学的相关知识。全书主要内容涉及理论、实战、工具三个层面。其中，理论层面主要介绍了网络爬虫，数据处理与存储，机器学习的相关概念、原理与算法；实战层面主要通过影评、二手房、招聘网站等实战项目，阐述了数据爬取、处理与存储的代码实现，并通过相关数据集的实例，介绍了机器学习算法的实现与效果评估；工具层面主要讲解了如何通过Python的Urllib、Request、BeautifulSoup、Pandas、Scikit-learn等第三方工具包实现数据的爬取、处理与分析，以及通过SQLite这一轻量级数据库工具实现数据的存储。

作者简介

　　李周平上海财经大学博士，网络与软件工程师，现任上海商学院信息与计算机学院教师。长期从事网络爬虫、数据挖掘、机器学习、自然语言处理、Python程序开发等方面的教学和培训工作，具有十余年的Python项目开发经验，获得多项软件专利。

图书目录

第1章数据科学概述

1.1什么是数据科学

1.2数据分析师、数据工程师与数据科学家

第2章Python语法基础

2.1 Python的程序结构

2.2 Python编码规范

2.3 Python编程环境的搭建

2.4 Python的数据结构

2.5 Python控制语句

习题

第3章使用Urllib库编写爬虫

3.1 网络爬虫概述

3.2 使用Urllib.request模块编写爬虫

3.3 修改User-Agent属性模拟浏览器访问

3.4 HTTP协议详解

3.5 模拟HTTP-GET方法的爬虫

3.6 模拟HTTP-POST方法的爬虫

习题

第4章使用正则表达式提取数据

4.1 正则表达式原理

4.2 正则表达式语法

4.3 re模块常用的函数

4.4 正则表达式应用实例

习题

第5章使用BeautifulSoup库提取数据

5.1 BeautifulSoup包简介

5.2 BeautifulSoup的信息提取

5.3 BeautifulSoup的遍历

习题

第6章爬虫项目实战

6.1网易新闻中心爬虫

6.2 通过Session模拟登录豆瓣

6.3 链家二手房信息爬虫

6.4爬取拉勾网JSON格式数据

习题

第7章 Pandas数据处理基础

7.1数据处理概述

7.2 Pandas数据结构

7.3 DataFrame的基本操作

7.4 DataFrame数据的连接

7.4 Pandas数据输入输出

习题

第8章 Pandas数据处理常用方法

8.1 分组统计与转换

8.2 缺失值处理

8.3 时间序列数据处理

8.4 向量转换

习题

第9章数据处理实战

9.1二手房数据处理

9.2 职位数据处理

9.3 职位描述的文本信息处理

习题

第10章 SQLite数据库操作

10.1 SQLite数据库简介

10.2 Python读写SQLite

10.3 Pandas读写SQLite

习题

第11章机器学习概述

11.1 认识机器学习

11.2 机器学习的应用范围

11.3 机器学习的算法

11.4 Scikit-learn机器学xibao

习题

第12章从线性回归到分类

12.1线性回归算法

12.2 逻辑回归分类算法

习题

第13章分类模型及应用

13.1 K近邻分类算法

13.2 决策树分类算法

13.3 随机森林分类算法

习题

第14章分类模型的评估

14.1训练与测试样本

14.2 性能评价指标

14.3分类阈值的调整

习题

参考文献

网络数据爬取与分析实务

购买这本书可以去

内容简介

作者简介

图书目录

本目录推荐

信息技术

信息技术基础

网络安装与综合布线

计算机基础实践与创新

计算机网络技术基础（第2版）

计算机视觉应用开发

物联网基础与应用（第2版）

网络攻击与防护

大数据技术与应用研究

计算机网络技术基础