注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络数据库数据清洗

数据清洗

数据清洗

定 价:¥49.90

作 者: 黄源,涂旭东,罗少甫 著
出版社: 机械工业出版社
丛编项: 高等职业教育系列教材
标 签: 暂缺

购买这本书可以去


ISBN: 9787111657156 出版时间: 2020-07-01 包装: 平装
开本: 16开 页数: 236 字数:  

内容简介

  《数据清洗》主要介绍数据清洗技术的基本概念与应用。全书共有8章,分别讲述了数据清洗基础、数据清洗方法、文件类型、数据采集与抽取、Excel数据清洗与转换、ETL数据清洗与转换、Python数据清洗、R语言数据清洗。《数据清洗》将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用大数据清洗的相关技术。针对书中重要的、核心的知识点,提供了较多的练习,帮助读者达到熟练应用的目的。《数据清洗》可作为高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的专业课教材,也可作为大数据爱好者的参考书。

作者简介

  黄源,重庆航天职业技术学院副教授,参加工作以来,一直从事计算机课程的教学与科研,公开发表科研,教改论文多篇,并于2013年获得副教授职称。积极参加学校的精品课程建设与微课改革,出版专著3部,以前参编的北大出版社《网页设计教程与实训》曾获教材一等奖。

图书目录

目 录

前言
第1章 数据清洗基础
11 数据清洗概述
111 数据清洗的定义
112 数据清洗的对象
113 数据清洗的原理
114 数据清洗的评估
115 数据清洗的框架模型
116 数据清洗研究与应用展望
117 数据清洗的行业发展
12 数据标准化
121 数据标准化简介
122 数据标准化方法
123 数据标准化的实例
13 数据清洗的常用工具
14 实训1 安装和运行Kettle
15 实训2 安装和运行OpenRefine
16 实训3 安装和运行Python 3
17 小结
习题1
第2章 数据清洗方法
21 数据质量
211 数据质量的定义
212 数据质量中的常见术语
22 数据预处理
221 数据预处理简介
222 数据预处理方法
23 数据清洗方法
231 数据缺失值的处理方法
232 噪声数据的处理方法
233 冗余数据的处理方法
234 数据格式与内容的处理方法
24 数据清洗中的统计学基础
25 实训1 找出离群点
26 实训2 找出统计对象
27 实训3 找出数据清洗的步骤
28 实训4 找出异常数据
29 小结
习题2
第3章 文件类型
31 文件格式
311 文件格式概述
312 Windows中常见的文件格式
32 数据类型与字符编码
321 数据类型概述
322 字符编码
323 用Python读取文件
324 数据转换
33 数据转换的实现
331 用Python生成与读取CSV文件
332 用Python读取与转换JSON文件
34 实训1 将XML文件转换为JSON文件
35 实训2 将JSON文件转换为CSV文件
36 小结
习题3
第4章 数据采集与抽取
41 数据采集概述
411 了解数据采集
412 日志数据采集与处理的常见方法
413 数据采集平台
414 数据采集工具
42 网页数据采集与实现
421 网络爬虫概述
422 网页数据采集的实现
43 数据抽取
431 数据抽取概述
432 文本数据抽取
433 网页数据抽取
44 实训1 使用Kettle抽取本地XML文件
45 实训2 使用Kettle抽取CSV数据并输出为文本文件
46 小结
习题4
第5章 Excel数据清洗与转换
51 Excel数据清洗概述
511 Excel简介
512 Excel数据清洗与转换方法
52 Excel数据清洗与转换的实现
521 常用数据分析函数介绍
522 删除重复行
523 文本查找和替换
524 数据替换
525 字符串截取
526 字母大小写转换
527 删除空格和非打印字符
528 数字和数字符号的转换
529 日期和时间处理
5210 合并和拆分列
5211 数据的转置
5212 数据查询和引用
53 实训1 清洗简单数据
54 实训2 清洗复杂数据
55 小结
习题5
第6章 ETL数据清洗与转换
61 数据仓库与ETL
611 数据仓库
612 ETL概述
62 Kettle数据清洗与转换基础
621 Kettle数据清洗
622 Kettle数据转换
63 Kettle数据仓库高级应用
64 实训1 在Kettle中识别流的最后一行并写入日志
65 实训2 在Kettle中用正则表达式清洗数据
66 实训3 使用Kettle过滤数据表
67 实训4 使用Kettle生成随机数并相加
68 小结
习题6
第7章 Python数据清洗
71 Python数据清洗基础
711 Python语言基础
712 Python数据清洗所用库
72 数据读写、选择、整理和描述
721 从CSV文件读取数据
722 写入数据到CSV文件
723 数据整理和描述
73 数据分组、分割、合并和变形
731 数据分组
732 数据分割
733 数据合并
734 数据变形
74 缺失值、异常值和重复值处理
741 缺失值处理
742 异常值检测和过滤
743 移除重复数据
75 时间序列处理
751 Python的日期与时间工具
752 Pandas时间序列数据结构
76 字符串处理
761 Python字符串方法列表
762 Python正则表达式
763 Pandas的字符串方法
77 实训1 清洗企业员工信息
78 实训2 清洗在校生饮酒消费数据
79 小结
习题7
第8章 R语言数据清洗
81 R语言简介
82 R语言基础
821 R语言运算符号
822 R语言数据类型
83 R语言datatable数据包
831 datatable数据包介绍
832 创建datatable对象

本目录推荐