项目1
数据采集与预处理准备 1
学习目标 1
项目描述 1
任务1 认识数据采集技术,熟悉数据采集平台 1
任务描述 1
任务目标 2
知识准备 2
任务实施 10
任务2 认识数据预处理技术 13
任务描述 13
任务目标 13
知识准备 13
任务实施 19
项目2
网络爬虫实践 24
学习目标 24
项目描述 24
任务1 使用urllib爬取北京公交线路信息 24
任务描述 24
任务目标 25
知识准备 25
任务实施 48
任务2 使用Selenium爬取淘宝网站信息 58
任务描述 58
任务目标 58
知识准备 58
任务实施 69
任务3 使用Scrapy爬取北京公交信息 75
任务描述 75
任务目标 75
知识准备 75
任务实施 78
任务4 创新与拓展 86
任务描述 86
任务目标 86
项目3
日志数据采集实践 87
学习目标 87
项目描述 87
任务1 Flume的安装和配置 87
任务描述 87
任务目标 88
知识准备 88
任务实施 95
任务2 Flume采集数据上传到集群 105
任务描述 105
任务目标 106
知识准备 106
任务实施 110
任务3 创新与拓展 118
任务描述 118
任务目标 118
项目4
数据预处理实践 119
学习目标 119
项目描述 119
任务1 用Pig进行数据预处理 119
任务描述 119
任务目标 120
知识准备 120
任务实施 134
任务2 用Kettle进行数据预处理 137
任务描述 137
任务目标 137
知识准备 137
任务实施 139
任务3 用Pandas进行数据预处理 150
任务描述 150
任务目标 150
知识准备 150
任务实施 153
任务4 用OpenRefine进行数据预处理 155
任务描述 155
任务目标 155
知识准备 155
任务实施 157
任务5 用Flume Interceptor对日志信息进行数据预处理 162
任务描述 162
任务目标 163
知识准备 163
任务实施 167
任务6 创新与拓展 176
任务描述 176
任务目标 176