注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书教育/教材/教辅教材研究生/本科/专科教材大数据原理及实践

大数据原理及实践

大数据原理及实践

定 价:¥39.00

作 者: 张晓燕,王筱莉,李跃文,谢妍曦 主编
出版社: 上海财经大学出版社
丛编项:
标 签: 暂缺

购买这本书可以去


ISBN: 9787564239091 出版时间: 2023-03-01 包装:
开本: 页数: 字数:  

内容简介

  《大数据原理及实践》分为八章。首章介绍Hadoop生态系统及其发展历程。大家可以通过此章内容了解到Hadoop是一个开放的生态系统,里面有很多项目组成,包括数据采集类的项目、数据处理类的项目和数据可视化类的项目等;第二章介绍Hadoop的核心组件,包括HDFS、MapReduce和Yarn,通过此章的学习。大家可以了解到Hadoop三大核心组件的基本组成及运行原理;第三章介绍Hadoop集群环境的搭建。《大数据原理及实践》选用Cloudera版本(Cloudera's Distribution Including Apache Hadoop,CDH)作为集群安装,在介绍集群安装之前普及一些Linux常用的命令,为安装做技术铺垫;第四章主要介绍Hadoop生态系统中非常常用、非常实用又简单易用的Hive组件,介绍其原理及安装方法;第五章主要介绍Hive的使用,了解Hive中DDL和DML语法知识(通过前面五章的学习。大家可以独立搭建Hadoop集群,并上传文件到HDFS中,并且利用MapReduce或者Hive对数据文件进行统计分析);第六章进入Hadoop生态系统中内存计算的学习,选用Spark组件,着重介绍Spark的内存计算的原理及运行模式;第七章介绍Spark的编程及SparkSQL的使用。通过这两部分的学习,大家可以完成Spark的安装部署,了解Spark的适用场合,学会Spark编程和SparkSQL对数据进行分析;第八章为SparkMLLib的内容。通过这一章的学习,大家可以利用SparkMLLib完成较复杂的一些数据分析,例如分类、聚类和关联分析等。通过《大数据原理及实践》的学习,大家可以从零基础开始了解大数据平台,能够完成利用相关组件进行简单或复杂的数据分析的任务。

作者简介

暂缺《大数据原理及实践》作者简介

图书目录

第1章 Hadoop生态系统简介/001

1.1 大数据发展/001

1.2 Hadoop平台介绍/006

1.3 相关的公司/009

1.4 Hadoop生态系统/011

第2章 Hadoop核心组件及其基本原理/014

2.1 HDFS基本原理/014

2.2 MapReduce分布式计算框架/022

2.3 Yarn介绍/029

第3章 Hadoop环境搭建/033

3.1 Linux基础/033

3.2 Linux的文件系统结构/036

3.3 文件类型/038

3.4 Linux基本操作命令/039

3.5 Linux下常用的工具软件/047

3.6 Hadoop环境搭建/051

第4章 Hive基本原理及安装部署/063

4.1 Hive基本原理/063

4.2 Hive的数据存储/064

4.3 Hive的安装部署/066

第5章 Hive的基本操作/070

5.1 Hive的DDL(data define language)操作/070

5.2 Hive的DML(data managed language)操作/076

5.3 Hive shell 参数/093

第6章 Spark基础知识/095

6.1 Spark原理/095

6.2 Spark架构及生态/098

6.3 Spark运行流程及特点/100

6.4 Spark运行模式/108

第7章 Spark RDD编程/114

7.1 RDD设计与运行原理/114

7.2 RDD基本操作/122

7.3 Spark SQL简介/132

第8章 基于MLLIB机器学习/140

8.1 概述/140

8.2 Spark分类和预测/142

8.3 决策树算法/145

8.4 朴素贝叶斯算法/152

8.5 回归分析与预测技术/157

8.6 聚类分析/167

大数据原理及实践

8.7 k-means聚类算法简介/172

8.8 DBSCAN聚类算法简介/179

8.9 关联规则分析简介/185

8.10 Apriori算法和FP Tree算法简介/188

参考文献/200


本目录推荐