注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络家庭与办公软件实战Hadoop 2.0:从云计算到大数据(第二版)

实战Hadoop 2.0:从云计算到大数据(第二版)

实战Hadoop 2.0:从云计算到大数据(第二版)

定 价:¥79.00

作 者: 叶晓江
出版社: 电子工业出版社
丛编项:
标 签: 计算机/网络 计算机教材

购买这本书可以去


ISBN: 9787121285646 出版时间: 2016-06-01 包装: 平塑勒
开本: 页数: 512 字数:  

内容简介

  书是刘鹏教授主编的国内第一本Hadoop编程书籍《实战Hadoop》的第二版。Hadoop堪称业界最经典的开源云计算和大数据平台软件。本书系统介绍了Hadoop 2.0生态圈的核心和扩展组件,包括:管理工具Ambari、分布式文件系统HDFS、分布式资源管理器YARN、分布式并行处理MapReduce、内存型计算框架Spark、数据流实时处理系统Storm、分布式锁服务ZooKeeper、分布式数据库HBase、数据仓库工具Hive,以及Pig、Oozie、Flume、Mahout等。

作者简介

  刘鹏,清华大学博士,解放军理工大学教授、学科带头人,中国云计算专家委员会委员。主要研究方向为信息网格和云计算,完成科研课题18项,发表论文70余篇,获部级科技进步奖6项。曾夺得国际计算机排序比赛冠军,并二次夺得全国高校科技比赛高奖,获“全军十大学习成才标兵”、“南京十大杰出青年”和“清华大学学术新秀”等称号。2002年首倡的“网格计算池”和2003年研发的“反垃圾邮件网格”分别为云计算和云安全的前身。创办了知名的中国网格和中国云计算网站。

图书目录

目 录|第1章| 大数据组件概述 11.1 Google大数据组件 21.2 Apache大数据组件 61.2.1 Hadoop核心组件 71.2.2 基于MR的数据分析组件 101.2.3 数据库组件 161.2.4 BSP组件 191.2.5 基于YARN框架组件 201.2.6 基于YARN的编程类库组件 241.2.7 搜索引擎组件 251.2.8 工作流组件 261.2.9 数据流组件 271.2.10 序列化和持久化组件 291.2.11 调试工具 301.2.12 安全性组件 311.2.13 兼容性组件 331.2.14 集群部署与管理组件 33习题 34参考文献 35|第2章| 大数据集群 392.1 大数据集群简介 402.2 大数据集群bigCstor 452.3 我的大数据集群littleCstor 482.4 小结 52习题 52参考文献 53|第3章| 集群管理工具Ambari 553.1 Ambari简介 563.2 使用Ambari部署HDP 593.3 使用Ambari搭建littleCstor 623.3.1 相关约定 623.3.2 制定部署规划 633.3.3 搭建prelittleCstor 643.3.4 本地建仓 723.3.5 部署AmbariServer 773.3.6 搭建littleCstor 833.3.7 小结 1053.4 使用Ambari管理littleCstor 1103.5 小结 111习题 111参考文献 111|第4章| 分布式文件系统HDFS 1134.1 分布式存储引例 1144.1.1 问题描述 1144.1.2 常规解决方案 1154.1.3 分布式解决方案 1174.2 HDFS简介 1244.2.1 HDFS逻辑架构 1244.2.2 HDFS物理拓扑 1294.2.3 HDFS部署 1334.2.4 HDFS其他概念[9] 1354.3 HDFS接口 1384.4 实战HDFS Shell 1404.4.1 HDFS文件级命令集 1414.4.2 HDFS系统级命令集 1434.5 实战WebHDFS 1494.5.1 WebHDFS简介 1494.5.2 WebHDFS示例 1514.6 实战HDFS JAVA API 1564.6.1 搭建开发环境 1564.6.2 常规操作示例 1584.7 实战HDFS大项目:用HDFS存储海量视频数据 1634.7.1 应用场景 1634.7.2 设计实现 164习题 166参考文献 166 |第5章| 分布式资源管理器YARN 1695.1 分布式资源管理器引例 1705.1.1 分布式资源管理器简介 1705.1.2 分布式资源管理器架构 1735.2 YARN简介 1775.2.1 基础概念 1775.2.2 物理拓扑 1795.2.3 体系架构 1805.2.4 集群部署 1905.3 YARN接口 1925.4 实战YARN Shell 1945.4.1 系统级命令 1955.4.2 程序级命令 1975.4.3 其他辅助命令 1995.5 实战YARN编程 1995.5.1 常见并行化范式 1995.5.2 YARN编程步骤 2055.6 实战YARN编程之DistributedShell 2135.6.1 DistributedShell简介 2135.6.2 编写DistributedShell 2145.7 实战YARN编程之三大范式 2215.7.1 DistributedShell 2225.7.2 MapReduce 2225.7.3 Giraph 223习题 224参考文献 224|第6章| 分布式并行处理MapReduce 2256.1 并行化范式M-S-R引例 2266.1.1 问题描述 2266.1.2 常规解决方案 2276.1.3 分布式解决方案 2286.1.4 小结 2346.2 MapReduce简介[1] 2346.2.1 基本概念 2356.2.2 编程模型 2376.2.3 集群部署 2396.2.4 体系架构 2416.2.5 执行过程 2456.3 MapReduce接口 2476.4 实战MapReduce Shell 2506.5 实战MapReduce编程 2536.6 实战MapReduce编程之WordCount[3] 2566.6.1 WordCount代码分析 2566.6.2 WordCount处理过程 2606.7 实战MapReduce编程之SecondarySort 2616.8 实战MapReduce编程之倒排索引 2656.8.1 简介 2656.8.2 分析与设计 2666.8.3 倒排索引完整源码 2696.9 实战MapReduce之性能优化 271习题 280参考文献 280|第7章| 分布式锁服务ZooKeeper 2817.1 ZooKeeper简介 2827.1.1 ZooKeeper应用场景 2827.1.2 ZooKeeper体系架构[3] 2857.1.3 ZooKeeper服务模型 2877.1.4 ZooKeeper部署 2897.2 ZooKeeper接口 2927.2.1 接口汇总 2927.2.2 实战ZooKeeper Shell 2927.3 实战ZooKeeper编程 2947.4 实战ZooKeeper之进程通信 2967.5 实战ZooKeeper之进程调度系统 2977.5.1 设计方案 2977.5.2 设计实现 2977.6 实战ZooKeeper之实现NameNode自动切换 3037.6.1 设计思想 3047.6.2 详细设计 3047.6.3 编码 3057.6.4 实战总结 310习题 311参考文献 311|第8章| 分布式数据库HBase 3138.1 HBase简介 3148.1.1 体系架构 3148.1.2 数据模型 3208.1.3 集群部署[21] 3218.2 HBase接口 3268.3 实战HBase Shell 3278.4 实战HBase API 3298.5 实战HBase之综例 3308.6 实战HBase之使用MapReduce构建索引 3328.6.1 索引表蓝图 3328.6.2 HBase和MapReduce 3338.6.3 实现索引 334习题 336参考文献 337|第9章| 内存型计算框架Spark 3399.1 Spark简介 3409.1.1 基础概念 3409.1.2 体系架构 3469.1.3 集群部署 3589.1.4 计算模型 3669.1.5 工作机制 3749.1.6 其他特性 3759.2 Spark接口 3779.3 实战Spark Shell 3799.3.1 集群管理 3799.3.2 任务管理 3819.4 实战Spark编程之RDD 3839.4.1 RDD属性 3839.4.2 并行化证明RDD、调试RDD 3869.4.3 RDD操作 3899.5 实战Spark之WordCount[3] 3969.6 实战Spark之MLLib 397习题 398参考文献 398 |第10章| 数据流实时处理系统Storm 39910.1 Storm简介 40010.1.1 与Hadoop的关系 40010.1.2 基础概念 40210.1.3 体系架构 40810.1.4 集群部署[4] 41210.1.5 计算模型 42110.2 Storm接口 45010.3 实战Storm Shell 45210.4 实战Storm API之RollingTopWords 455习题 457参考文献 458|第11章| 数据仓库工具Hive 45911.1 Hive简介 46011.1.1 工作原理 46011.1.2 体系架构 46111.1.3 计算模型 46211.1.4 集群部署 46311.2 Hive接口 46711.2.1 接口汇总 46711.2.2 实战Hive Web 46711.3 实战Hive Shell 46811.3.1 DDL Operations 46811.3.2 DML Operations 46911.3.3 SQL Operations 47011.4 实战Hive之复杂语句 47111.5 实战Hive之综合示例 47311.6 实战Hive API接口 47411.6.1 UDF编程示例[3] 47411.6.2 UDAF编程示例 475习题 477参考文献 477|第12章| 其他常见大数据组件 47912.1 Pig 48012.1.1 Pig简介 48012.1.2 实战Pig 48312.2 Oozie 48312.2.1 Oozie简介 48312.2.2 实战Oozie[4] 48512.3 Flume 48712.3.1 Flume简介 48712.3.2 Flume入门 48912.4 Mahout 49212.4.1 Mahout简介 49212.4.2 Mahout入门 492习题 494参考文献 494|附录A| 手工部署Hadoop2.0 495一、部署综述 496二、部署步骤 500

本目录推荐