Hadoop权威指南（中文版）

定　价：¥79.00

作　者：	（美）怀特著，曾大聃，周傲英译，周敏审校
出版社：	清华大学出版社
丛编项：
标　签：	程序设计

购买这本书可以去

ISBN：	9787302224242	出版时间：	2010-05-01	包装：	平装
开本：	16开	页数：	504	字数：

内容简介

　　本书从Hadoop的缘起开始，由浅入深，结合理论和实践，全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共14章，3个附录，涉及的主题包括：Haddoop简介；MapReduce简介；Hadoop分布式文件系统；Hadoop的I／O、MapReduce应用程序开发；MapReduce的工作机制；MapReduce的类型和格式；MapReduce的特性；如何安装Hadoop集群，如何管理Hadoop；Pig简介；Hbase简介；ZooKeeper简介，最后还提供了丰富的案例分析。本书是Hadoop权威参考，程序员可从中探索如何分析海量数据集，管理员可以从中了解如何安装与运行Hadoop集群。

作者简介

　　怀特，2007年2月以来，一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一，同时也是Cloudera的一名工程师。Tome为IBM的developerWorks撰写过大量文章，并经常在很多行业大会上举行Hadoop主题演讲。Loudera Cloudera为Hadoop提供商业支持并志愿贡献社区，不收取任何费用。不管是打算在云中运行Hadoop，还是在自己的服务器上运行Hadoop Cloudera都能使其轻松实现。

图书目录

第1章初识Hadoop
1.1 数据！数据
1.2 数据的存储和分析
1.3 相较于其他系统
1.3.1 关系型数据库管理系统
1.3.2 网格计算
1.3.3 志愿计算
1.4 Hadoop发展简史
1.5 Apache Hadoop项目

第2章 Map Reduce简介
2.1 一个气象数据集
2.2 使用Unix Tools来分析数据
2.3 使用Hadoop进行数据分析
2.3.1 map和reduce
2.3.2 JavaMap Reduce
2.4 分布化
2.4.1 数据流
2.4.2 具体定义一个combiner
2.4.3 运行分布式Map Reduce作业
2.5 Hadoop流
2.5.1 Ruby语言
2.5.2 Python
2.6 Hadoop管道

第3章 Hadoop分布式文件系统
3.1 HDFS的设计
3.2 HDFS的概念
3.2.1 块
3.2.2 名称节点与数据节点
3.3 命令行接口
3.4 Hadoop文件系统
3.5 Java接口
3.5.1 从Hadoop URL中读取数据
3.5.2 使用FileSystem API读取数据
3.5.3 写入数据
3.5.4 目录
3.5.5 查询文件系统
3.5.6 删除数据
3.6 数据流
3.6.1 文件读取剖析
3.6.2 文件写入剖析
3.6.3 一致模型
3.7 通过distcp进行并行复制
3.8 Hadoop归档文件
3.8.1 使用Hadoop Archives
3.8.2 不足

第4章 Hadoop的I/O
4.1 数据完整性
4.1.1 HDFS的数据完整性
4.1.2 本地文件系统
4.1.3 Checksum File System
4.2 压缩
4.2.1 编码／解码器
4.2.2 压缩和输入分割
4.2.3 在Map Reduce中使用压缩
4.3 序列化
4.3.1 Writable接口
4.3.2 Writeable类
4.3.3 实现自定义的Writable
4.3.4 序列化框架
4.4 基于文件的数据结构
4.4.1 Sequence File类
4.4.2 MapFile

第5章 Map Reduce应用开发
5.1 API的配置
5.1.1 合并资源
5.1.2 各种扩展形式
5.2 配置开发环境
5.2.1 配置的管理
5.2.2 Generic Options Parser，Tool和Tool Runner
5.3 编写单元测试
5.3.1 Mapper
5.3.2 reducer
5.4 本地运行测试数据
5.4.1 在本地作业运行器上运行作业
5.4.2 测试驱动程序
5.5 在集群上运行
5.5.1 打包
5.5.2 启动作业
5.5.3 MapReduce网络用户界面
5.5.4 获取结果
5.5.5 调试作业
5.5.6 使用远程调试器
5.6 作业调优
5.7 Map Reduce的工作流
5.7.1 将问题分解成Map Reduce作业
5.7.2 运行独立的作业

第6章 Map Redoce的工作原理
6.1 运行Map Reduce作业
6.1.1 提交作业
6.1.2 作业的初始化
6.1.3 任务的分配
6.1.4 任务的执行
6.1.5 进度和状态的更新
6.1.6 作业的完成
6.2 失败
6.2.1 任务失败
6.2.2 tasktracker失败
6.2.3 jobtraeker失败
6.3 作业的调度
6.4 shufne和排序
6.4 map端
6.4.2 reduce端
6.4.3 配置的调整
6.5 任务的执行
6.5.1 推测式执行
6.5.2 任务JVM重用
6.5 -3跳过坏记录
6.5.4 任务执行环境

第7章 MapReduce的类型与格式
7.1 MapReduce类型
7.2 输入格式
7.2.1 输入分片与记录
7.2.2 文本输入
7.2.3 二进制输入
7.2.4 多种输入
……
第8章 MapReduce特性
第9章 Hadoop集群的安装
第10章 Hadoop的管理
第11章 Pig简介
第12章 Hbase简介
第13章 ZooKeeper简介
第14章案例研究
附录A
附录B
附录C