大数据技术

定　价：¥69.80

作　者：	华为技术有限公司著
出版社：	人民邮电出版社
丛编项：	华为ICT认证系列丛书
标　签：	暂缺

购买这本书可以去

京东 (¥58.60)

ISBN：	9787115556073	出版时间：	2021-06-01	包装：	平装
开本：	16开	页数：	252	字数：

内容简介

　　本书系统、全面地介绍大数据技术的基础知识。全书共13章，首先介绍大数据行业与技术趋势；然后介绍大数据生态圈的各项技术，包括分布式文件系统、Hive分布式数据仓库、HBase技术原理、MapReduce和YARN技术原理、Spark基于内存的分布式计算、Flink流批一体分布式实时处理引擎、数据采集与数据装载工具、Kafka分布式消息订阅系统、高可靠集群安全模式、分布式全文检索Elasticsearch、Redis内存数据库等；最后介绍华为大数据解决方案。通过学习本书所讲内容，读者可以整体了解大数据技术，掌握大数据生态圈中各项技术最为基础和关键的知识。本书可作为数据科学与大数据、软件工程、计算机科学与技术等专业的大数据概论课程的教材，也可供大数据工程技术人员学习或参考使用，还可作为华为HCIA认证考试的培训教材。

作者简介

　　华为技术有限公司：成立于1987年，总部位于广东省深圳市龙岗区。华为是全球领先的信息与通信技术（ICT）解决方案供应商，专注于ICT领域，在电信运营商、企业、终端和云计算等领域构筑了端到端的解决方案优势，为运营商客户、企业客户和消费者提供有竞争力的ICT解决方案、产品和服务，并致力于实现未来信息社会、构建更美好的全联接世界。2013年，华为首超全球第一大电信设备商爱立信，排名《财富》世界500强第315位。华为的产品和解决方案已经应用于全球170多个国家，服务全球运营商50强中的45家及全球1/3的人口。

图书目录

第 1章大数据行业与技术趋势\t1
1．1　大数据时代　1
1．1．1　大数据的定义　1
1．1．2　大数据分析与传统数据分析　2
1．1．3　大数据时代已经到来　7
1．2　大数据应用领域　8
1．3　大数据时代企业所面临的挑战和机遇　9
1．3．1　大数据时代企业所面临的挑战　9
1．3．2　大数据时代企业所面临的机遇　10
1．4　大数据代表技术和解决方案　11
1．4．1　大数据代表技术　11
1．4．2　大数据解决方案　16
1．5　本章小结　17
1．6　习题　17
第　2章分布式文件系统　18
2．1　文件系统概述　18
2．2　HDFS架构　20
2．2．1　HDFS体系结构　21
2．2．2　HDFS中的数据流　23
2．3　HDFS关键特性　26
2．3．1　HDFS高可用性　26
2．3．2　HDFS元数据持久化　28
2．3．3　HDFS联邦　28
2．3．4　HDFS视图文件系统　29
2．3．5　HDFS机架感知策略　30
2．3．6　HDFS集中式缓存管理　31
2．3．7　配置HDFS数据存储策略　32
2．3．8　HDFS同分布　33
2．4　HDFS操作　34
2．4．1　使用命令行访问HDFS　34
2．4．2　使用Java API访问HDFS　36
2．5　ZooKeeper　40
2．5．1　ZooKeeper体系结构　40
2．5．2　ZooKeeper读/写机制　41
2．5．3　ZooKeeper关键特性　42
2．5．4　ZooKeeper命令行操作　42
2．6　本章小结　42
2．7　习题　43
第3章　Hive分布式数据仓库　44
3．1　数据仓库　44
3．1．1　数据仓库的定义　44
3．1．2　数据仓库和数据库的区别　44
3．1．3　数据仓库的系统结构　45
3．2　Hive概述和体系结构　46
3．2．1　Hive概述　46
3．2．2　Hive的体系结构　46
3．2．3　Hive与传统数据仓库　48
3．2．4　Hive数据存储模型　49
3．3　Hive基本操作　50
3．3．1　Hive数据基本操作　50
3．3．2　用户自定义函数　57
3．3．3　Hive数据压缩与文件存储格式　58
3．4　Hive增强特性　60
3．4．1　支持HDFS同分布　60
3．4．2　支持列加密功能　61
3．4．3　支持HBase删除功能　61
3．4．4　指定行分隔符　61
3．4．5　其他增强特性　62
3．5　本章小结　62
3．6　习题　63
第4章　HBase技术原理　64
4．1　NoSQL数据库　64
4．2　HBase概述与基本架构　66
4．2．1　HBase概述　66
4．2．2　HBase数据模型　67
4．2．3　HBase架构　68
4．2．4　HBase关键流程　70
4．3　HBase基本操作　75
4．3．1　HBase性能优化　75
4．3．2　HBase常用操作　77
4．3．3　HBase Java API操作　79
4．4　HBase增强特性　82
4．4．1　支持二级索引　82
4．4．2　二级索引行键去除padding　83
4．4．3　支持多点分割　83
4．4．4　容灾增强　83
4．4．5　HBase MOB　84
4．4．6　HFS　84
4．5　本章小结　85
4．6　习题　85
第5章　MapReduce和YARN技术原理　86
5．1　MapReduce和YARN基本介绍　86
5．1．1　MapReduce基本介绍　86
5．1．2　YARN基本介绍　87
5．2　MapReduce和YARN的功能与架构　87
5．2．1　MapReduce过程详解　87
5．2．2　经典MapReduce任务调度模型　89
5．2．3　YARN的组件架构　90
5．2．4　MapReduce On YARN　91
5．2．5　YARN 容错机制　92
5．3　YARN的资源隔离和调度　92
5．3．1　YARN资源隔离　92
5．3．2　YARN资源调度　94
5．3．3　抢占与延时调度　97
5．3．4　YARN参数配置　98
5．4　MapReduce和YARN增强特性　103
5．4．1　任务优先级调度　103
5．4．2　提交Application可设置超时参数　104
5．4．3　YARN的权限控制　104
5．4．4　支持CPU硬隔离　105
5．4．5　重启性能优化　105
5．5　MapReduce实例　106
5．5．1　Top10视频分析　106
5．5．2　视频类别统计　108
5．6　本章小结　109
5．7　习题　109
第6章　Spark基于内存的分布式计算　110
6．1　Spark简介　110
6．1．1　Spark概念　110
6．1．2　Spark架构　111
6．1．3　Spark核心组件　112
6．2　Spark编程模型　114
6．2．1　核心数据结构RDD　114
6．2．2　RDD上的操作　114
6．2．3　RDD的持久化　115
6．2．4　RDD计算工作流　115
6．3　Spark调度机制　116
6．3．1　Spark应用执行流程　116
6．3．2　Spark调度与任务分配　117
6．4　Spark生态圈其他技术　120
6．4．1　Spark SQL　120
6．4．2　Spark Streaming　123
6．5　Spark应用案例　127
6．5．1　Spark Shell　127
6．5．2　WordCount　129
6．6　本章小结　130
6．7　习题　130
第7章　Flink流批一体分布式实时处理引擎　131
7．1　Flink概述　131
7．1．1　Flink的特点　131
7．1．2　Flink的应用场景　133
7．2　Flink原理和架构　133
7．2．1　Flink主要组件　133
7．2．2　Flink的插槽和并行度　134
7．3　Flink部署　136
7．3．1　Standalone部署　137
7．3．2　Flink on YARN部署　139
7．4　Flink时间处理　141
7．4．1　时间语义　141
7．4．2　窗口　142
7．4．3　Watermark　144
7．4．4　延迟处理　145
7．5　Flink的容错机制　146
7．5．1　常用State　146
7．5．2　Checkpoint　148
7．5．3　State Backend　150
7．6　Flink应用案例　152
7．7　本章小结　153
7．8　习题　153
第8章　数据采集与数据装载工具　154
8．1　Flume简介及结构　154
8．1．1　Flume定义　154
8．1．2　Flume组成架构　155
8．1．3　Flume拓扑结构　158
8．2　Flume关键特性　160
8．2．1　Source　160
8．2．2　Sink　163
8．2．3　Channel、拦截器与处理器　165
8．3　Flume的安装与配置　166
8．4　数据装载工具Loader　168
8．4．1　Loader简介　168
8．4．2　Loader模块架构　169
8．4．3　Loader作业管理　170
8．4．4　监控作业执行状态　172
8．5　本章小结　173
8．6　习题　173
第9章　Kafka分布式消息订阅系统　175
9．1　Kafka简介　175
9．1．1　Kafka概念　175
9．1．2　Kafka结构　175
9．1．3　Kafka消息传递模式　176
9．1．4　Kafka特点　176
9．2　Kafka组成　178
9．2．1　Kafka组成的概念　178
9．2．2　Kafka组成的功能　179
9．3　Kafka关键流程及数据管理　181
9．3．1　Kafka生产过程分析　181
9．3．2　Broker保存消息　182
9．3．3　Kafka消费过程分析　183
9．3．4　Kafka高可用　184
9．3．5　旧数据处理方式　184
9．4　Kafka应用案例　185
消息队列的应用场景　185
9．5　本章小结　189
9．6　习题　189
第　10章高可靠集群安全模式　190
10．1　统一身份认证管理　190
10．1．1　统一身份认证　190
10．1．2　统一用户管理系统　191
10．2　目录服务和轻型目录访问协议　192
10．2．1　目录服务　192
10．2．2　轻型目录访问协议　193
10．2．3　LdapServer　194
10．2．4　LdapServer集成设计　198
10．2．5　LdapServer应用优势　198
10．3　单点登录及Kerberos基本原理　199
10．3．1　单点登录　199
10．3．2　KrbServer　201
10．3．3　KrbServer认证流程　202
10．4　华为大数据安全认证场景架构　204
10．4．1　安全认证场景架构　204
10．4．2　Kerberos与LdapServer的业务交互　205
10．4．3　常用配置项及命令　206
10．4．4　集群内服务认证　207
10．5　本章小结　207
10．6　习题　208
第　11章分布式全文检索Elasticsearch　209
11．1　Elasticsearch简介　209
11．1．1　Elasticsearch特点　209
11．1．2　Elasticsearch应用场景　210
11．1．3　Elasticsearch在大数据解决方案中的位置　210
11．2　Elasticsearch架构　211
11．2．1　Elasticsearch核心概念　211
11．2．2　Elasticsearch集群架构　213
11．2．3　Elasticsearch内部架构　213
11．3　Elasticsearch关键特性　215
11．3．1　倒排序索引　215
11．3．2　路由算法　216
11．3．3　平衡算法　217
11．3．4　扩容策略　218
11．3．5　减容策略　218
11．3．6　索引HBase数据　219
11．3．7　单机多实例部署　219
11．3．8　分片自动跨节点分配策略　220
11．4　本章小结　221
11．5　习题　222
第　12章 Redis内存数据库　223
12．1　Redis简介　223
12．2　Redis架构　225
12．2．1　Redis架构概述　225
12．2．2　Redis架构设计　225
12．2．3　单线程架构　225
12．2．4　集群环境读/写流程分析　226
12．3　Redis数据类型及操作命令　227
12．3．1　字符串类型　228
12．3．2　列表类型　229
12．3．3　集合类型　231
12．3．4　散列表类型　232
12．3．5　有序集合类型　233
12．4　Redis的持久化　234
12．4．1　RDB持久化　234
12．4．2　AOF持久化　236
12．5　Redis优化　238
12．6　本章小结　239
12．7　习题　239
第　13章华为大数据解决方案　240
13．1　ICT行业发展趋势概述　240
13．1．1　概述　240
13．1．2　华为云Stack解决方案　241
13．1．3　华为云Stack功能架构　242
13．1．4　数字平台场景化解决方案　243
13．1．5　华为云大数据服务　244
13．2　华为大数据服务　245
13．2．1　MRS　245
13．2．2　数据仓库服务　246
13．2．3　云搜索服务　248
13．2．4　图引擎服务　248
13．3　华为智能数据湖运营平台　249
13．3．1　华为云智能数据湖　249
13．3．2　智能数据湖运营平台DAYU　250
13．3．3　数据湖治理　251
13．4　本章小结　252
13．5　习题　252