注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络数据库深入理解大数据:大数据处理与编程实践

深入理解大数据:大数据处理与编程实践

深入理解大数据:大数据处理与编程实践

定 价:¥79.00

作 者: 黄宜华 编
出版社: 机械工业出版社
丛编项: 计算机类专业系统能力培养系列教材
标 签: 大学教材 大中专教材教辅

购买这本书可以去


ISBN: 9787111473251 出版时间: 2014-08-01 包装: 平装
开本: 16开 页数: 520 字数:  

内容简介

  《深入理解大数据:大数据处理与编程实践》从HadoopMapReduce并行计算技术与系统的基本原理剖析着手,在系统介绍基本工作原理、编程模型、编程框架和接口的基础上,着重系统化地介绍MapReduce并行算法设计与编程技术,较为全面地介绍了基本MapReduce算法设计、高级MapReduce编程技术、以及一系列较为复杂的机器学习和数据挖掘并行化算法,并引入来自IntelHadoop系统产品的一系列增强功能以及深度技术剖析;最后,为了提高读者的算法设计与编程实战能力,本书较为详细地介绍了一系列综合性和实战性大数据处理和算法设计问题,这些问题来自课程同学参加的全国性大数据大赛中的获奖算法、课程中的优秀课程设计、以及来自本团队的科研课题及业界实际的大数据应用实战案例。

作者简介

暂缺《深入理解大数据:大数据处理与编程实践》作者简介

图书目录

第一部分 Hadoop系统第1章 大数据处理技术简介1.1 并行计算技术简介1.1.1 并行计算的基本概念1.1.2 并行计算技术的分类1.1.3 并行计算的主要技术问题1.2 大数据处理技术简介1.2.1 大数据的发展背景和研究意义1.2.2 大数据的技术特点1.2.3 大数据研究的主要目标、基本原则和基本途径1.2.4 大数据计算模式和系统1.2.5 大数据计算模式的发展趋势1.2.6 大数据的主要技术层面和技术内容1.3 MapReduce并行计算技术简介1.3.1 MapReduce的基本概念和由来1.3.2 MapReduce的基本设计思想1.3.3 MapReduce的主要功能和技术特征1.4 Hadoop系统简介1.4.1 Hadoop的概述与发展历史1.4.2 Hadoop系统分布式存储与并行计算构架1.4.3 Hadoop平台的基本组成与生态系统1.4.4 Hadoop的应用现状和发展趋势第2章 Hadoop系统的安装与操作管理2.1 Hadoop系统安装方法简介2.2 单机和单机伪分布式Hadoop系统安装基本步骤2.2.1 安装和配置JDK2.2.2 创建Hadoop用户2.2.3 下载安装Hadoop2.2.4 配置SSH2.2.5 配置Hadoop环境2.2.6 Hadoop的运行2.2.7 运行测试程序2.2.8 查看集群状态2.3 集群分布式Hadoop系统安装基本步骤2.3.1 安装和配置JDK2.3.2 创建Hadoop用户2.3.3 下载安装Hadoop2.3.4 配置SSH2.3.5 配置Hadoop环境2.3.6 Hadoop的运行2.3.7 运行测试程序2.3.8 查看集群状态2.4 Hadoop& ;MapReduce程序开发过程2.5 集群远程作业提交与执行2.5.1 集群远程作业提交和执行过程2.5.2 查看作业执行结果和集群状态第3章 大数据存储--分布式文件系统HDFS3.1 HDFS的基本特征与构架3.1.1 HDFS的基本特征3.1.2 HDFS的基本框架与工作过程3.2 HDFS可靠性设计3.2.1 HDFS数据块多副本存储设计3.2.2 HDFS可靠性的设计实现3.3 HDFS文件存储组织与读写3.3.1 文件数据的存储组织3.3.2 数据的读写过程3.4 HDFS文件系统操作命令3.4.1 HDFS启动与关闭3.4.2 HDFS文件操作命令格式与注意事项3.4.3 HDFS文件操作命令3.4.4 高级操作命令和工具3.5 HDFS基本编程接口与示例3.5.1 HDFS编程基础知识3.5.2 HDFS基本文件操作API3.5.3 HDFS基本编程实例第4章 Hadoop& ;MapReduce并行编程框架4.1 MapReduce基本编程模型和框架4.1.1 MapReduce并行编程抽象模型4.1.2 MapReduce的完整编程模型和框架4.2 Hadoop& ;MapReduce基本构架与工作过程4.2.1 Hadoop系统构架和MapReduce程序执行过程4.2.2 Hadoop& ;MapReduce执行框架和作业执行流程4.2.3 Hadoop& ;MapReduce作业调度过程和调度方法4.2.4 MapReduce执行框架的组件和执行流程4.3 Hadoop& ;MapReduce主要组件与编程接口4.3.1 数据输入格式InputFormat4.3.2 输入数据分块InputSplit4.3.3 数据记录读入RecordReader4.3.4 Mapper类4.3.5 Combiner4.3.6 Partitioner4.3.7 Sort4.3.8 Reducer类4.3.9 数据输出格式OutputFormat4.3.10 数据记录输出RecordWriter第5章 分布式数据库HBase5.1 HBase简介5.1.1 为什么需要NoSQL数据库5.1.2 HBase的作用和功能特点5.2 HBase的数据模型5.2.1 HBase的基本数据模型5.2.2 HBase的查询模式5.2.3 HBase表设计5.3 HBase的基本构架与数据存储管理方法5.3.1 HBase在Hadoop生态中的位置和关系5.3.2 HBase的基本组成结构5.3.3 HBase& ;Region5.3.4 Region& ;Server5.3.5 HBase的总体组成结构5.3.6 HBase的寻址和定位5.3.7 HBase节点的上下线管理5.4 HBase安装与操作5.4.1 安装一个单机版的HBase5.4.2 HBase& ;Shell操作命令5.4.3 基于集群的HBase安装和配置5.5 HBase的编程接口和编程示例5.5.1 表创建编程接口与示例5.5.2 表数据更新编程接口与示例5.5.3 数据读取编程接口与示例5.5.4 HBase& ;MapReduce支持和编程示例5.6 HBase的读写操作和特性5.6.1 HBase的数据写入5.6.2 HBase的数据读取5.7 其他HBase功能5.7.1 Coprocessor5.7.2 批量数据导入Bulk& ;Load第6章 分布式数据仓库Hive6.1 Hive的作用与结构组成6.2 Hive的数据模型6.2.1 Hive的数据存储模型6.2.2 Hive的元数据存储管理6.2.3 Hive的数据类型6.3 Hive的安装6.3.1 下载Hive安装包6.3.2 配置环境变量6.3.3 创建Hive数据文件目录6.3.4 修改Hive配置文件6.4 Hive查询语言--HiveQL6.4.1 DDL语句6.4.2 DML语句6.4.3 SELECT查询语句6.4.4 数据表操作语句示例6.4.5 分区的使用6.4.6 桶的使用6.4.7 子查询6.4.8 Hive的优化和高级功能6.5 Hive& ;JDBC编程接口与程序设计第7章 Intel& ;Hadoop系统优化与功能增强7.1 Intel& ;Hadoop系统简介7.1.1 Intel& ;Hadoop系统的主要优化和增强功能7.1.2 Intel& ;Hadoop的系统构成与组件7.2 Intel& ;Hadoop系统的安装和管理7.3 Intel& ;Hadoop& ;HDFS的优化和功能扩展7.3.1 HDFS的高可用性7.3.2 Intel& ;Hadoop系统高可用性配置服务7.3.3 Intel& ;Hadoop系统高可用性配置服务操作7.3.4 自适应数据块副本调整策略7.4 Intel& ;Hadoop& ;HBase的功能扩展和编程示例7.4.1 HBase大对象存储(LOB)7.4.2 加盐表7.4.3 HBase跨数据中心大表7.5 Intel& ;Hadoop& ;Hive的功能扩展和编程示例7.5.1 开源Hive的不足7.5.2 Intel& ;Hadoop“Hive& ;over& ;HBase”优化设计7.5.3 Hive& ;over& ;HBase的架构第二部分 MapReduce的编程和算法设计第8章 MapReduce基础算法程序设计8.1 WordCount8.1.1 WordCount算法编程实现8.2 矩阵乘法8.2.1 矩阵乘法原理和实现思路8.2.2 矩阵乘法的MapReduce程序实现8.3 关系代数运算8.3.1 选择操作8.3.2 投影操作8.3.3 交运算8.3.4 差运算8.3.5 自然连接8.4 单词共现算法8.4.1 单词共现算法的基本设计8.4.2 单词共现算法的实现8.4.3 单词共现算法实现中的细节问题8.5 文档倒排索引8.5.1 简单的文档倒排索引8.5.2 带词频等属性的文档倒排索引8.6 PageRank网页排名算法8.6.1 PageRank的简化模型8.6.2 PageRank的随机浏览模型8.6.3 PageRank的MapReduce实现8.7 专利文献分析算法8.7.1 构建专利被引用列表8.7.2 专利被引用次数统计8.7.3 专利被引用次数直方图统计8.7.4 按照年份或国家统计专利数第9章 MapReduce高级程序设计技术9.1 简介9.2 复合键值对的使用9.2.1 把小的键值对合并成大的键值对9.2.2 巧用复合键让系统完成排序9.3 用户定制数据类型9.3.1 Hadoop内置的数据类型9.3.2 用户自定义数据类型的实现9.4 用户定制数据输入输出格式9.4.1 Hadoop内置的数据输入格式与RecordReader9.4.2 用户定制数据输入格式与RecordReader9.4.3 Hadoop内置的数据输出格式与RecordWriter9.4.4 用户定制数据输出格式与RecordWriter9.4.5 通过定制数据输出格式实现多集合文件输出9.5 用户定制Partitioner和Combiner9.5.1 用户定制Partitioner9.5.2 用户定制Combiner9.6 组合式MapReduce计算作业9.6.1 迭代MapReduce计算任务9.6.2 顺序组合式MapReduce作业的执行9.6.3 具有复杂依赖关系的组合式MapReduce作业的执行9.6.4 MapReduce前处理和后处理步骤的链式执行9.7 多数据源的连接9.7.1 基本问题数据示例9.7.2 用DataJoin类实现Reduce端连接9.7.3 用全局文件复制方法实现Map端连接9.7.4 带Map端过滤的Reduce端连接9.7.5 多数据源连接解决方法的限制9.8 全局参数/数据文件的传递与使用9.8.1 全局作业参数的传递9.8.2 查询全局的MapReduce作业属性9.8.3 全局数据文件的传递9.9 关系数据库的连接与访问9.9.1 从数据库中输入数据9.9.2 向数据库中输出计算结果第10章 MapReduce数据挖掘基础算法10.1 K-Means聚类算法10.1.1 K-Means聚类算法简介10.1.2 基于MapReduce的K-Means算法的设计实现10.2 KNN最近邻分类算法10.2.1 KNN最近邻分类算法简介10.2.2 基于MapReduce的KNN算法的设计实现10.3 朴素贝叶斯分类算法10.3.1 朴素贝叶斯分类算法简介10.3.2 朴素贝叶斯分类并行化算法的设计10.3.3 朴素贝叶斯分类并行化算法的实现10.4 决策树分类算法10.4.1 决策树分类算法简介10.4.2 决策树并行化算法的设计10.4.3 决策树并行化算法的实现10.5 频繁项集挖掘算法10.5.1 频繁项集挖掘问题描述10.5.2& ; Apriori频繁项集挖掘算法简介10.5.3 Apriori频繁项集挖掘并行化算法的设计10.5.4 Apriori频繁项集挖掘并行化算法的实现10.5.5 基于子集求取的频繁项集挖掘算法的设计10.5.6 基于子集求取的频繁项集挖掘并行化算法的实现10.6 隐马尔科夫模型和最大期望算法10.6.1 隐马尔科夫模型的基本描述10.6.2 隐马尔科夫模型问题的解决方法10.6.3 最大期望算法概述10.6.4 并行化隐马尔科夫算法设计10.6.5 隐马尔科夫算法的并行化实现第11章 大数据处理算法设计与应用编程案例11.1 基于MapReduce的搜索引擎算法11.1.1 搜索引擎工作原理简介11.1.2 基于MapReduce的文档预处理11.1.3 基于MapReduce的文档倒排索引构建11.1.4 建立Web信息查询服务11.2 基于MapReduce的大规模短文本多分类算法11.2.1 短文本多分类算法工作原理简介11.2.2 并行化分类训练算法设计实现11.2.3 并行化分类预测算法设计实现11.3 基于MapReduce的大规模基因序列比对算法11.3.1 基因序列比对算法简介11.3.2 并行化BLAST算法的设计与实现11.4 基于MapReduce的大规模城市路径规划算法11.4.1 问题背景和要求11.4.2 数据输入11.4.3 程序设计要求11.4.4 算法设计总体框架和处理过程11.4.5 并行化算法的设计与实现11.5 基于MapReduce的大规模重复文档检测算法11.5.1 重复文档检测问题描述11.5.2 重复文档检测方法和算法设计11.5.3 重复文档检测并行化算法设计实现11.6 基于内容的并行化图像检索算法与引擎11.6.1 基于内容的图像检索问题概述11.6.2 图像检索方法和算法设计思路11.6.3 并行化图像检索算法实现11.7 基于MapReduce的大规模微博传播分析11.7.1 微博分析问题背景与并行化处理过程11.7.2 并行化微博数据获取算法的设计实现11.7.3 并行化微博数据分析算法的设计实现11.8 基于关联规则挖掘的图书推荐算法11.8.1 图书推荐和关联规则挖掘简介11.8.2 图书频繁项集挖掘算法设计与数据获取11.8.3 图书关联规则挖掘并行化算法实现11.9 基于Hadoop的城市智能交通综合应用案例11.9.1 应用案例概述11.9.2 案例一:交通事件检测11.9.3 案例二:交通流统计分析功能11.9.4 案例三:道路旅行时间分析11.9.5 案例四:HBase实时查询11.9.6 案例五:HBase& ;Endpoint快速统计11.9.7 案例六:利用Hive高速统计附录附录A OpenMP并行程序设计简介附录B MPI并行程序设计简介附录C 英特尔Apache& ;Hadoop*系统安装手册参考文献

本目录推荐