Hadoop高级数据分析：使用Hadoop生态系统设计和构建大数据系统

定　价：¥59.80

作　者：	Kerry Koitzsch，王建峰，王瑛琦著
出版社：	清华大学出版社
丛编项：	大数据应用与技术丛书
标　签：	暂缺

购买这本书可以去

ISBN：	9787302487302	出版时间：	2017-12-01	包装：	平装
开本：	16开	页数：	225	字数：

内容简介

　　掌握Hadoop高级数据分析技术学习高级分析技术，并利用现有工具包使分析应用更加强大、精确和高效！《Hadoop高级数据分析使用Hadoop生态系统设计和构建大数据系统》将架构、设计及实现信息恰当地融为一体，将指导你创建*基础方法（SF分类、聚类、推荐）的分析系统。在《Hadoop高级数据分析使用Hadoop生态系统设计和构建大数据系统》中，*佳实践强调“确保连贯、高效的开发”。将使用包含工具箱、库、可视化组件和报表代码在内的标准第三方组件，借助集成“组合件”开发一个可运行的、可扩展的、端到端的完整示例系统。《Hadoop高级数据分析使用Hadoop生态系统设计和构建大数据系统》强调以下四点：●具有分析组件及合理可视化结果的完整、灵活、可配置、高性能数据管道系统的重要性。深入探讨的主题包括Spark、H2O、VopalWabbit（NLP）、StanfordNLP、ApacheMahout，以及其他适用的工具包、库和插件。●*佳实践和结构化设计原则。包括重要主题及示例部分。●用混合搭配或混合系统实现应用目标的重要性。你在学习深度示例时可体会到混合方法的重要性。●使用现有第三方库是有效开发的关键。在开发示例系统时，深度示例将展示一些第三方工具包的功能。

作者简介

　　Kerry Koitzsch在计算机科学、图像处理和软件工程等领域拥有超过二十年的工作经验，致力于研究Apache Hadoop和Apache Spark技术。Kerry擅长软件咨询，精通一些定制的大数据应用，包括分布式搜索、图像分析、立体视觉和智能图像检索系统。Kerry目前就职于Kildane软件技术股份有限公司，该公司是加州桑尼维尔市的一个机器人系统和图像分析软件提供商。

图书目录

目录
第Ⅰ部分概念
第1章概述：用Hadoop构建数据分析系统3
1.1构建DAS的必要性4
1.2HadoopCore及其简史4
1.3Hadoop生态系统概述5
1.4AI技术、认知计算、深度学习以及BDA6
1.5自然语言处理与BDAS6
1.6SQL与NoSQL查询处理6
1.7必要的数学知识7
1.8设计及构建BDAS的循环过程7
1.9如何利用Hadoop生态系统实现BDA10
1.10“图像大数据”(IABD)基本思想10
1.10.1使用的编程语言12
1.10.2Hadoop生态系统的多语言组件12
1.10.3Hadoop生态系统架构13
1.11有关软件组合件与框架的注意事项13
1.12ApacheLucene、Solr及其他：开源搜索组件14
1.13建立BDAS的架构15
1.14你需要了解的事情15
1.15数据可视化与报表17
1.15.1使用EclipseIDE作为开发环境18
1.15.2本书未讲解的内容19
1.16本章小结21
第2章Scala及Python进阶23
2.1动机：选择正确的语言定义应用23
2.2Scala概览24
2.3Python概览29
2.4错误诊断、调试、配置文件及文档31
2.4.1Python的调试资源32
2.4.2Python文档33
2.4.3Scala的调试资源33
2.5编程应用与示例33
2.6本章小结34
2.7参考文献34
第3章Hadoop及分析的标准工具集35
3.1库、组件及工具集：概览35
3.2在评估系统中使用深度学习方法38
3.3使用Spring框架及SpringData44
3.4数字与统计库：R、Weka及其他44
3.5分布式系统的OLAP技术44
3.6用于分析的Hadoop工具集：ApacheMahout及相关工具45
3.7ApacheMahout的可视化46
3.8ApacheSpark库与组件46
3.8.1可供选择的不同类型的shell46
3.8.2ApacheSpark数据流47
3.8.3SparklingWater与H2O机器学习48
3.9组件使用与系统建立示例48
3.10封包、测试和文档化示例系统50
3.11本章小结51
3.12参考文献51
第4章关系、NoSQL及图数据库53
4.1图查询语言：Cypher及Gremlin55
4.2Cypher示例55
4.3Gremlin示例56
4.4图数据库：ApacheNeo4J58
4.5关系数据库及Hadoop生态系统59
4.6Hadoop以及UA组件59
4.7本章小结63
4.8参考文献64
第5章数据管道及其构建方法65
5.1基本数据管道66
5.2ApacheBeam简介67
5.3ApacheFalcon简介68
5.4数据源与数据接收：使用ApacheTika构建数据管道68
5.5计算与转换70
5.6结果可视化及报告71
5.7本章小结74
5.8参考文献74
第6章Hadoop、Lucene、Solr与高级搜索技术75
6.1Lucene/Solr生态系统简介75
6.2Lucene查询语法76
6.3使用Solr的编程示例79
6.4使用ELK栈(Elasticsearch、Logstash、Kibana)85
6.5Solr与Elasticsearch：特点与逻辑93
6.6应用于Elasticsearch和Solr的SpringData组件95
6.7使用LingPipe和GATE实现定制搜索99
6.8本章小结108
6.9参考文献108
第Ⅱ部分架构及算法
第7章分析技术及算法概览111
7.1算法类型综述111
7.2统计/数值技术112
7.3贝叶斯技术113
7.4本体驱动算法114
7.5混合算法：组合算法类型115
7.6代码示例116
7.7本章小结119
7.8参考文献119
第8章规则引擎、系统控制与系统编排121
8.1规则系统JBossDrools介绍121
8.2基于规则的软件系统控制124
8.3系统协调与JBossDrools125
8.4分析引擎示例与规则控制126
8.5本章小结129
8.6参考文献129
第9章综合提升：设计一个完整的分析系统131
9.1本章小结136
9.2参考文献136
第Ⅲ部分组件与系统
第10章数据可视化：可视化与交互分析139
10.1简单的可视化139
10.2AngularJS和Friends简介143
10.3使用JHipster集成SpringXD
和AngularJS143
10.4使用d3.js、sigma.js及其他
工具152
10.5本章小结153
10.6参考文献153
第Ⅳ部分案例研究与应用