第1章 云时代概述 (1)
1.1 “云”概述 (1)
1.1.1 什么是云计算 (2)
1.1.2 给云计算一个说法 (3)
1.1.3 云计算的使用范围 (3)
1.1.4 云计算与一般托管环境的差别 (4)
1.2 云产生的背景 (4)
1.2.1 经济方面 (4)
1.2.2 社会层面 (5)
1.2.3 政治层面 (6)
1.2.4 技术方面 (6)
1.3 云计算特点 (7)
1.4 云时代的七大益处 (8)
1.5 云计算与其他超级计算的区别 (11)
1.5.1 云计算与网格计算的区别 (11)
1.5.2 云计算系统与传统超级计算机的区别 (12)
1.6 云计算的关键性技术 (12)
1.6.1 虚拟化 (12)
1.6.2 分布式文件系统 (14)
1.6.3 分布式数据库 (15)
1.6.4 资源管理技术 (15)
1.6.5 能耗管理技术 (16)
1.7 云计算基础 (18)
1.7.1 云计算的定义 (18)
1.7.2 云计算的特征 (19)
1.7.3 交付模式 (19)
1.7.4 部署模式 (21)
1.7.5 新的应用机遇 (23)
1.8 从传统IT到云 (23)
1.9 云计算的研究进展 (27)
1.10 云计算的生成系统 (28)
1.11 云计算时代对就业的影响 (29)
1.12 大数据中的云 (30)
第2章 大数据概述 (33)
2.1 大数据概念 (33)
2.1.1 大数据的应用 (33)
2.1.2 大数据的战略意义 (34)
2.1.3 大数据的作用 (34)
2.1.4 大数据与传统数据库 (34)
2.1.5 大数据与Web (34)
2.2 大数据的理解与实践 (35)
2.2.1 理解大数据 (35)
2.2.2 实践大数据 (36)
2.3 大数据的发展趋势 (36)
2.3.1 大数据对社会的影响 (36)
2.3.2 云平台数据更加完善 (38)
2.4 大数据的挑战、现状与展望 (38)
2.4.1 概述 (38)
2.4.2 期望特性 (40)
2.4.3 并行数据库 (42)
2.4.4 MapReduce (43)
2.4.5 并行数据库和MapReduce的混合架构 (47)
2.4.6 研究现状 (49)
2.4.7 MapReduce与关系数据库技术的融合 (50)
2.4.8 展望研究 (52)
2.5 大数据行业应用及未来热点 (53)
2.5.1 分析大数据市场 (53)
2.5.2 分析大数据应用需求 (53)
2.6 大数据2012年回顾 (54)
2.6.1 2012年大数据新特征 (54)
2.6.2 进军大数据 (55)
2.6.3 新兴企业不断涌现 (56)
2.7 大数据引导IT支出 (56)
2.8 数据将变得更加重要 (57)
2.9 盘点全球13个大数据公司 (59)
第3章 数据挖掘 (65)
3.1 数据挖掘的定义 (65)
3.1.1 技术上的定义及含义 (65)
3.1.2 商业角度的定义 (66)
3.2 数据挖掘概述 (66)
3.2.1 数据挖掘的起源 (66)
3.2.2 数据挖掘方法论 (67)
3.2.3 数据挖掘常用方法 (69)
3.2.4 数据挖掘的实现步骤 (71)
3.2.5 数据挖掘的功能 (71)
3.2.6 数据挖掘常用技术 (72)
3.2.7 数据挖掘与传统分析方法的异同 (78)
3.2.8 数据挖掘和数据仓库 (78)
3.2.9 数据挖掘的应用 (79)
3.3 数据挖掘相关知识 (80)
3.3.1 词语的重要性 (81)
3.3.2 哈希函数 (82)
3.3.3 索引 (84)
3.3.4 二维存储器 (85)
3.3.5 自然对数的底e (85)
3.3.6 幂定律 (86)
第4章 数据量化 (87)
4.1 量化分析简介 (87)
4.2 规划优质量化分析 (91)
4.2.1 量化分析开发规划的构成 (91)
4.2.2 文档 (95)
4.3 答案纲要 (96)
4.4 三角交叉法 (103)
4.5 高级量化分析 (105)
4.5.1 其他象限 (106)
4.5.2 量化分析未成熟组织的益处 (106)
4.5.3 重复业务流程 (107)
4.5.4 其他象限的量化分析 (107)
4.6 创建服务目录 (110)
4.7 构建标准和基准 (113)
4.8 量化数据谈投资 (114)
第5章 大规模文件系统MapReduce (115)
5.1 分布式文件系统 (115)
5.1.1 NFS和AFS的区别 (118)
5.1.2 计算节点的物理结构 (118)
5.2 MapReduce模型 (119)
5.2.1 Map任务 (120)
5.2.2 分组与聚合 (120)
5.2.3 Reduce任务 (120)
5.3 MapReduce使用算法 (123)
5.3.1 向量乘法实现 (123)
5.3.2 内存处理 (123)
5.3.3 关系运算 (124)
5.3.4 分布文件系统实例 (128)
5.4 MapReduce复合键值对的使用 (138)
5.4.1 合并键值 (138)
5.4.2 用复合键排序 (139)
5.5 链接MapReduce作业 (142)
5.5.1 顺序链接MapReduce作业 (142)
5.5.2 复杂的MapReduce链接 (143)
5.5.3 前后处理的链接 (143)
5.5.4 链接不同的数据 (145)
5.6 MapReduce递归扩展 (152)
5.7 集群计算算法的效率问题 (154)
5.7.1 集群计算的通信开销模型 (154)
5.7.2 多路连接 (155)
第6章 相似项挖掘 (157)
6.1 近邻搜索的应用 (157)
6.1.1 Jaccard相似度 (157)
6.1.2 文档相似度 (157)
6.2 文档的shingling算法 (162)
6.2.1 k-shingle (162)
6.2.2 大小选择 (163)
6.2.3 对shingle进行哈希 (163)
6.3 最小哈希 (164)
6.3.1 矩阵表示集合 (164)
6.3.2 最小哈希概述 (164)
6.3.3 Jaccard相似度 (165)
6.3.4 最小哈希签名 (165)
6.3.5 签名计算 (166)
6.4 语音文档局部敏感哈希算法 (168)
6.4.1 局部敏感哈希概述 (168)
6.4.2 行条化策略的分析 (172)
6.5 距离测试 (174)
6.5.1 距离测度的定义 (174)
6.5.2 欧氏距离 (174)
6.5.3 Jaccard距离 (175)
6.5.4 余弦距离 (175)
6.5.5 编辑距离 (176)
6.5.6 海明距离 (177)
6.6 其他距离测度的LSH函数族 (178)
6.6.1 海明距离的LSH函数族 (178)
6.6.2 随机超平面与余弦距离 (179)
6.6.3 欧氏距离的LSH函数族 (180)
6.7 LSH函数的应用 (181)
6.7.1 实体关联 (181)
6.7.2 指纹匹配 (183)
6.7.3 论文相似性检测服务 (185)
6.8 高相似度方法 (186)
6.8.1 相等项发现 (186)
6.8.2 集合字串表示法 (187)
6.8.3 长度过滤 (187)
6.8.4 前缀索引 (188)
6.8.5 位置信息使用 (188)
6.8.6 使用位置和长度信息的索引 (190)
第7章 HDFS存储海量数据 (192)
7.1 HDFS简介 (192)
7.1.1 HDFS的特点 (192)
7.1.2 HDFS的设计需求 (193)
7.1.3 HDFS体系结构 (195)
7.1.4 HDFS的可靠性措施 (196)
7.1.5 数据均衡 (200)
7.2 HDFS存取机制 (200)
7.3 图像存储 (202)
7.3.1 图像存储基本思想 (202)
7.3.2 图像存储设计目标 (202)
7.3.3 图像存储体系结构 (203)
7.3.4 系统功能结构 (204)
7.4 HDFS管理操作 (205)
7.4.1 权限管理 (205)
7.4.2 配额管理 (207)
7.4.3 文件归档 (207)
7.5 FS Shell使用指南 (208)
7.6 API使用 (214)
7.7 HDFS的缺点 (216)
7.8 HDFS存储海量数据 (217)
第8章 HBase存储百科数据 (219)
8.1 HBase的系统框架 (219)
8.2 HBase基本特征 (222)
8.2.1 RDBMS与HBase (222)
8.2.2 NoSQL数据库 (223)
8.2.3 HBase的特点 (225)
8.3 HBase的基本接口 (226)
8.3.1 HBase访问接口 (226)
8.3.2 HBase的存储格式 (227)
8.3.3 HBase的读写流程 (227)
8.4 模块总体设计 (228)
8.4.1 数据库模块总体设计 (228)
8.4.2 模块详细设计 (229)
8.4.3 数据库模块交互设计 (233)
8.5 HBase数据模型 (234)
8.6 HBase的安装与配置 (238)
8.7 HBase实例分析 (240)
8.7.1 HBase的HFileOutputFormat (240)
8.7.2 HBase的TableOutputFormat (243)
第9章 大数据链接分析 (247)
9.1 链接分析中的数据采集研究 (247)
9.1.1 链接分析概述 (247)
9.1.2 相关研究 (248)
9.1.3 系统功能设计 (249)
9.1.4 实验 (251)
9.1.5 结论 (252)
9.2 PageRank工具 (252)
9.2.1 PageRank概述 (253)
9.2.2 PageRank定义 (253)
9.2.3 相关算法 (255)
9.2.4 避免终止点 (256)
9.2.5 采集器陷阱及“抽税”法 (258)
9.2.6 影响PageRank的因素 (259)
9.3 PageRank算法 (259)
9.4 搜索引擎研究 (262)
9.4.1 搜索引擎未来的发展方向 (262)
9.4.2 通用型搜索引擎 (264)
9.4.3 主题型搜索引擎 (268)
9.4.4 性能指标 (270)
9.5 链接作弊 (270)
9.5.1 垃圾农场的架构 (270)
9.5.2 垃圾农场的分析 (271)
9.5.3 TrustRank (272)
9.5.4 垃圾质量 (273)
9.6 导航页和权威页 (273)
第10章 聚类 (276)
10.1 聚类概述 (276)
10.1.1 聚类的典型应用 (276)
10.1.2 聚类的典型要求 (276)
10.1.3 聚类的计算方法 (277)
10.1.4 聚类分析的特征 (278)
10.2 聚类技术 (279)
10.2.1 点、空间和距离 (279)
10.2.2 维数灾难 (279)
10.3 层次聚类 (280)
10.3.1 欧氏空间下的层次聚类 (281)
10.3.2 控制层次聚类的其他规则 (284)
10.3.3 非欧空间下的层次聚类 (284)
10.4 K-均值算法 (285)
10.4.1 K-均值算法的簇初始化 (285)
10.4.2 K值的选择 (286)
10.4.3 BFR算法 (287)
10.4.4 BFR算法中的数据处理 (288)
10.5 CURE算法 (290)
10.5.1 CURE算法流程 (290)
10.5.2 CURE算法设计 (290)
10.5.3 数据取样算法 (293)
10.6 流聚类及并行化 (293)
10.6.1 流计算模型 (294)
10.6.2 二次聚类算法 (294)
10.7 非欧空间下的聚类 (297)
10.7.1 GRGPF算法的簇表示 (297)
10.7.2 簇树的初始化 (297)
10.7.3 算法中加入点 (298)
10.7.4 分裂与合并 (299)
第11章 项集与系统 (301)
11.1 项集与系统概述 (301)
11.2 项集 (302)
11.2.1 规则 (303)
11.2.2 内存使用 (304)
11.2.3 单调性 (305)
11.2.4 二元组计数 (305)
11.2.5 A-Priori算法 (306)
11.2.6 频繁项集上的A-Priori算法 (307)
11.3 更大数据集处理 (308)
11.3.1 PCY算法 (309)
11.3.2 多阶段算法 (310)
11.3.3 多哈希算法 (311)
11.4 有限扫描算法 (312)
11.4.1 随机算法 (312)
11.4.2 SON算法 (313)
11.4.3 MapReduce算法 (313)
11.4.4 Toivonen算法 (314)
11.5 流中的频繁项 (315)
11.5.1 抽样法 (315)
11.5.2 衰减窗口的频繁项集 (316)
11.5.3 混合方法 (316)
11.6 推荐模型系统 (317)
11.6.1 效用矩阵 (317)
11.6.2 长尾现象 (317)
11.6.3 效用矩阵的填充 (318)
11.7 内容的推荐 (318)
11.7.1 项模型 (319)
11.7.2 项模型的表示 (319)
11.7.3 分类算法 (320)
11.8 协同过滤 (321)
11.8.1 协同过滤的优缺点 (321)
11.8.2 协同过滤案例 (321)
11.9 降维处理 (322)
11.9.1 基于中心流形理论的降维方法 (322)
11.9.2 Lyapunov-Schmidt(L-S)方法 (323)
11.9.3 Galerkin方法 (324)
11.9.4 正交分解技术的降维方法 (327)
11.9.5 其他降维方法 (328)
11.10 Netflix大奖赛与推荐系统 (331)
参考文献 (336)