目 录
译者序
前言
致谢
作者简介
第一部分 大数据
第1章 大数据简介2
1.1 引言2
1.2 大数据2
1.3 大数据的定义4
1.4 为什么需要大数据?为什么是现在4
1.5 大数据示例5
1.5.1 社交媒体的文章5
1.5.2 调查数据分析6
1.5.3 调查数据7
1.5.4 气象数据8
1.5.5 Twitter数据8
1.5.6 集成和分析8
1.5.7 附加数据的类型10
1.6 总结11
延伸阅读11
第2章 使用大数据12
2.1 引言12
2.2 数据爆炸12
2.3 数据体量13
2.3.1 机器数据14
2.3.2 应用日志14
2.3.3 点击流日志14
2.3.4 外部或第三方数据15
2.3.5 电子邮件15
2.3.6 合同15
2.3.7 地理信息系统和地理空间数据16
2.3.8 示例:Funshots公司17
2.4 数据速度19
2.4.1 Amazon、Facebook、Yahoo和Google19
2.4.2 传感器数据19
2.4.3 移动网络20
2.4.4 社交媒体20
2.5 数据多样性21
2.6 总结22
第3章 大数据处理架构23
3.1 引言23
3.2 再论数据处理23
3.3 数据处理技术24
3.4 数据处理基础设施的挑战25
3.4.1 存储25
3.4.2 传输25
3.4.3 处理26
3.4.4 速度或吞吐量26
3.5 全共享架构与无共享架构的比较26
3.5.1 全共享架构27
3.5.2 无共享架构27
3.5.3 OLTP与数据仓库28
3.6 大数据处理28
3.6.1 基础设施方面31
3.6.2 数据处理方面32
3.7 电信大数据研究32
3.7.1 基础设施34
3.7.2 数据处理34
第4章 大数据技术简介35
4.1 引言35
4.2 分布式数据处理36
4.3 大数据处理需求38
4.4 大数据处理技术39
4.5 Hadoop42
4.5.1 Hadoop核心组件43
4.5.2 Hadoop总结69
4.6 NoSQL69
4.6.1 CAP定理69
4.6.2 键-值对:Voldemort70
4.6.3 列簇存储:Cassandra70
4.6.4 文档数据库:Riak76
4.6.5 图数据库77
4.6.6 NoSQL小结78
4.7 文本ETL处理78
延伸阅读79
第5章 大数据驱动的商业价值80
5.1 引言80
5.2 案例研究1:传感器数据81
5.2.1 摘要81
5.2.2 Vestas81
5.2.3 概述81
5.2.4 利用风力发电81
5.2.5 把气候变成资本82
5.2.6 跟踪大数据的挑战83
5.2.7 维持数据中心的能源效率83
5.3 案例研究2:流数据84
5.3.1 摘要84
5.3.2 监控和安全:TerraEchos84
5.3.3 需求84
5.3.4 解决方案84
5.3.5 效益84
5.3.6 先进的光纤网结合实时流数据85
5.3.7 解决方案组件85
5.3.8 扩展安全边界创建战略优势85
5.3.9 关联传感器数据使得假阳性率为零86
5.4 案例研究3:通过大数据分析改善患者预后86
5.4.1 摘要86
5.4.2 业务目标87
5.4.3 挑战87
5.4.4 概述:给从业人员新的洞察以指导患者护理87
5.4.5 挑战:将传统数据仓库生态系统与大数据融合87
5.4.6 解决方案:为大数据分析做好准备88
5.4.7 结果:消除“数据陷阱”88
5.4.8 为什么是aster88
5.4.9 关于Aurora89
5.5 案例研究4:安大略大学技术学院—利用关键数据,提供积极的患者护理89
5.5.1 摘要89
5.5.2 概述89
5.5.3 商业上的收益90
5.5.4 更好地利用数据资源90
5.5.5 智慧医疗保健91
5.5.6 解决方案组件91
5.5.7 融合人类知识与技术92
5.5.8 扩大Artemis的影响92
5.6 案例研究5:微软SQL Server客户解决方案93
5.6.1 客户画像93
5.6.2 解决方案的亮点93
5.6.3 业务需求93
5.6.4 解决方案94
5.6.5 好处94
5.7 案例研究6:以客户为中心的数据集成95
5.7.1 概述95
5.7.2 解决方案设计98
5.7.3 促成更好的交叉销售和追加销售的机会99
5.8 总结100
第二部分 数据仓库
第6章 再论数据仓库102
6.1 引言102
6.2 传统的数据仓库或DW 1.0103
6.2.1 数据架构103
6.2.2 基础设施104
6.2.3 数据仓库的陷阱106
6.2.4 建立数据仓库的架构方法111
6.3 DW 2.0113
6.3.1 Inmon的DW 2.0概述114
6.3.2 DSS 2.0概述115
6.4 总结116
延伸阅读116
第7章 数据仓库的再造118
7.1 引言118
7.2 企业数据仓库平台118
7.2.1 事务型系统119
7.2.2 运营数据存储区119
7.2.3 分段区120
7.2.4 数据仓库120
7.2.5 数据集市120
7.2.6 分析型数据库121
7.2.7 数据仓库的问题121
7.3 再造数据仓库的选择122
7.3.1 平台再造122
7.3.2 平台工程123
7.3.3 数据工程124
7.4 使数据仓库现代化125
7.5 使数据仓库现代化的案例研究127
7.5.1 当前状态分析127
7.5.2 推荐127
7.5.3 现代化的业务收益128
7.5.4 一体机的选择过程128
7.6 总结132
第8章 数据仓库中的工作负载管理133
8.1 引言133
8.2 当前状态133
8.3 工作负载的定义134
8.4 了解工作负载135
8.4.1 数据仓库输出136
8.4.2 数据仓库输入137
8.5 查询分类138
8.5.1 宽/宽138
8.5.2 宽/窄139
8.5.3 窄/宽139
8.5.4 窄/窄139
8.5.5 非结构化/半结构化数据140
8.6 ETL和CDC的工作负载140
8.7 度量141
8.8 当前系统设计的局限142
8.9 新工作负载和大数据143
8.10 技术选择144
8.11 总结144
第9章 应用到数据仓库的新技术145
9.1 引言145
9.2