第1章 大数据概论 1
1.1 大数据技术概述 1
1.1.1 大数据的基本概念 2
1.1.2 IT产业的发展简史 2
1.1.3 大数据的来源 4
1.1.4 大数据的产生过程 4
1.1.5 大数据的特点 5
1.1.6 大数据处理的基本流程 5
1.1.7 大数据的数据结构类型 6
1.1.8 大数据的特征 6
1.1.9 大数据的应用领域 7
1.2 大数据技术架构 7
1.3 大数据的整体技术和关键技术 9
1.4 大数据分析的典型工具简介 12
1.5 大数据的未来发展趋势 14
本章小结 16
习题1 17
第2章 大数据的采集及预处理 18
2.1 数据采集概述 18
2.1.1 数据分类体系 18
2.1.2 数据采集 19
2.1.3 数据采集系统 20
2.1.4 临床试验电子数据采集系统 22
2.2 大数据采集的数据来源 27
2.3 大数据采集的技术方法 29
2.4 大数据处理与集成 33
本章小结 38
习题2 40
第3章 大数据建模概述 42
3.1 数据模型简介 42
3.1.1 数据模型的定义 42
3.1.2 数据模型之间的关系 44
3.2 大数据建模的主要技术方法 45
3.2.1 经典大数据建模常用的技术方法 45
3.2.2 分布式处理大数据的技术方法 50
3.2.3 大数据分析模式的分类 51
3.3 大数据建模过程 52
3.3.1 大数据建模流程 52
3.3.2 大数据建模应遵循的规律 53
3.4 医学大数据建模应用案例 56
本章小结 58
习题3 59
第4章 数据可视化应用 60
4.1 数据可视化概述 60
4.1.1 数据可视化的由来 60
4.1.2 数据可视化的概念 61
4.2 数据可视化的设计 61
4.2.1 数据可视化流程 62
4.2.2 数据可视化过程 62
4.3 数据可视化的表达方式 67
4.3.1 传统的表达方式 67
4.3.2 现代的表达方式 70
4.4 数据可视化的工具 73
4.4.1 入门级工具 74
4.4.2 在线数据可视化工具 75
4.4.3 互动图形用户界面控制 77
4.4.4 三维工具 78
4.4.5 地图工具 79
4.4.6 进阶工具 81
4.4.7 专家级工具 82
4.5 数据可视化在生物领域中的应用 83
本章小结 85
习题4 86
第5章 Hadoop概论 87
5.1 Hadoop概述 87
5.1.1 Hadoop的发展历史 87
5.1.2 Hadoop的功能与优势 88
5.1.3 Hadoop应用现状和发展趋势 88
5.1.4 Linux下Hadoop平台的搭建 90
5.1.5 Windows下Hadoop平台的搭建 91
5.2 Hadoop结构简介 92
5.2.1 HDFS 93
5.2.2 MapReduce 93
5.2.3 Common 93
5.2.4 YARN 93
5.2.5 其他模块 94
5.3 Apache Spark概述 98
5.3.1 Apache Spark原理 98
5.3.2 Apache Spark的优点 99
本章小结 100
习题5 102
第6章 HDFS、MapReduce和
Common概论 103
6.1 HDFS概述 103
6.1.1 HDFS的设计目标 103
6.1.2 HDFS架构 104
6.1.3 HDFS工作原理 107
6.1.4 HDFS源代码结构 109
6.1.5 HDFS接口 110
6.2 MapReduce概述 112
6.2.1 MapReduce功能和技术特征 112
6.2.2 MapReduce工作机制 114
6.2.3 MapReduce执行流程 115
6.2.4 MapReduce编程源码范例 117
6.2.5 MapReduce接口 118
6.3 Common概述 120
本章小结 121
习题6 122
第7章 NoSQL技术 124
7.1 NoSQL基础知识 124
7.1.1 大数据的一致性策略 124
7.1.2 大数据的分区与放置策略 125
7.1.3 大数据的复制与容错技术 126
7.1.4 大数据的缓存技术 127
7.2 NoSQL的种类 128
7.2.1 键值存储 129
7.2.2 列存储 129
7.2.3 面向文档存储 129
7.2.4 图形存储 130
7.3 典型的NoSQL工具 131
7.3.1 Redis 131
7.3.2 Bigtable 131
7.3.3 CouchDB 132
7.3.4 Neo4j 134
本章小结 134
习题7 135
第8章 云计算与大数据 137
8.1 云计算概论 137
8.1.1 云计算的定义 137
8.1.2 云计算的基本特征 138
8.1.3 云计算的服务模式 140
8.1.4 云计算的部署模式 141
8.2 云计算的相关技术 142
8.2.1 虚拟化技术 142
8.2.2 大数据分布式存储 143
8.2.3 大数据管理技术 144
8.2.4 并行编程模式 145
8.2.5 云计算数据中心 145
8.2.6 云计算集群 147
8.2.7 云计算仿真 148
8.3 云计算安全 150
8.3.1 云计算安全现状 150
8.3.2 云计算安全服务体系 152
8.3.3 云计算安全关键技术 153
8.4 医学大数据与云计算 154
8.4.1 生物医学大数据的云解决方案 155
8.4.2 区域医疗信息云平台建设 158
本章小结 161
习题8 161
第9章 大数据解决方案 163
9.1 大数据解决方案基础 163
9.2 典型大数据解决方案 165
9.2.1 Microsoft大数据解决方案 165
9.2.2 Oracle大数据解决方案 167
9.2.3 IBM大数据解决方案 168
9.2.4 Intel大数据解决方案 170
9.3 医学及商业大数据具体应用案例 172
9.3.1 医学大数据应用案例 172
9.3.2 商业大数据应用案例 175
本章小结 178
习题9 179
第10章 医学大数据挖掘 180
10.1 国内外医学大数据的发展现状 180
10.1.1 国外医学大数据的发展现状 180
10.1.2 国内医学大数据的发展现状 181
10.2 医学大数据的种类、问题及对策 182
10.2.1 医学大数据的种类 182
10.2.2 医学大数据存在的问题及对策 186
10.3 医学大数据挖掘的特点、主要方法及应用 187
10.3.1 大数据挖掘概述 187
10.3.2 医学大数据挖掘的特点 188
10.3.3 医学大数据挖掘的主要方法 189
10.3.4 医学大数据挖掘的应用 191
10.4 基于互联网的大数据挖掘与生物监测 197
10.4.1 基于互联网的大数据生物监测原理 197
10.4.2 基于互联网的大数据生物
监测的典型应用 197
本章小结 202
习题10 203
习题答案 205
参考文献 214