第1章 配置管理
1.1 配置管理内容 2
1.1.1 配置管理术语定义 2
1.1.2 应用软件配置 3
1.1.3 硬件配置 4
1.2 配置管理方法 8
1.2.1 配置流程 9
1.2.2 配置自动发现 13
1.3 配置管理工具 14
1.3.1 CMDB数据库介绍与实践 14
1.3.2 自动配置工具 17
1.3.3 云时代下的CMDB 29
1.4 其他运维工具 29
1.4.1 Ambari 29
1.4.2 CLI工具 32
1.4.3 Ganglia 33
1.4.4 Cloudera Manager 34
1.4.5 其他工具 38
1.5 作业与练习 39
参考文献 39
第2章 系统管理及日常巡检
2.1 系统建设 40
2.1.1 技术方案 41
2.1.2 部署实施 43
2.1.3 测试验收 47
2.2 系统管理对象 48
2.2.1 系统管理对象 48
2.2.2 系统软件 49
2.2.3 系统硬件 61
2.2.4 系统数据 62
2.2.5 IT供应商 62
2.3 系统管理内容 63
2.3.1 事件管理 64
2.3.2 问题管理 64
2.3.3 配置管理 65
2.3.4 变更管理 66
2.3.5 发布管理 66
2.3.6 知识管理 67
2.3.7 日志管理 67
2.3.8 备份管理 68
2.4 系统管理工具 68
2.4.1 资产管理 69
2.4.2 监控管理 69
2.4.3 流程管理 70
2.4.4 外包管理 71
2.5 系统管理制度规范 71
2.5.1 系统管理标准 71
2.5.2 系统管理制度 72
2.5.3 系统管理规范 72
2.6 日常巡检 73
2.6.1 检查内容分类 73
2.6.2 巡检方法分类 74
2.6.3 巡检流程 75
2.7 作业与练习 76
参考文献 77
第3章 故障管理
3.1 集群结构 78
3.2 故障报告 80
3.2.1 发现 80
3.2.2 影响分析 81
3.3 故障处理 82
3.3.1 故障诊断 82
3.3.2 故障排除 83
3.4 故障后期管理 84
3.4.1 建立和更新知识库 84
3.4.2 故障预防 85
3.5 作业与练习 86
参考文献 86
第4章 性能管理
4.1 性能分析 87
4.1.1 性能因子 87
4.1.2 性能指标 88
4.2 性能监控工具 90
4.2.1 GUI 90
4.2.2 集群CLI 94
4.2.3 操作系统自带工具 99
4.2.4 Ganglia 105
4.2.5 其他监控工具 107
4.3 性能优化 107
4.3.1 Hadoop集群配置规划优化 107
4.3.2 Hadoop性能优化 108
4.3.3 作业优化 112
4.4 作业与练习 120
参考文献 120
第5章 安全管理
5.1 安全概述 121
5.2 资产安全管理 122
5.2.1 环境设施安全 122
5.2.2 设备安全 123
5.3 应用安全 123
5.3.1 技术安全 123
5.3.2 数据安全 127
5.4 安全威胁 129
5.4.1 人为失误 129
5.4.2 外部攻击 131
5.4.3 信息泄密 132
5.4.4 灾害 133
5.5 安全措施 133
5.5.1 安全制度规范 133
5.5.2 安全防范措施 134
5.6 作业与练习 135
参考文献 136
第6章 高可用性管理
6.1 高可用性概述 137
6.2 高可用性技术 138
6.2.1 系统架构 138
6.2.2 容灾 140
6.2.3 监控 140
6.2.4 故障转移 148
6.3 业务连续性管理 149
6.3.1 灾备系统 149
6.3.2 应急预案 153
6.3.3 日常演练 154
6.4 作业与练习 155
第7章 应用变更管理
7.1 变更管理概述 156
7.1.1 变更管理目标 156
7.1.2 变更管理范围 156
7.1.3 变更管理的种类 157
7.1.4 变更管理的原则 157
7.2 变更管理流程 158
7.2.1 变更的组织架构 158
7.2.2 变更的管理策略 158
7.2.3 变更的流程控制 158
7.2.4 变更管理流程 158
7.3 变更配置管理 161
7.4 作业与练习 161
参考文献 161
第8章 升级管理
8.1 Hadoop升级管理 162
8.1.1 Hadoop升级风险 163
8.1.2 HDFS的数据和元数据升级 163
8.1.3 YARN升级配置 164
8.2 Spark升级管理 164
8.2.1 Spark特性 165
8.2.2 Spark生态系统 166
8.3 Hive SQL升级管理 166
8.3.1 Hive SQL体系结构 167
8.3.2 安装配置 167
8.4 ZooKeeper升级管理 169
8.4.1 单机模式 169
8.4.2 集群模式 170
8.5 作业与练习 171
参考文献 172
第9章 服务资源管理
9.1 业务能力管理 173
9.1.1 业务需求评估 173
9.1.2 业务需求趋势预测 174
9.2 服务能力管理 176
9.2.1 人员能力动态管理 176
9.2.2 服务成本动态管理 177
9.2.3 技术与工具管理 179
9.3 服务资源整合 179
9.3.1 不同角色的责权划分 179
9.3.2 用户、供应商、厂商的典型协作方式 181
9.4 作业与练习 183
参考文献 184
附录A 大数据和人工智能实验环境
附录B Hadoop环境要求
附录C 名词解释