序
前言
第1章 作为职业的Web运维
为什么Web运维如此艰难?
从学徒到师傅
结语
第2章 Picnik如何应用云计算:所学到的教训
什么地方适合云计算(以及为什么!)
什么地方不适合云计算(对Picnik而言)
结语
第3章 基础架构与应用程序测量
时间分辨率和存留时间的考虑
测量数据采集与存储的地点
测量数据的层次
为异常检测和报警提供环境
日志记录也是测量数据
将变化管理和事件的时间线建立关联
给测量数据加入报警机制
使用测量数据建立加载–反馈机制
展示一个测量数据采集系统:Ganglia
结语
第4章 连续部署
小批量意味着更快的反馈
小批量意味着问题即刻被本地化
小批量能够减少风险
小批量可以降低总开销
质量卫士的挽歌
让我们开始吧
连续部署用于关键任务应用
结语
第5章 作为代码的基础架构
面向服务体系结构
结语
第6章 监控
故事:“旅程的开端”
步骤1:理解你在监控什么
步骤2:理解正常行为
步骤3:有备而学
结语
第7章 复杂系统是如何失败的
复杂系统是如何失效的
进一步的读物
第8章 社区管理与Web运维
第9章 处理非预期的访问量激增
一切是如何开始的
警报连连
扑灭烈火
周末逃生
未雨绸缪
救命稻草CDN
代理服务器
围剿踩踏
将代码基流水化
我们怎么知道它能否工作?
真实测试
学到的教训
自那以来的改进
第10章 开发者与运维者的协调与合作
部署
共享、开放的基础架构
信任
随叫随到的开发人员
避免指责
结语
第11章 你的访问者感觉怎么样:面向用户的测量
为什么要采集面向用户的测量数据?
是什么使网站变得很慢?
测量延迟
编写SLA
访客结果:分析
市场营销关心的其他测量数据
用户体验如何影响Web运维
Web监控的未来
结语
第12章 将关系数据库用于Web的战略战术
Web数据库需求
典型的Web数据库是如何增长的
对集群的渴望
数据库战略
数据库战术
结语
第13章 如何优雅地失败:事后处理的艺术与科学
最糟的事后分析
什么是事后分析?
什么时候引入事后分析
邀请谁参加事后分析
进行事后分析
事后分析的后续工作
结语
第14章 存储
数据资产的库存
数据保护
容量规划
存储大小的变化
运维
结语
第15章 非关系数据库
NoSQL数据库概览
某些系统细节
结语
第16章 敏捷基础架构
敏捷基础架构
那么,问题是什么?
兴趣与实践的社区
贸易区和道歉
结语
第17章 夜间鬼魅(以及如何高枕无忧)
术语
多少个9?
影响持续时间对事件持续时间
数据中心数量(footprint)
逐渐失效
不信赖任何人
故障转移测试
监控和历史模式
高枕无忧
合作者
索引