SRE: Google运维解密

内容简介：

Betsy Beyer 是Google 纽约负责SRE 的一名技术文档作家。她之前曾为遍布全球的Google 数据中心与Mountain View 硬件运维团队编写文档。在搬到纽约之前，Betsy 是Stanford 大学技术性写作课程的讲师。她曾经学习国际关系与英文文学，并在Stanford和Tulane 获得学历。

Chris Jones 是Google App Engine 的一名SRE。Google App Engine 是一个PaaS 服务，每天处理超过280 亿个请求。他的办公室在旧金山，他之前的工作包括Google 广告统计、数据仓库，以及用户支持系统的维护。在之前，Chris 曾经在学校IT 行业任职，同时参与过竞选数据分析，以及一些BSD 内核的修改。他有计算机工程、经济学，以及技术政策学的学位。同时他也是一名有执照的职业工程师。

Jennifer Petoff 是Google SRE 团队的一名项目经理，工作地点在都柏林，爱尔兰。她曾经负责管理大型全球项目，包括：科学研究、工程、人力资源，以及广告等。Jennifer在加入Google 之前，曾在化工行业任职八年。她获得了Stanford 大学的化学博士与学士学位，同时她还拥有Rochester 大学的心理学学位。

Niall Murphy 是Google 爱尔兰团队广告SRE 的负责人。他拥有20 年互联网行业经验，目前是INEX（爱尔兰网络互联枢纽）的主席。他曾经写作以及参与写作很多科技文章与书籍，包括O’Reilly 出版的IPv6 Network Administration，以及很多RFC。他目前在参与书写爱尔兰互联网发展史。他拥有计算机科学、数学，以及诗歌学的学历（他当时一定是想错了！）。他目前与妻子和两个儿子居住在都柏林。

译者

孙宇聪，前Google SRE（2007-2015），山景城总部，曾参与构建运维Youtube 全球CDN网络，2008年奥运会直播项目，构建维护海量视频编码传输系统。后参与Google内部云平台运维工作，负责运维全球百万级别服务器集群，以及Borg、Omega等大规模集群理系统。2015年加入Coding，任CTO一职。回国后，积极推动国内容器化运维架构升级。目前是开放运维联盟之应用运维规范制定组，高可用运维规范制定者。

作者简介：

译者

目录：

前言 xxxi

序言 xxxv

第Ⅰ部分　概览

第1 章　介绍 2

系统管理员模式 2

Google 的解决之道：SRE 4

SRE 方法论 6

确保长期关注研发工作 6

在保障服务SLO 的前提下最大化迭代速度 7

监控系统 8

应急事件处理 8

变更管理 9

需求预测和容量规划 9

资源部署 10

效率与性能 10

小结 10

第2 章　Google 生产环境：SRE 视角 11

硬件 11

管理物理服务器的系统管理软件 13

管理物理服务器 13

存储 14

网络 15

其他系统软件 16

分布式锁服务 16

监控与警报系统 16

软件基础设施 17

研发环境 17

莎士比亚搜索：一个示范服务 18

用户请求的处理过程 18

任务和数据的组织方式 19

第Ⅱ部分　指导思想

第3 章　拥抱风险 23

管理风险 23

度量服务的风险 24

服务的风险容忍度 25

辨别消费者服务的风险容忍度 26

基础设施服务的风险容忍度 28

使用错误预算的目的 30

错误预算的构建过程 31

好处 32

第4 章　服务质量目标 34

服务质量术语 34

指标 34

目标 35

协议 36

指标在实践中的应用 37

运维人员和最终用户各关心什么 37

指标的收集 37

汇总 38

指标的标准化 39

目标在实践中的应用 39

目标的定义 40

目标的选择 40

控制手段 42

SLO 可以建立用户预期 42

协议在实践中的应用 43

第5 章　减少琐事 44

琐事的定义 44

为什么琐事越少越好 45

什么算作工程工作 46

琐事繁多是不是一定不好 47

小结 48

第6 章　分布式系统的监控 49

术语定义 49

为什么要监控 50

对监控系统设置合理预期 51

现象与原因 52

黑盒监控与白盒监控 53

4 个黄金指标 53

关于长尾问题 54

度量指标时采用合适的精度 55

简化，直到不能再简化 55

将上述理念整合起来 56

监控系统的长期维护 57

Bigtable SRE ：警报过多的案例 57

Gmail ：可预知的、可脚本化的人工干预 58

长跑 59

小结 59

第7 章　Google 的自动化系统的演进 60

自动化的价值 60

一致性 60

平台性 61

修复速度更快 61

行动速度更快 62

节省时间 62

自动化对Google SRE 的价值 62

自动化的应用案例 63

Google SRE 的自动化使用案例 63

自动化分类的层次结构 64

让自己脱离工作：自动化所有的东西 66

舒缓疼痛：将自动化应用到集群上线中 67

使用Prodtest 检测不一致情况 68

幂等地解决不一致情况 69

专业化倾向 71

以服务为导向的集群上线流程 72

Borg ：仓库规模计算机的诞生 73

可靠性是最基本的功能 74

建议 75

第8 章　发布工程 76

发布工程师的角色 76

发布工程哲学 77

自服务模型 77

追求速度 77

密闭性 77

强调策略和流程 78

持续构建与部署 78

构建 78

分支 79

测试 79

打包 79

Rapid 系统 80

部署 81

配置管理 81

小结 82

不仅仅只对Google 有用 83

一开始就进行发布工程 83

第9 章　简单化 85

系统的稳定性与灵活性 85

乏味是一种美德 86

我绝对不放弃我的代码 86

“负代码行”作为一个指标 87

最小 API 87

模块化 87

发布的简单化 88

小结 88

第Ⅲ部分　具体实践

第10 章　基于时间序列数据进行有效报警 93

Borgmon 的起源 94

应用软件的监控埋点 95

监控指标的收集 96

时间序列数据的存储 97

标签与向量 98

Borg 规则计算 99

报警 104

监控系统的分片机制 105

黑盒监控 106

配置文件的维护 106

十年之后 108

第11 章　on-call 轮值 109

介绍 109

on-call 工程师的一天 110

on-call 工作平衡 111

数量上保持平衡 111

质量上保持平衡 111

补贴措施 112

安全感 112

避免运维压力过大 114

运维压力过大 114

奸诈的敌人—运维压力不够 115

小结 115

第12 章　有效的故障排查手段 116

理论 117

实践 119

故障报告 119

定位 119

检查 120

诊断 122

测试和修复 124

神奇的负面结果 125

治愈 126

案例分析 127

使故障排查更简单 130

小结 130

第13 章　紧急事件响应 131

当系统出现问题时怎么办 131

测试导致的紧急事故 132

细节 132

响应 132

事后总结 132

变更部署带来的紧急事故 133

细节 133

事故响应 134

事后总结 134

流程导致的严重事故 135

细节 135

灾难响应 136

事后总结 136

所有的问题都有解决方案 137

向过去学习，而不是重复它 138

为事故保留记录 138

提出那些大的，甚至不可能的问题：假如…… 138

鼓励主动测试 138

小结 138

第14 章　紧急事故管理 140

无流程管理的紧急事故 140

对这次无流程管理的事故的剖析 141

过于关注技术问题 141

沟通不畅 141

不请自来 142

紧急事故的流程管理要素 142

嵌套式职责分离 142

控制中心 143

实时事故状态文档 143

明确公开的职责交接 143

一次流程管理良好的事故 144

什么时候对外宣布事故 144

小结 145

第15 章　事后总结：从失败中学习 146

Google 的事后总结哲学 146

协作和知识共享 148

建立事后总结文化 149

小结以及不断优化 151

第16 章　跟踪故障 152

Escalator 152

Outalator 153

聚合 154

加标签 155

分析 155

未预料到的好处 156

第17 章　测试可靠性 157

软件测试的类型 158

传统测试 159

生产测试 160

创造一个构建和测试环境 163

大规模测试 165

测试大规模使用的工具 166

针对灾难的测试 167

对速度的渴求 168

发布到生产环境 170

允许测试失败 170

集成 172

生产环境探针 173

小结 175

第18 章　SRE 部门中的软件工程实践 176

为什么软件工程项目对SRE 很重要 176

Auxon 案例分析：项目背景和要解决的问题 177

传统的容量规划方法 177

解决方案：基于意图的容量规划 179

基于意图的容量规划 180

表达产品意图的先导条件 181

Auxon 简介 182

需求和实现：成功和不足 183

提升了解程度，推进采用率 185

团队内部组成 187

在SRE 团队中培养软件工程风气 187

在SRE 团队中建立起软件工程氛围：招聘与开发时间 188

做到这一点 189

小结 190

第19 章　前端服务器的负载均衡 191

有时候硬件并不能解决问题 191

使用DNS 进行负载均衡 192

负载均衡：虚拟IP 194

第20 章　数据中心内部的负载均衡系统 197

理想情况 198

识别异常任务：流速控制和跛脚鸭任务 199

异常任务的简单应对办法：流速控制 199

一个可靠的识别异常任务的方法：跛脚鸭状态 200

利用划分子集限制连接池大小 201

选择合适的子集 201

子集选择算法一：随机选择 202

子集选择算法二：确定性算法 204

负载均衡策略 206

简单轮询算法 206

最闲轮询策略 209

加权轮询策略 210

第21 章　应对过载 212

QPS 陷阱 213

给每个用户设置限制 213

客户端侧的节流机制 214

重要性 216

资源利用率信号 217

处理过载错误 217

决定何时重试 218

连接造成的负载 220

小结 221

第22 章　处理连锁故障 223

连锁故障产生的原因和如何从设计上避免 224

服务器过载 224

资源耗尽 225

服务不可用 228

防止软件服务器过载 228

队列管理 229

流量抛弃和优雅降级 230

重试 231

请求延迟和截止时间 234

慢启动和冷缓存 236

保持调用栈永远向下 238

连锁故障的触发条件 238

进程崩溃 239

进程更新 239

新的发布 239

自然增长 239

计划中或计划外的不可用 239

连锁故障的测试 240

测试直到出现故障，还要继续测试 240

测试最常用的客户端 241

测试非关键性后端 242

解决连锁故障的立即步骤 242

增加资源 242

停止健康检查导致的任务死亡 242

重启软件服务器 242

丢弃流量 243

进入降级模式 243

消除批处理负载 244

消除有害的流量 244

小结 244

第23 章　管理关键状态：利用分布式共识来提高可靠性 246

使用共识系统的动力：分布式系统协调失败 248

案例1 ：脑裂问题 249

案例2 ：需要人工干预的灾备切换 249

案例3 ：有问题的小组成员算法 249

分布式共识是如何工作的 250

Paxos 概要：协议示例 251

分布式共识的系统架构模式 251

可靠的复制状态机 252

可靠的复制数据存储和配置存储 252

使用领头人选举机制实现高可用的处理系统 253

分布式协调和锁服务 253

可靠的分布式队列和消息传递 254

分布式共识系统的性能问题 255

复合式Paxos ：消息流过程详解 257

应对大量的读操作 258

法定租约 259

分布式共识系统的性能与网络延迟 259

快速Paxos 协议：性能优化 260

稳定的领头人机制 261

批处理 262

磁盘访问 262

分布式共识系统的部署 263

副本的数量 263

副本的位置 265

容量规划和负载均衡 266

对分布式共识系统的监控 270

小结 272

第24 章　分布式周期性任务系统 273

Cron 273

介绍 273

可靠性 274

Cron 任务和幂等性 274

大规模Cron 系统 275

对基础设施的扩展 275

对需求的扩展 276

Google Cron 系统的构建过程 277

跟踪Cron 任务的状态 277

Paxos 协议的使用 277

领头人角色和追随者角色 278

保存状态 281

运维大型Cron 系统 282

小结 283

第25 章　数据处理流水线 284

流水线设计模式的起源 284

简单流水线设计模式与大数据 284

周期性流水线模式的挑战 285

工作分发不均造成的问题 285

分布式环境中周期性数据流水线的缺点 286

监控周期性流水线的问题 287

惊群效应 287

摩尔负载模式 288

Google Workflow 简介 289

Workflow 是模型—视图—控制器（MVC）模式 290

Workflow 中的执行阶段 291

Workflow 正确性保障 291

保障业务的持续性 292

小结 294

第26 章　数据完整性：读写一致 295

数据完整性的强需求 296

提供超高的数据完整性的策略 297

备份与存档 298

云计算环境下的需求 299

保障数据完整性和可用性：Google SRE 的目标 300

数据完整性是手段，数据可用性是目标 300

交付一个恢复系统，而非备份系统 301

造成数据丢失的事故类型 301

维护数据完整性的深度和广度的困难之处 303

Google SRE 保障数据完整性的手段 304

24 种数据完整性的事故组合 304

第一层：软删除 305

第二层：备份和相关的恢复方法 306

额外一层：复制机制 308

1T vs. 1E ：存储更多数据没那么简单 309

第三层：早期预警 310

确保数据恢复策略可以正常工作 313

案例分析 314

Gmail—2011 年2 月：从GTape 上恢复数据（磁带） 314

Google Music—2012 年3 月：一次意外删除事故的检测过程 315

SRE 的基本理念在数据完整性上的应用 319

保持初学者的心态 319

信任但要验证 320

不要一厢情愿 320

纵深防御 320

小结 321

第27 章　可靠地进行产品的大规模发布 322

发布协调工程师 323

发布协调工程师的角色 324

建立发布流程 325

发布检查列表 326

推动融合和简化 326

发布未知的产品 327

起草一个发布检查列表 327

架构与依赖 328

集成 328

容量规划 328

故障模式 329

客户端行为 329

流程与自动化 330

开发流程 330

外部依赖 331

发布计划 331

可靠发布所需要的方法论 332

灰度和阶段性发布 332

功能开关框架 333

应对客户端滥用行为 334

过载行为和压力测试 335

LCE 的发展 335

LCE 检查列表的变迁 336

LCE 没有解决的问题 337

小结 338

第Ⅳ部分　管理

第28 章　迅速培养SRE 加入on-call 341

新的SRE 已经招聘到了，接下来怎么办 341

培训初期：重体系，而非混乱 344

系统性、累积型的学习方式 345

目标性强的项目工作，而非琐事 346

培养反向工程能力和随机应变能力 347

反向工程：弄明白系统如何工作 347

统计学和比较性思维：在压力下坚持科学方法论 347

随机应变的能力：当意料之外的事情发生时怎么办 348

将知识串联起来：反向工程某个生产环境服务 348

有抱负的on-call 工程师的5 个特点 349

对事故的渴望：事后总结的阅读和书写 349

故障处理分角色演习 350

破坏真的东西，并且修复它们 351

维护文档是学徒任务的一部分 352

尽早、尽快见习on-call 353

on-call 之后：通过培训的仪式感，以及日后的持续教育 354

小结 354

第29 章　处理中断性任务 355

管理运维负载 356

如何决策对中断性任务的处理策略 356

不完美的机器 357

流状态 357

将一件事情做好 358

实际一点的建议 359

减少中断 361

第30 章　通过嵌入SRE 的方式帮助团队从运维过载中恢复 363

第一阶段：了解服务，了解上下文 364

确定最大的压力来源 364

找到导火索 364

第二阶段：分享背景知识 365

书写一个好的事后总结作为示范 366

将紧急事件按类型排序 366

第三阶段：主导改变 367

从基础开始 367

获取团队成员的帮助 367

解释你的逻辑推理过程 368

提出引导性问题 368

小结 369

第 31 章　SRE 与其他团队的沟通与协作 370

沟通：生产会议 371

议程 372

出席人员 373

SRE 的内部协作 374

团队构成 375

高效工作的技术 375

SRE 内部的协作案例分析：Viceroy 376

Viceroy 的诞生 376

所面临的挑战 378

建议 379

SRE 与其他部门之间的协作 380

案例分析：将DFP 迁移到F1 380

小结 382

第32 章　SRE 参与模式的演进历程 383

SRE 参与模式：是什么、怎么样以及为什么 383

PRR 模型 384

SRE 参与模型 384

替代性支持 385

PRR ：简单PRR 模型 386

参与 386

分析 387

改进和重构 387

培训 388

“接手”服务 388

持续改进 388

简单PRR 模型的演进：早期参与模型 389

早期参与模型的适用对象 389

早期参与模型的优势 390

不断发展的服务：框架和SRE 平台 391

经验教训 391

影响SRE 的外部因素 392

结构化的解决方案：框架 392

新服务和管理优势 394

小结 395

第Ⅴ部分　结束语

第33 章　其他行业的实践经验 398

有其他行业背景的资深SRE 399

灾难预案与演习 400

从组织架构层面坚持不懈地对安全进行关注 401

关注任何细节 401

冗余容量 401

模拟以及进行线上灾难演习 402

培训与考核 402

对详细的需求收集和系统设计的关注 402

纵深防御 403

事后总结的文化 403

将重复性工作自动化，消除运维负载 404

结构化和理性的决策 406

小结 407

第34 章　结语 408

附录A　系统可用性 411

附录B　生产环境运维过程中的最佳实践 412

附录C　事故状态文档示范 417

附录D　事后总结示范 419

附录E　发布协调检查列表 423

附录F　生产环境会议记录示范 425

参考文献 427

索引 439__

满满干货，运维必读，五星推荐

RexKang 2017-04-15 0赞

应该有一种职业是专注于整个软件系统的生命周期管理。对于Google，就是SRE。

内容很不错，作为Google长期运维经验的总结，满满干货，运维必读，五星推荐。
从一个运维工程师的角度来看，书中的各种内容都是羡慕嫉妒恨。

花了两个月的时间，终于看到结语了，感觉自己终于松了一口气，这么厚的一本书终于看完了。当然是带着复杂的心情——远超于我们水平的Google分享出它的运维经验，甚是惊喜；书中介绍到他们的运维人员为企业或是世界所作出的贡献，十分羡慕；在阅读过程中，处处感受到我们和他们的差距，五味杂陈；当看到某些地方我们原本可以采用更好的方式时，只能叹息。

对我们来说，运维，依旧有很长的一条路要走。虽然国内的企业，在运维方面，发展也是相当迅速的，尤其是互联网公司。但还是期盼着什么时候，国内的运维也能达到世界级领先的水平，带领运维界进行下一次变革。

Notes: Site Reliability Engineering

masterplan 2017-05-11 1赞

看这本书时做的笔记. 总结一下:

1. 有众多可以参考的地方, 例如 Cron 的设计, 监控的改进, 新工具的推广方法

2. 对手头的系统和工具要非常了解, 这样就可以玩出很多招数

## 1. 介绍

* DevOps 在 Google 的实践

传统开发/运维分离的解决方案在规模扩大后沟通成本上升(“随时发布” vs. “不再改动”) -> 新型运维团队 SRE(50%-60%标准开发, 其他为85%-99%能力的开发, 为了开发系统代替手工操作) -> 最多 50% 时间用于运维工作, 余下开发系统来自动化

* SRE 方法论

* 运维工作最多占用 50% 时间

* 遇到故障事后写总结

* 因为信息系统的特点, 不是也不该追求 100% 可靠, 给出现实的可靠性. 在实现这个可靠性的前提下, SRE 可以做各种创新

* 监控, 通过预案/手册缩短平均恢复时间

* 70% 的事故源于部署变更 -> 渐进发布, 精确检测, 回滚机制

## 2. 生产环境

* 集群资源分配: Borg(分布式集群操作系统), 下一代 Kubernetes(2014)

* Large-scale cluster management at Google with Borg

* Borg, Omega, and Kubernetes

* 负责运行用户提交的任务. 每个任务由多个实例组成, Borg 会为每一个实例安排一台物理服务器, 执行具体的程序启动它

* 负责任务的监控, 如果异常, 终止并重启

* 命名: BNS: /bns/<cluster>/<user>/<task>/<instance>

* 任务需要在配置中声明其所需的具体资源(cpu/mem), 超过则立即 kill

* 存储

* 分布式存储, 小文件和大文件进不同的集群.

* 单个集群一年内会损失上千块硬盘, 数据中心有专门的团队来处理

* 网络

* 这些概念比较陌生, OpenFlow 的软件定义网络, 带宽控制器优化带宽.

* 从地理位置, 用户服务和远程调用三层进行负载均衡

* 监控报警

* 定时抓取指标, 超出触发报警

* **新旧版本的对比: 新版本是否让软件服务器更快了?**

* 检查资源用量随时间的变化, 制定资源计划.

* 服务

* 所有服务使用 RPC 通信, 开源实现为 gRPC

* 格式为 Protocol Buffer(与 Apache Thrift 相比) (大小比 xml 小 3-10 倍, 序列化/反序列化快 100 倍) (和 json 比?)

* 服务和存储根据流量分散到各大洲的机房

* 开发

* Code review

## 3. 拥抱风险

* 目标

* 没有 100% 可靠的服务, 达到一定程度的可靠性之后, 应把精力转向他处.

* **”当设立了一个可用性目标为99.99%时, 我们即使要超过这个目标, 也不会超过太多, 否则会浪费为系统增加新功能, 清理技术债务或者降低运营成本的机会.”**

* 可靠性目标成为错误预算: 提供明确和客观的指标决定服务在一个季度中接受多少不可靠性(用于 SRE 部门和产品部门的沟通). 只要错误预算耗尽, 新版本的发布就会暂停(?但是错误率由 SRE 部门提供, 而发布由产品决定?) -> 认为风险由产品开发决定, 一个变通是, 当错误预算即将用尽时, 降低发布的频率. 即使是网络中断或者数据中心故障影响了错误率, 发布频率也会降低, 因为”每个人”都有义务保障服务的正常运行.

* 可用性指标: 请求成功率. **用我们记录的请求成功率与用户期望的服务水平做对比.**

* 成本

* 可用性: 99.9% 到 99.99%; 收入: 1000000刀 -> 改进后的价值: 1000000 * 0.09% = 900 刀

* 需求

* 面向消费者需要低延迟(队列空为好), 离线计算需要吞吐量(队列满为好). 需要分别响应不同的需求. -> 两个集群, 低延迟/高吞吐量

## 4. 服务质量

* 质量度量

* 请求延迟 (Req time)

* 错误率 (Web errors)

* 吞吐量 (Web QPS)

* Google 云计算的可用性指标: 99.95% -> 60*24*365*0.0005 = 262.8 min/year -> 我们的可用性?

* 特色

* 4/5个指标, 多/少都不好.

* 监控, y 轴指数分布

* 数据收集每10秒一次, 每一分钟汇总一次. 目标像这样: **99% 的 get RPC 调用在 < 100ms 的时间内完成.**, 每天可以出一个这样的报表.

* 总结

* 指标越少越好, 少到不能更少

* 性能指标保持简单

* 从松散的目标开始, 逐渐收紧. 不要一开始就追求完美

* 对内指标要求可以比对外高一些, 留有余地

## 5. 琐事

* 与规模线性增长的手动事务

* 占用 Google SRE 大约 33% 的时间

## 6. 分布式系统的监控

* 方式

* 白盒: 系统内部数据

* 黑盒: 外部响应

* Dashboard: 可视化, 提供选择/过滤功能

* 警报

* 如何监控

* 对照组: 上周, 上一个版本

* 减少报警量(防止”狼来了”)

* 简单快速的逻辑. 不要自动学习阈值(这点和我想的不一样) **避免在监控系统中维护复杂的依赖关系**

* 方法论

* 故障, 警报, 定位和调试都必须保持简单!

* 4个关键指标: 延迟, 流量, 错误率, 饱和度(IO 带宽占用比, 磁盘占用比)

* 长尾

* 重要的是分布而不是平均 -> 直方图 Y 轴指数展示

* 复杂性管理

* 避免监控系统变得过于复杂

## 7. 自动化系统的演进

* shell 脚本 -> 改进后的 Python 单元测试框架(Prodtest, 改进的 Python 单元测试框架, 可用来对实际服务进行单元测试), 用于验证集群中的服务(比如 DNS 是否存在/成功)

* 在 Prodtest 出来之后, 又为每个 test 创建了对应的修复工具.

* 集群上线系统的测试-自动化修复套件的问题:

1. 需要维护!

2. 2. 分布式自动化依赖于 SSH, 需要 root 权限执行. => 需要将 SRE 完成任务所需权限降到最低. => 使用有 ACL 的本地 admin 进程取代 sshd, admin 记录 rpc 请求者, 参数和结果.

* Borg: 成功的核心是”把集群管理变成了一个可以发送 API 的中央协调主体”. 所以 shell 脚本 => Python 集群测试框架(自动化系统) => Borg(自治系统, 将集群管理抽象为单机环境) => 自治系统强调自我检查和自我修复.

* 自动化的问题: 自动化多了, 人就忘了手动该怎么做. 甚至系统将不再有手动操作的接口.

## 8. 发布

* 构建过程的封闭性, 不受构建机器上第三方类库和其他软件工具影响. 编译过程自包含, 不依赖编译环境之外的其他服务.

* 构建工具与被构建的项目放在同一个仓库. (而我们的做法是分离的. 应用开发者按照平台提供的规范走, 不管构建的事. 各有好处. 这样平台在构建过程上可发挥的空间更大)

* 单独的发布分支(避免引入之后主分支上的改动). 发布系统将创建新的发布分支, 编译, 跑单元测试. 每一步都有日志记录.

* 部署. “提供一系列可扩展的 Python 类, 支持任意部署流程”. 同时会对流程进行监控.

* 经验: 在规模不大时就考虑发布工程, 尽早采用最佳实践(尽早建立平台团队?)

## 9. 简单化

* 问题: 代码膨胀. 态度: “每一行新代码都是负担”, less is more.

* 方法: 最小 API(方法更少, 参数更少), 模块化(定义良好的边界)

## 10. 基于时序数据的报警

SRE 的职责层级关系(低 -> 高):

监控

应急处理

事后总结和问题根源分析

测试

容量规划

研发(50%+ 的精力)

监控首当其冲.

* 方法论: 单机问题报警没有意义(太频繁).

* 模型: 探针(脚本返回值 + 图形展示) 转到时序信息监控. 收集回来的数据同时进行展示和报警, 报警规则由数学表达式表示.

* 接口: /varz HTTP 列出所有的监控变量值, 由 Borgmon 定时抓取. (看来在应用所在每个机器上都有)

* 报警: 每条报警规则都有一个持续时间, 只有当警报持续时间超过一定范围之后才触发报警. (有借鉴意义, 尤其是对可自动恢复的问题); 同时多条连续的报警信息可以合并.

## 11. On-call

* 运维工作时间上限是50%工作时间, 其中不超过 25% 的 on-call.

* 分钟级的 ack. 比如 99.99% 可用的系统, 每个季度有 13 分钟的不可用时间, 那么 on-call 必须在 13 分钟之内解决问题(不过这里的”问题”看来是影响全局服务的大问题)

* “面临挑战时, 人有两种处理模式: 1. 依赖直觉, 快速, 自动化行动 2. 理性, 专注, 有意识认知活动. 为了确保 on-call 采用第二种方式, 必须减少其压力. 医学上讲, 压力状态下释放的荷尔蒙, 如 xx 和 yy, 可能造成恐惧, 进而影响正常认知..” 哈哈哈, 这个态度我喜欢, 必须把不理性的情况考虑到, 避免运维压力过大.

## 12. 故障排查

* 大型系统中, 遇到问题首要做的是尽可能恢复服务, 而不是查找问题根源.

* 将故障排查测试的项目明确写出来, 同时公布测试结果.

## 13. 紧急响应

* 演习: “SRE 故意破坏系统, 模拟事故, 然后针对失败模式进行预防以提高可靠性” => 鼓励主动测试

* Panic room: 专用的灾难安全屋, 有生产环境的专线连接.

## 14. 紧急事故管理

* 出了事故, on-call, 开发, 管理者, 这些关注到的人都在用自己的方法查找并尝试解决问题.

* 都在查找原因, 没有人有精力和时间思考如何通过其他手段缓解当前的问题.

* 没有时间清晰和有效地与其他人进行沟通, 没有人知道他们的同事在干什么.

* 解决: 职责分离. 有事故总控(需要明确声明现在开始全权负责, 任务分配), 事务处理团队, 发言人和规划负责人(提供支持).

## 15. 事后总结

* 总结: 1. 记录事故 2. 理清根源 3. 采取有效措施使得重现概率最低

* 对事不对人

* 总结报告需要评审

* 举办演习, 再现某篇事故总结事故, 一批工程师扮演文档中提到的角色

* 激励做正确事情的人(“良好的事后总结和事故处理可以赢得从 CEO 到工程师的一致好评”)

## 16. 跟踪故障

* 报警的聚合(一个问题引发了一连串报警)和加标签.

## 17. 测试可靠性

没看懂. 摘一下最后一句话: ”写出优质的测试需要付出的成本是很大的”. 现在写写单元测试没问题, 依赖众多的分布式软件的集成测试还不明白怎么弄.

## 18. SRE 部门中的软件工程实践

* 分析了一个案例, 对扩容需求做了一个应用, 包括需求的定义语法规则和对应的问题求解器. 一开始是简单的启发式逻辑, 后来使用线性规划使其更加聪明. 总结是体现了”发布与迭代”的思路, 不是一开始就期待完美的设计, 而是不断继续前进.

* 讨论了新工具的推广. 公告邮件和简单的演示是不够的, 需要持续和完整的推广方案, 用户的拥护和管理层的帮助. 设计的时候, 要时刻从用户角度提高可用性.

* 不要陷入对”完美的最终产物”的想象中. 一个”最小可行产品”是必要的, 在此基础上进行递进式的, 稳定的小型发布.

* 后期引入有统计学和数学优化背景的人进行优化.

## 19. 前端负载均衡

一致性哈希.

负载均衡器的包转发:

* NAT, 需要在内存中追踪每一个连接, 否定

* 修改数据链路层信息(MAC 地址), 需要后端服务器在一个局域网, 否定

* 包封装, 将请求使用路由封装协议封装到另一个 IP 包中, 使用后端服务器地址作为目标地址, ok.

## 20. 数据中心负载均衡

* 随机轮询:

1. 多个进程共享某个后端时, 其客户端请求速率可能是不同的. 如果一台后端上恰好跑的都是请求速率块的进程, 那么其负载就高.

2. 物理服务器不同

* 最闲轮询:

问题是, 一些任务在处理过程中是跑满了 cpu, 一些则是在阻塞. 但最闲轮询(基于任务数量)会认为负载是一样的.

* 加权轮询:

将最闲轮询的”任务数”替换为综合请求速率, cpu 占用率等计算出的值, 实践中效果更好.

## 21. 过载

## 22. 连锁故障

连锁故障由故障进入正反馈引发. 典型的例子是: 一个集群故障 => fallback 到另一个集群 => 另一个集群某服务受影响变慢 => RPC 超时, 大量重试 => 这个集群也不堪重负挂掉.

* 应对方法: 压力测试极限, 提供降级结果, 在可能导致问题时主动拒绝请求.

* 去除同层调用, 保持调用栈持久向下.

* 压力测试, 直到出现故障

## 23. 分布式共识

* 问题定义: 异步式分布式共识在消息传递可能无线延迟的环境下的实现

* 不能通过简单心跳实现

* 不稳定的条件下, 没有任何一种异步式分布式共识算法可以保证一定达成共识

* Paxos: 有严格顺序的提案被大多数接收者同意, 已被 zk, consul, etcd 等封装. 最出版本的 Paxos 有性能问题

* 复合式 Paxos: Paxos 两阶段: prepare/promise, 允许跳过第一阶段. 但是有锁住的危险. 更好的算法参考 Raft.

## 24. Cron

这里的 cron 是允许错过的, crond 不记录执行信息, 只会记录 schedule.

**定义问题**

cron 分为两类: 可重复的(垃圾回收)和不可重复的(邮件发送).

上面是跑多了的情况, 也有跑少了的情况: 有的 cron 允许错过一次(垃圾回收), 有的不允许(每月结算)

这两种情况导致 cron 的错误建模很复杂. **本文偏向于错过运行, 而不是运行两次**, 因为错过可以手动启动一次, 跑了两次是覆水难收的.

总结: 可以少跑, 不能重复跑

**大规模部署**

最小周期也是每分钟.

也是使用的容器, 主要考虑的功能是进程隔离: 一个进程不该影响到另外的进程.

容错. 调度器确保在数据中心的另一个地方有备份.

总结: 最小粒度每分钟, 调度器有多重实例, 通过 paxos 确保一致性

**Cron at Google**

对 cron 的状态, 有两种选择:

* 存到分布式存储(GFS)

* 存到 cron service

选择的第二种. (GFS 适合大文件存储)

使用 Paxos 算法确保 cron service 的一致性. paxos: 通过多重不可靠的副本达成可靠的一致性.

最重要的信息是**哪个 cron 已经跑过了.**

cron 调度器有多个备份待命, master 负责启动 cron job.

master 的工作流程:

sleep 直到时间到, 向 data center scheduler 发出启动指令,

同时发 paxos, => 其他 replica 知道任务已经启动

启动完毕后再发 paxos. => 其他 replica 知道任务启动完毕

=> cron job 跑完自己结束(解决了并行执行的问题), master 只管启动, 但是一定要成功启动.

确保只有一个调度器与 data center scheduler 交互, 一旦失去 master 地位, 就停止交互.

这里”发 paxos 告知开始启动”和”发 paxos 告知启动完成”中间有个时间段, 这个时间段就是启动时间. **这点很好, 现在 marathon 缺少这个, 你可以告诉他要做什么任务, 但他不会告诉你什么时候完成**

总结: cron 启动状态通过 paxos 与备份同步, 确保只有 master 能与 data center scheduler 交互, 只管启动不管结束

**启动失败**

再次重申, cron job 启动时候有两个同步点: 开始启动和启动完成. 如果 master 在这二者的中间失败, 我们就难以知道启动是否真正完成.

解决方法是使启动操作(master => 启动操作(data center scheduler 执行) => 完成)都是可重入的. 启动操作实际上是一系列的 rpc 操作(我想是类似 redarrow?)

不可避免的是失败. 如果在 rpc 发出 - 启动状态发送到 paxos 之间 master 挂掉, 那么新的 master 可能不知道这个 cron 已经启动, 还是可能导致重复启动. 这种小概率的事件就看你要不要继续付出代价来防了.

**存储状态**

paxos 基本是一个状态变化的连续日志. 这带来两个问题: 1. 日志分段 2. 日志存储

日志分段用打 snapshot 的方式解决: 我猜这里是把日志分成两部分: 之前的日志打成 snapshot, 之后的作为增量. snapshot 保险存放. 那么即使丢失, 丢掉的也是增量, 在一个可控的范围内.

对日志存储, 有两个选择: 分布式存储和系统本地卷. 选择是两种都做: 在所有 master 和备份的本地存(一共3个), 同时写到分布式存储.

**大规模带来的问题**

大规模: 为上千台节点的 data center 提供 cron 服务. 如果这些 cron 都集中到同一时间段就不好了. 举例: 当想要一个每天跑一次的 cron 时, 很多人都会写:

`0 0 * * *`, 拿这时候的 cron 密度就比较高.

提供了一种新格式, `? ? * * *` 表示由 cron master 选 cron 时间, cron master 利用这种写法将其均匀分布:

《SRE》读后感

xindoo 2016-10-02 3赞

原文来自：http://blog.csdn.net/xindoo/article/details/52723114
《SRE》这本书英文版已面世半年后，中文版终于面世。从4月、5月的时候，我就一直在尝试看英文版，由于自己英文水平有限，阅读进度和深度实在有限，看到中文版，对很多章节的内容才算是有了较深入的理解，一句话评价此书，这是一本运维转型的指导性书。

看过原版，再对照中文版，从内容上，并不比原版少什么，所以各位读者不必担心内容相对原版是否缺失，如果各位英语不好、但又想了解Google的SRE，放心大胆的买中文版吧，因为译者也是Google的前SRE，翻译的不能说原汁原味，但也八九不离十。

我自己本身也在国内某大厂做运维，我们也面临着传统运维向devops的转型，接下来我就结合自己实际工作的经历，谈谈我对这本说的理解。

这本书基本上可以分成几个大部分。

* SRE的诞生
* Google内部软硬件环境
* SRE和Dev的协作
* SRE自己是如何做事的

SRE是为了解决op和dev相互之间的矛盾和割裂的问题，用一些工程和规范来让op和dev之间有个平衡，并且最优化系统的发展。书中举出大量dev和sre系统的方法和规范，比如错误预算、部分运维工作交还dev、SRE协助dev团队健康发展等……

从我自己的经验来看，其实作为一个op，一天到晚有一堆乱七八糟的事，曾经因为这些事，搞的我情绪都不太好。不同于国内一些公司，google考虑到了这些，制定了一系列的标准来平衡SRE工作上的问题，比如最多50%运维工作、完善的轮值机制、完善的SRE培训体系……，前两天还看过google的《重新定义公司》，从他们内部各种福利政策来看，google是一个非常人性化的公司。

运维工作中，有些是管理层需要做的事，但也有些内容能让你自己提升自己运维的效率。这么多年，SRE总结出了一套完善的方法论，比如和Dev团队的协作沟通，SRE在风险管理、on-call、故障排查、问题处理、故障后总结……，google都总结出了想当好的经验。

书中也介绍了google的一些软硬件环境，比如数据中心、网络、borg、Chubby（zookeeper）、监控系统、负载均衡、cron等。书中介绍了一些这类软硬件设计的思路，可以给那些想自己设计软硬件系统的公司一些方向。
> We want our systems that are automatic, not just automated.
>

上面这句话是英文版原文，如何理解这句话?我们想让要系统是自治的，而不仅仅是自动的。这是一个设计系统先进的理念，想想我们往常是怎么设计系统的，是不是专注于解决一个问题，流程在这里卡了，需要人为干预，甚至是再做一个新的系统来解决某些问题。

举个例子，一个应用有数十台服务器，服务器会宕机，然后需要把服务器下线，再扩容一台。然后就会有一个监控系统发现问题，再弄个服务器下线的系统，自动化扩容的系统，然后都需要手工提单。这个时候，有人嫌提单麻烦，又写了个自动调其他三个系统解决问题的系统。就因为服务不是自治的，而我们一味强调自动化，导致系统越来越复杂，越来越难以自动化。其实我举的这个例子，google的borg已经很好的解决了，我认为borg基本上就是一个自治的系统。

总结一把，我觉得这本书并不是直接告诉你应该怎么做，因为不同的公司在不同的阶段关注的重点是不一样的，做的事也不可能和google相同，盲从某些方法论可能会得到x'fan相反的结果，所以我的建议是把这本书当成一种方向性的指导。