t_wの輪郭
RSS
SRE
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
2023/10/22 14:11:00
不運の輪
平均故障時間
平均修復時間
運用中のシステムの変更
メールによるシステム障害アラートは効果的ではない
効果的なモニタリングの出力
あれ
キャパシティプランニング
キャパシティは高価
N+2の冗長性
リリースエンジニアリング
「単純性という品質は、一旦失われると取り戻すことが極めて難しい」
可用性が低いシステムは利用者の信頼を失う
大規模な縮退運転
エラーバジェット
開発チームは新機能のローンチのためにエラーバジェットを使いたがる
システムの信頼性は平均故障時間と平均修復時間の関数
プロビジョニング
縮退運転
システムのアップデートにはN+2の冗長性が必要
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
バジェット
エラー
エラーバジェット
2023/10/22 14:12:00
開発チームは新機能のローンチのためにエラーバジェットを使いたがる
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
N+2
冗長性
N+2の冗長性
2023/10/22 14:52:00
あれ
システムのアップデートにはN+2の冗長性が必要
修復時間
平均時間
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
平均
平均復旧時間
平均修復時間
2023/10/22 14:27:00
平均復旧時間
システムの信頼性は平均故障時間と平均修復時間の関数
故障時間
平均時間
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
平均
平均故障時間
2023/10/22 14:27:00
MTTF(Mean Time To Failure)
システムの信頼性は平均故障時間と平均修復時間の関数
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
運転
縮退
縮退運転
2023/10/22 14:50:00
大規模な縮退運転
システムのアップデート
N+2の冗長性
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
システムのアップデートにはN+2の冗長性が必要
2023/10/22 15:00:00
負荷を捌くのに最低限必要な数:N
アップデートで止まる部位:-1
アップデート中に故障で止まる部位:-1
可用性が低いシステム
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
可用性が低いシステムは利用者の信頼を失う
2023/10/22 15:51:00
平均修復時間
平均故障時間
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
システムの信頼性
システムの信頼性は平均故障時間と平均修復時間の関数
2023/10/22 14:30:00
漸進的なロールアウト
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
ロールバック
運用中のシステムの変更
あれ
2023/10/22 14:36:00
運用中のシステムの変更
は、以下を自動化すると安全性を高められる
漸進的なロールアウト
高速かつ正確な問題の検出
問題発生時の安全な
ロールバック
新機能
エラーバジェット
『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』
開発チーム
開発チームは新機能のローンチのためにエラーバジェットを使いたがる
2023/10/22 14:15:00