2026.06.13
SRE視点で監視を始めるときの考え方
監視を始めるとき、最初に考えるべきことは「何を見たいか」ではなく、「何が起きたら困るか」です。
CPU、メモリ、ログ、エラー数を見るだけでは、ユーザー影響を判断できないことがあります。
監視設計の順番
- ユーザーに影響する状態を定義する
- 障害時に誰が判断するかを決める
- 通知先と優先度を分ける
- 復旧手順と確認方法を用意する
- ノイズになっている通知を定期的に消す
Datadog や CloudWatch などのツールは重要ですが、監視の目的が曖昧だと通知だけが増えてしまいます。
監視は運用チームのためだけでなく、サービスを安定して使う人のために設計するものです。