2026.06.13

SRE視点で監視を始めるときの考え方

監視を始めるとき、最初に考えるべきことは「何を見たいか」ではなく、「何が起きたら困るか」です。

CPU、メモリ、ログ、エラー数を見るだけでは、ユーザー影響を判断できないことがあります。

監視設計の順番

  • ユーザーに影響する状態を定義する
  • 障害時に誰が判断するかを決める
  • 通知先と優先度を分ける
  • 復旧手順と確認方法を用意する
  • ノイズになっている通知を定期的に消す

Datadog や CloudWatch などのツールは重要ですが、監視の目的が曖昧だと通知だけが増えてしまいます。

監視は運用チームのためだけでなく、サービスを安定して使う人のために設計するものです。