CloudWatch は、AWSリソースやアプリケーションのメトリクス、ログ、アラーム、ダッシュボードを扱う監視サービスです。AWS公式でも、AWSリソースとアプリケーションをリアルタイムに監視し、可観測性を高めるサービスとして説明されています。
まず押さえたいポイント
- 監視の基本サービス
- メトリクス、アラーム、ダッシュボード、ログを扱う
- CPU使用率やエラー数を見る
- 異常時に通知や自動処理のきっかけを作れる
- CloudTrail とは役割が違う
どんな場面で使うか
CloudWatchは、EC2のCPU使用率が上がりすぎていないかを見る、アラームを飛ばす、Lambdaの実行ログを見る、アプリの異常傾向を追う、といった場面で使われます。
どう理解するとよいか
初心者向けには、CloudWatchを AWS運用のメーターと警報機 と考えると分かりやすいです。
今どう動いているかを見るのが主役で、誰が何を変えたか を追う主役は CloudTrail です。
たとえば、CPUが80%を超えたら通知する、エラーログが急増したら確認する、定期ジョブが失敗したらアラームを出す、といった使い方が基本です。
単にグラフを見るだけでなく、異常時に気づくための入口として使うことが多いです。
注意点
CloudWatchだけで運用が完成するわけではありません。
どのメトリクスを見るか、どこで通知するか、ログをどこまで残すかを決めないと、見えているようで見えていない状態になりやすいです。
また、アラートを増やしすぎると、何が本当に大事か分からなくなることもあります。
最初は 落ちたら困るもの すぐ対応が必要なもの から絞って監視を作る方が運用しやすいです。
詳しい整理は、AWSで最初に覚えたい基本用語まとめ|EC2・IAM・S3・VPCのつながりを整理 も参考になります。