View on GitHub

skill_sheet

My skill_sheet

監視設計

課題

一定の時期に利用が急増する機能で、毎回その時の対応で済ませていて、対策ができていない状況でした。

対応

実装を対応して下さったエンジニアと協力してアーキテクチャを一緒に考えました。 Datadogを使用し、監視するメトリクスの選定、閾値設定、運用を行いました。

成果

このメトリクスから事前に増加を検知しサーバ増強をする事で負荷対策可能になりました。 監視追加後は、毎回起きていた障害は発生せずに運用できるようになりました。