MEGAZONE

MEGAZONEブログ

Getting started with observability
Cloud Operations re:Invent 2023

Getting started with observability

Pulisher : Managed & Support Center イ・スンヒ
Description : アプリケーションモニタリングの設定、ログファイルからのメトリック抽出、ダッシュボード構築のデモ、Observabilityを実現する方法について紹介したセッション。

今年5月にCOEXで行われたAWS Summit Seoulに参加し、Observabilityの概念を学ぶ機会がありました。Observabilityキーワードの場合、当時も多くのセッションの主要キーワードとして、今回のre:Inventで実際のモニタリングのベストプラクティスを確認することができると期待され、そのセッションを申し込みました。

このセッションでは、アプリケーションモニタリングの設定、ログファイルからのメトリックの抽出、ダッシュボードの構築のデモが含まれており、主要なメトリックのトレンド、変化、異常現象、パターンの可視化によるオブザーバビリティを実現する方法を紹介します。

AWSのオブザーバビリティの主な目標は、ユーザーが使用するサービスに関係なく、優れたオブザーバビリティ体験を提供することです。Amazon CloudWatchなどのAWSサービスは、組み込みのオブザーバビリティからアカウント間のオブザーバビリティまで、さまざまな機能を提供します。管理が困難になる可能性のあるスケーラビリティに備えて、Amazon Managed Grafanaなどのマネージドオープンソースサービスを提供しています。これらのサービスは、お客様のインフラストラクチャの監視を支援し、ユーザーエクスペリエンスの向上、アプリケーションパフォーマンスの向上、コストの最適化に貢献します。

Amazon CloudWatchの観点で観測性について説明します。

問題が発生したときに設定するアラーム、詳細情報を提供するログがCloud Watchの主要な要素であることがわかります。システム監視において重要かつ重要で、使いやすいベストプラクティスに焦点を当てて、オブザーバビリティを開始するプロセスを簡素化し、明確にしたいと思います。

CloudWatchで新しくリリースされたパターン分析について説明します。 CloudWatch Logs Insightsは、ログをクエリする際に機械学習アルゴリズムを使用してパターンを探します。クエリ結果を表示する際、「パターン」タブを選択して、CloudWatch Logsが結果サンプルに基づいて見つけたパターンを見ることができます。 または、クエリに「パターン」コマンドを追加して、一致するすべてのログイベントセットからパターンを分析することもできます。

同様に、新しくリリースされたMulti source query機能について説明します。

CloudWatchを使用して、ハイブリッド、マルチクラウド、オンプレミスのデータソースからのメトリックを統合し、一貫した方法で処理することができます。ソースに関係なく、あらゆるメトリックのクエリ、可視化、アラームを設定することができます。この新機能は、統合されたビューを提供するだけでなく、インフラストラクチャのさまざまな部分や側面にまたがる問題を特定するのに役立ちます。

CloudWatchコンテナインサイトで可視性を確保することができます。例としてECSコンテナインサイトを確認すると、クラスターを選択すると、実行中のすべてのサービスを見ることができます。 また、CPU、メモリ、ネットワークに関するメトリックを見ることができます。この機能はECSコンソールでコンテナインサイト設定にチェックを入れることで有効になります。

上の画面はDevOps Guruが提供するInsights機能です。

Amazon DevOps Guruは運用アプリケーションで異常な動作を検知すると、インサイトを生成します。DevOps Guruは、DevOps Guru設定時に指定したAWSリソースからメトリック、イベントなどを分析します。 各インサイトには、問題を緩和するために取ることができる一つ以上の推奨事項が含まれており、異常な動作を識別するために使用されたメトリック、ロググループ、イベントのリストも含まれています。

AWSが提供するサービスを通じて観測性を高めることができる方策について確認するセッションで、さらに観測性のための新しい機能についても簡単に確認することができ、役に立つセッションでした。 このうち、新しくリリースされたパターン分析機能が興味深かったのですが、手動でフィルタリングしなければならなかった従来の過程とは異なり、自動的にパターンを認識し、異常パターンを検出する機能が運営環境に効率的であることが期待されます。

ブログ一覧

この記事の読者はこんな記事も読んでいます