MEGAZONE

MEGAZONEブログ

Centralize your operations
Cloud Operations re:Invent 2023

Centralize your operations

Pulisher : Enterprise Managed Service Group ミン・ジホ
Description : System Managerランブックのメリットとデメリットについての紹介セッション

オンプレミス、ハイブリッド環境で使用できる中央集中型運用管理AWSリソースはどんなものがあるのか確認したかった。 System Managerランブックの活用カテゴリーについて知りたい。System Managerランブックの長所と短所(ex,慢性的な短所)が何かあるか確認するためにセッションを申し込みました。

顧客がクラウドに移行すると、リソース数が急速に増加し、既存の運用ツールはこのような大規模なリソースを管理するのに適していません。

複数のアカウントとリージョンを管理することは複雑で非効率的です。

大規模にノードを管理することは困難です。

従来のオンプレミス環境では、1~2台のサーバーを運用するのが一般的でした。

しかし、クラウド環境では数千台のサーバーを運用することが一般的です。 このような大規模な環境では、従来の受動的な運用方法はもはや適していません。

大規模な運用を自動化するには、ツールとプロセスが必要です。これらのツールとプロセスは、効率的、安全、安定的でなければなりません。

自動化された運用でも、人間の介入が必要な場合があります。

たとえば、新しい機能を展開したり、障害を修復する必要がある場合などです。 このような場合、ヒューマンエラーを最小限に抑えるために、プロセスを慎重に設計する必要があります。

AWSは約11(11 quadrillion)個のメトリックを管理しています。

また、Systems Managerで管理されている同時インスタンスは2,000万個に上ります。

AWSは、構成全体で90億件のコンプライアンス検査を管理しています。

AWSは、Cloud Trailからの1500億件の監査APIリクエストを処理しています。

AWSは、あらゆる環境で自動化された運用のために使用できる様々なサービスを提供しています。

Config:このサービスは、インフラ、アプリケーション、サービスの構成を把握できるように支援します。
Observability:このサービスは、システムからメトリックとログを収集・分析し、システムの状態とパフォーマンスに関する洞察を提供します。
セキュリティとコンプライアンスのデータ:このサービスは、セキュリティとコンプライアンスのリスクを特定し、軽減するのに役立ちます。
Systems Managerでの自動化:このサービスは、パッチやプロビジョニングなどのタスクを自動化するためのコード実行をサポートします。
変更管理:このサービスは、構成の逸脱を防ぎ、変更が制御された方法で行われることを保証するのに役立ちます。
イベント管理とインシデント管理:このサービスは、システム障害やセキュリティイベントなどのイベントを監視し、対応するのに役立ちます。
Load Manager:このサービスは、インフラストラクチャの作業負荷を管理するのに役立ちます。
Service Management Connector : このサービスは、AWSサービスの出力をITSMソリューションに接続するのに役立ちます。
アプリケーションマネージャー:このサービスは、アプリケーションを管理するのに役立ちます。
Fleet Manager:このサービスは、デバイスのフリート管理を支援します。
audit:このサービスは、システムとアプリケーションの監査を行い、コンプライアンスを確認するのに役立ちます。

EC2インスタンスでマイクロサービスの不安定性を解決するためにこれらのサービスを使用した実際の事例を共有していただきました。

単一のAWSアカウントと単一のリージョンで問題を特定するのは難しい場合があります。複数のAWSアカウントとリージョンを使用している場合、問題の特定は特に困難です。

問題を迅速に特定して解決するには、観測可能性データを一元化することが重要です。

委任された管理者アカウントとITサービス管理コネクタは、観測可能性データを一元化するのに役立ちます。

CloudWatchアラームを使用して、クラウドリソースの状態を監視し、自動化されたアクションをトリガーすることができます。

OpsCenterは観測の可能性を高めます。

つまり、監視ツールが提供する生データにコンテキスト情報を追加し、より実行可能なものにします。

OpsCenterは、CloudWatchやその他のAWSサービスとの深い統合を提供します。そのため、データの保存場所に関係なく、問題解決に必要なデータに簡単にアクセスできます。

OpsCenterはサービスコネクタとの双方向統合をサポートしています。

つまり、既存のチケットシステムをOpsCenterと一緒に使用することができます。

Incident Managerは460以上のビルドインランブックを提供しています。これらのランブックは、一般的な問題を自動的に解決するのに役立ちます。

自動化には次のようなメリットがあります。

・自動化は、作業をより速く、より効率的に行うことができます。
・自動化はエラーを減らすことができます。
・自動化は、コードを共有することでチームや組織間のコラボレーションを改善することができます。

一つのAWS Organizationに様々なサービスが生まれ、規模も大きくなっており、運営管理方法は統合されなければならず、運営管理にヒューマンエラーが発生する可能性がある部分を自動化することで減らす必要があります。

自動化に使われるリソースにはAWS System Managerなどがあり、運用の利便性のためにはOpsCenterがあります。

ブログ一覧

この記事の読者はこんな記事も読んでいます