MEGAZONE

MEGAZONEブログ

Automate operations management on AWS
Cloud Operations re:Invent 2023

Automate operations management on AWS

Pulisher : Enterprise Managed Service Group ミン・ジホ
Description : AWS System Managerを使用したAWS Trusted Advisorに関連する運用プロセスとAWS configを通じたワークフロー構築についてのワークショップセッション

AWS Trusted Advisor, AWS Config関連の運営業務をSystem Managerでどのように自動化できるのか確認したいと思いました。AWS Elastic Disaster Recoveryリソースを通じたAWS災害復旧複製を構成する方法が気になり、セッションを申し込みました。

アジャイルのバランスを取り、稼働時間を最大化し、コンプライアンスをサポートし、組織の効率を高めることは複雑であり、オンプレミスやその他のクラウドリソースを追加すると複雑さが増す可能性があります。このワークショップでは、AWSシステム管理者を使用して、AWS Trusted Advisorに関連する運用プロセス、およびAWS configを使用したコンプライアンスの設定とトラブルシューティングに関連する運用プロセスを自動化するためのワークフローの構築について説明します。 また、AWS elastic disaster recoveryを使用して、AWSで災害復旧レプリケーションを構成する方法について説明します。

よく設計されたクラウド運営環境は、インフラとアプリケーションを以下の機能で簡単に展開することができます。

1.拡張可能
2.費用対効果
3.高可用性
4.自動化とセキュリティ

AWSに移行する際に最も最初に考慮すべき事項の一つは、クラウドでどのように運用するのかということです。

AWSのお客様は、AWSサービスを使用してクラウドで運用し、次のようなメリットを享受しています。

1.ダウンタイムの削減
2.コスト削減

AWSのクラウド運用サービスは、ビジネスに大きな影響を与えることができます。

以下は、AWSクラウド運営サービスの一部です。

1.AWS System Manager
2.AWS CloudWatch
3.AWS CloudFormation
4.AWS CloudTrail
5.AWS Config

上記のサービスは、次のようなことを支援することができます。

1.IT運用の自動化
2.クラウドリソース管理
3.アプリケーション監視
4.セキュリティコンプライアンス

クラウドの運用哲学は、自動化と簡単な運用管理を重視しています。

Trusted Advisorは、Best Practiceに基づいて運用を最適化できる方法についての提案を提供し、これを支援するサービスです。

Configは、環境を継続的に評価し、変更に基づいてレポートやイベントを送信することで支援するもう一つのサービスです。

CloudWatchはリアルタイムのメトリックとログを提供するサービスで、自動化されたダッシュボードに送信して環境をより良く管理することができます。

オンプレミスリカバリにはDRSを使用できますが、適切なプロダクションマイグレーションには使用しないことをお勧めします。移行を実行するには、AWS Migration Hubや関連エージェントなどの他の移行ツールを使用することをお勧めします。

DRSは、災害復旧とレプリケーションの実行方法を決定します。DRをより細かく制御したい場合は、これが最適ではないかもしれません。

メリットとしては、実際の災害発生時にDRを実行できるマネージドサービスを提供します。

スクリプトを手動で設定する代わりに、中央でDRプロセスを管理することができます。

短所としては、上記の制限を参照すると、多くのDR決定が行われ、高度なDR機能が必要な場合は、他のソフトウェア製品をお勧めします。

System ManagerはAWSの可視性制御機能を提供し、複数のAWSサービスの運用データに対する単一ウィンドウを提供し、AWSリソース全体で運用作業を自動化することができます。

OpsCenterは、クラウドデータセンターでもリソースに影響を与える問題のMTTRを短縮するように設計されています。

IT専門家がリソースに関連するOpsItemsを表示、調査、解決できる中央の場所を提供します。

上記のシナリオは、スケジュールされたCloudWatchイベントルールを使用して、CloudTrailでEBSボリュームと関連する項目を検査するLambda関数を定期的に実行します。

Lambda関数はCloudTrailの作業を検査して、EBSボリュームが分離されユーザーが定義した期間中に使用可能かどうかを確認します。

OpsitemはAPIベースで作成され、様々な方法で作成することができます。

Ops Centerは、システム管理者がAWS環境で進行中の問題を確認できる中央ウィンドウの役割を果たすことができます。このシナリオでは、EventBridgeを使用して不適合リソースの項目を作成しました。

これを使用して、独自のコードを使用して運用関連項目をOpscenterに送信することもできます。利点は、システム管理者が何が悪いのかを把握するために複数のサービスを訪問する必要がないことです。 Opscenterは、送信された項目に基づいて問題を通知し、システム管理者のドキュメントに接続して解決するように構成することもできます。

このシナリオでは、AWS Configルールを作成し、承認されていないAMIを使用するEC2インスタンスを識別します。

識別し、OpsCenterが不適合リソースの詳細を追跡し、調査措置を記録し、一貫した解決措置へのアクセスを提供するシナリオです。

一貫した解決策へのアクセスを提供するシナリオです。

configで正常が非正常になると、eventbridgeでこの部分を検出してopsitemを生成します。 opsitemが生成されると、System Managerを通じて特定の動作をさせることができます。

AWS Disaster recovery, Opscenter, System managerについて学びました。 当該リソースを通じて可用性確保をすることができると思い、Opsitemが生成され、System Managerと簡単にコマンドを入力できることで、実務に多く使われることができると思いました。

ブログ一覧

この記事の読者はこんな記事も読んでいます