クラウド活用を前提としたサーバー運用監視のあるべき姿とは?

スピードと柔軟性が求められる現代のビジネスにおいて、ITインフラの主流はクラウドサービスへと移行が進んでいます。しかし、クラウド特有の手軽さからサーバーが乱立し、管理上の手間を増加させてしまうリスクもあります。サーバーの運用監視が適切に行われなければ、せっかくの新規サービス/システムは安定せず、ビジネスの成長を妨げることにもつながりかねません。また、オンプレミスでの運用監視とは異なるクラウド環境特有の課題に対応するために、まずはその違いを認識し、その上で新しい運用監視体制について検討すべきではないでしょうか。ここでは、オンプレミスからクラウドへの変遷をふまえつつ、クラウド時代のサーバー運用監視のあるべき姿を解説します。

オンプレミス⇒クラウドでサーバー運用監視はどう変わったか?

まず、オンプレミス環境からクラウド環境への移行において、運用監視がどう変わるかを整理していきましょう。
運用監視の目的は、「サービス/システムの安定稼働の実現」です。運用業務の基礎となる監視は、主に「正常性監視」と「インフラ監視」に大別されます。

正常性監視

正常性監視は、主にエンドユーザが閲覧、利用するサービスの正常性を確認する業務です。端的に言えば「サービスが使える状態にあるか」を確認することであり、主に以下のような項目を確認します。

  • Webサイトの表示や商品購入画面への遷移が正常かなどの監視
  • URL応答監視によるWebサーバーとDBサーバーの連動確認

インフラ監視

インフラ監視は、サーバーやネットワーク機器など、サービス提供に必要なベースとなる要素を監視する業務です。ハードウェアの故障予知や障害の原因切り分けのために行われるのが一般的です。

  • ハードウェア監視(機器の温度、電圧、ファンの状態など)
  • リソース監視(CPU使用率、メモリ使用率、ストレージ使用率など)
  • httpd、mysqldなど、サーバー内で動作するプロセス監視
  • 上記プロセスが吐き出すログの監視
  • ロードアベレージ監視による負荷状況確認

オンプレミス環境のサーバー運用監視

オンプレミス環境では、各種アプリケーション・ミドルウェア・OS・仮想化基盤・ストレージ・ネットワークなどを基本的にすべて自社で保有するため、監視運用の対象が多岐に渡ります。システムを安定稼働させるためにはサービスの正常性の確認だけでなく、ハードウェアの状態を含むインフラの多角的な監視が必要となります。そのため、インフラの監視を実現するための監視システムの構築・実装には高度な専門知識が必要とされ、インフラや監視を専門とするエンジニアが必要です。また、ハードウェアに異常が発生した際は、実際に現場に駆けつけて作業をする必要がある場合もあり、運用業務の大きな負担となっていました。

しかし、基本的に監視対象が大幅に増減するようなことはなく、機器も余裕を見たスペックで調達することが多かったため、目まぐるしく状況が変わるようなことは少なく、実際の運用監視としてはある程度スタティックで安定していたと言えるかもしれません。

クラウド環境のサーバー運用監視

「サービス・システムの安定稼働の実現」という運用監視の目的はオンプレミス環境と変わりませんが、以下のような点で違いがあります。

監視対象と優先度の違い

クラウド環境では、物理的なリソースはクラウドベンダーの所有物であることから、多岐に渡るインフラのハードウェア監視については不要となります。その分、ユーザ視点で「サービスが正常に動いているか」という正常性監視に注力すると良いでしょう。

しかし、インフラに関するすべての監視が不要になるわけではなく、仮想サーバーに対する監視が必要なことには変わりません。むしろ、オンプレミスと違ってスモールスタートがしやすく、サーバーのスケールアップ・スケールアウトが容易なクラウド環境こそ、サーバーのサイジングや構成の見直しのためにも、リソース監視やロードアベレージなど、サーバーの負荷状況やパフォーマンスの監視をしっかり行うことが求められるでしょう。

動的な環境変化

クラウド環境では、オンプレミスとは異なり、リリース後も環境(サーバーやインスタンス)が動的に変化し得ます。クラウドの大きなメリットとして、サービスへの負荷に応じて自動的にサーバー・インスタンスを増やしてスケールアウトさせる「オートスケーリング機能」がありますが、その都度運用監視項目を設定していては、環境の変化についていけず、運用監視の役割を果たせなくなります。

ログ監視の制限

またログ監視については、クラウドサービスによってはログの閲覧と監視方法に制限がある場合があるため確認が必要です。どの程度まで閲覧可能かはさまざまですが、オンプレミス環境のようにログファイルを全てDLして分析する、といった作業が少なくなる可能性があります。

このようにクラウド環境においては、オンプレミス時代と同様の運用監視体制では業務効率の低下を招く恐れがあります。したがって、クラウド対応を組み込んだツールやアウトソースの活用によって、運用監視業務の効率化を検討したいところです。

クラウド時代のサーバー運用監視とは?

これまでの内容を踏まえ、クラウド時代における運用監視の見直しポイントを解説します。

監視する対象・目指すサービスレベルはどの程度か

当たり前のことですが、まずは監視する対象となるシステムやサービスの特性について理解を深めましょう。どのレベルの運用が求められるのかによって適切なインフラ・監視・運用体制は変わります。
例えば、オートスケーリングが必要なぐらい頻繁にアクセス集中が起きるようなサービスなのか、夜間や休日の方がアクセスが多いサービスなのか、社内システムのような限られた人が平日にしか利用しないサービスなのか、数分でもシステムがストップしてしまうと致命的な影響が出るクリティカルなサービスなのかなど、前提となる条件を整理しましょう。

そして次に、そのサービスの正常性を監視するためにはどんな監視やデータが必要なのか洗い出しましょう。監視で取得したデータ(メトリック)やログをどれぐらいの期間保管しておく必要があるのかなども検討が必要でしょう。

監視ツールは何を使うか

前提となる整理ができたら、適した監視ツールを選定します。監視ツールは数多くありますが、選択肢を大きく分けると次の3つになるでしょう。

  • 利用しているクラウドベンダーが提供する監視ツール(例えばAWSのCloudWatchなど)
  • オープンソースの監視ツール(NagiosやZabbixなど)
  • 有償のSaaS型監視ツール

クラウドベンダーが提供する監視ツールは、ベンダー自身が提供しているだけあってインフラとの親和性が高く、クラウド内の他サービスとの連携のしやすさや、サードパーティーの監視ツールでは監視できない部分まで監視できるといったメリットがあります。
その一方で、標準で用意されている監視項目が少ないため監視設定を作り込む必要があったり、取得した監視データの保存期間が短かったりといったデメリットもあります。
また、基本的にそのクラウドサービス外のサーバは監視できないため、複数のクラウドサービスやオンプレミスと組み合わせたハイブリッドな環境で運用している場合には、マルチクラウド対応で横断的・統合的に監視できるツールを利用した方が良い場合があります。

オープンソースの監視ツールは、利用自体にライセンス料はかかりませんし、監視対象のシステムの特性に合わせて非常に細かな部分までカスタマイズして利用しやすく、インフラ環境を問わずオンプレミスでもクラウドでも統合的に監視しやすいといったメリットがあります。
しかし監視システムを構築するための知識を持った人材と、インフラおよび運用のコストがかかります。また、監視対象が頻繁に増減したり変化する環境を監視するためには、手動での対応では手間がかかるため工夫が必要となるでしょう。

SaaS型監視ツールは、ライセンス費用がかかりますが、自社で監視システムを構築する場合に必要となるインフラや運用に関わるコストがかからないというメリットがあります。SaaS型の監視ツールは比較的新しいため、オンプレミス時代から利用されている監視ツールに比べ、クラウドサービスを前提とした思想で設計されていることが多く、動的に監視対象が変わるような環境の場合効力を発揮するでしょう。
サービスによっては、クラウドベンダーと連携することでクラウドベンダーが提供する監視項目と同等の監視ができるものもあるため、自社が必要な監視を実現できるか確認してみると良いでしょう。
有償のサービスのためベンダーのサポートを受けられるのもメリットですが、あくまでサービス利用となるため、障害やメンテナンスによる停止時間が年間どの程度あるかなど、事前に確認しておくことが重要です。

自社のサービス/システムの特性に応じて、クラウドベンダーが提供している監視ツールで十分なのか、SaaS型監視ツールの利用で良いのか、独自に監視システムを用意すべきなのか、必要な監視の粒度・コスト・実際の運用者にとっての利便性などを総合的に判断し、ベストなものを選びましょう。

運用は誰がするか

そしてその監視運用業務は誰がするのか?という点もポイントです。平日の日中帯だけしか使われないようなシステムであれば問題ないかもしれませんが、多くのサービス/システムは夜間や休日にも稼働しているため、運用監視は24時間365日必要です。

24時間365日をシフトを組んで回せる体制が用意できれば良いですが、それだけの人員を揃えられず、自社のエンジニアが夜間や休日にベストエフォートで対応している企業も多いのではないでしょうか。突発的な障害対応はエンジニアの負担になりやすく、監視運用の対応で疲弊してしまい、本来取り組みたい企業価値を上げるための業務が後回しになってしまうといった事態にもつながりかねません。

そこで監視業務や障害対応など、アウトソースできる部分を専門の外部業者に委託することで、自社のエンジニアをコア業務に専念させることができます。運用監視を専門業者に依頼する場合は、インフラの選定/構築・監視の設計/導入・手順書の整備など、インフラや運用に関する部分をまるっと任せられることも多いため、その時点から専門の知見を得ながら進めるというのも良い選択肢の一つでしょう。既存サービス/システムの監視運用を外部に委託する場合も、監視項目や手順書の整備などは必要となるため、自社での対応が難しい場合はそうした運用整理の相談からできるのか確認してみると良いでしょう。

クラウド時代にフォーカスした「ベアサポート」

リンクでは、20年以上にわたるサーバー運用実績で培ってきたナレッジを武器に、クラウド対応型の運用監視サポートサービス「ベアサポート」を提供しています。ベアサポートでは運用監視の自動化を取り入れながらも、24時間365日「人」による確認・対応を行うことで、高品質かつ低価格でサーバー運用監視を提供できることが強みです。

月間50対応まで定額「マモルインシデントタイプ」(24時間対応)

お客さまの監視システムやAWSなど監視ツールの種類は問わず、発せられるアラートメールを受信し、通知や手順書に従って障害対応を実施するサービスです。月間50対応まで定額制としており、サーバ台数やインフラの種類に制限はありません。初期費用も無料です。

監視アラート通知(24時間対応)

お客様保有の監視ツールから発せられるアラートを受信し、電話にて通知を行うサービスです。クリティカルなアラートのみ、電話連絡が欲しいというような場合に最適です。

上記の監視運用の代行サービス以外にも、インフラの初期構築や監視設計・導入、セキュリティソリューションの導入・運用なども可能なため、インフラ運用に関することは何でも相談可能です。お客さまのシステム担当者・エンジニアの業務負荷を減らし、企業価値を向上させるコア業務に専念できるよう支援いたします。

まとめ

本稿では、オンプレミスからクラウドへの変遷を踏まえ、クラウド環境のサーバー運用監視について解説してきました。動的にインフラのリソースが変動するクラウド時代にあっては、サーバー運用監視業務にも柔軟性が求められます。コストとパフォーマンスの両立をはかるため、積極的に外部のリソースを活用してみてはいかがでしょうか。