オブザーバビリティのGrafana Labsが都内でObservabilityCON on the Road Tokyoを開催。これはGrafana Labsが世界各地で行っているロードショーを模したシングルトラックのミニカンファレンスだ。このカンファレンスは2025年2月にも東京で開催され、CEOのTom Wilkie氏が来日して講演を行った。その際にインタビューも行っているので、以下の記事を参考にして欲しい。
●参考:Grafana Labs CTOのTom Wilkie氏インタビュー。スクラップアンドビルドから産まれた「トラブルシューティングの民主化」とは
Grafana Labsは2つのカンファレンスを開催している。今回紹介するObservabilityCONが、Grafana Labsが提供する最新のテクノロジーの実践の場でもあるGrafana Cloudの最新情報やユースケースを伝えるイベントであるのに対し、GrafanaCONはオープンソースのGrafana関連のソフトウェアに対するコミュニティ向けのイベントという位置づけである。これら2つのカンファレンスを使い分けているのが特徴的だ。
GrafanaCONに関しても2025年5月にシアトルで開催された際のレポートを参照してみてほしい。
●参考:GrafanaCON 2025開催、最新のGrafana関連の情報を解説。キーノートから見るリアルな運用現場に対応したAIアシスタントとは?
今回のカンファレンスはGrafana Labsの共同創業者であるAnthony Woods氏と新規プロダクト担当シニアディレクターであるMarc Chipouras氏によるキーノートから始まった。この稿では2名のプレゼンテーションの内容とその後に行われたChipouras氏の講演を交えて紹介する。
ObservabilityCONとGrafanaCONについては冒頭で解説が行われた。ここではObservabilityCONはオブザーバビリティのフラッグシップカンファレンス、GrafanaCONはオープンソースコミュニティイベントであるというように違いが説明されている。
GartnerのリサーチでもGrafana Labsはリーダーの地位にいることを説明し、各社が激しい競争を繰り広げているオブザーバビリティの領域で評価されていることを強調した。
このスライドではオープンであることが重要であると強調し、DatadogやNew Relic、DynatraceといったSaaS専業のオブザーバビリティベンダーとの違いを暗に見せた形になった。
そしてGrafana Cloudが「安価なコスト」「シンプル」「実務で使えるAI」という特徴を備えていることをここから解説するという流れになった。
安価であることのポイントはAdaptive Telemetryであるとして、Metrics、Logs、TracesそしてProfilesにAdaptive、つまり状況に合わせて適応できる安価なソリューションであること、つまりデータ量を削減したオブザーバビリティを実現できていることを解説した。
このスライドでは2023年から2025年に至る時間の中でメトリクス、ログ、トレースなどにおいてデータを必要に応じて削減することで、高価であると非難の対象になりがちなオブザーバビリティSaaSの課題を解決しようとしていることを解説した。
この結果、90%のトレースデータを削減することができると説明した。
プロファイリングについてもすべてのプロファイリングデータを取得するもののインテリジェントにサンプリングすることで85%のデータを削減可能となったと説明。
またデータ量が膨大になるエンタープライズ向けには、Grafana Cloud以外にオープンソースのインスタンスを自社で実装する方法や自社が使っているクラウドサービスにGrafana Cloudを実装するBYOC(Bring Your Own Cloud)の実装方法も選択可能であることを説明した。セッションの最後に行われた質疑応答ではどの程度のデータ量になればコストが逆転するのか? という質問も出たが、具体的な数値は提示することはなかった。
またアメリカ以外では関係のないトピックではあるが、米国政府機関向けのGrafana Federal Cloudもサービスとして一般提供が始まったこと、データベースそのものに対するオブザーバビリティ機能、Database Observabilityもパブリックプレビューとして公開が始まったことなどを説明した。
他にもFleet Management、Instrumentation Hubなどの新機能を簡単に解説したが、障害時の対策という意味で大きな内容となったのはナレッジグラフを使った原因分析の機能だろう。
フルスタックであるという点を強調、これはフロントエンドからデータベースまで網羅するオブザーバビリティを提供することを意味している。
またGrafana製の生成AIを使ったアシスタントとしてGrafana Assistantを紹介。ここでは多くの機能が大規模言語モデルを使って提供されていることが示されている。生成AIとしてどのモデルを使っているのか? についてはここでは解説されなかった。
システム運用者を助けるという発想でチャットをベースにしたアシスタント機能は他社も発表している機能だが、MCPの実装に合わせてさまざまなオブザーバビリティのためのエージェントが用意されていることを紹介。
単にチャット機能による実装でないことは、次に紹介されたInvestigationsという新機能からも見て取れる。これは名前からわかるように発生した障害を詳しく捜査するという新しい機能である。
Chipouras氏はInvestigationsのUIを見せながら、レイテンシーが悪化した障害の根本原因を追及していくようすをデモで見せた。
なおGrafana Assistantは1ユーザーに対して$20/月の課金が必要である。他方Invesitigationsのほうは、パブリックプレビューという状態であるため、すでにGrafana Cloudを利用しているユーザーはAssistantを利用することで、Invesitigationsの機能を評価することが可能となる。
次に紹介するのはこのキーノートセッションの2つ後に実施されたMarc Chipouras氏によるセッション「AI+Grafana Cloud IRM、SLO、アラート機能でサービスの安定稼働を担保する組織風土をつくる」と題されたセッションだ。これはIncident Response Management(IRM)、障害に対する対応管理を生成AIの助けを借りて行うという内容となっている。
企業においてインシデント処理は信頼性を保つためには必須であるという切り出しから始まったセッションは、生成AIがコードを大量に生成する時代になったことで、デベロッパーがその内容を正確に理解することが徐々に難しくなっていることを指摘。これは人間がコードを書かないことでソースコードに起因する障害時の切り分けが難しくなっていることを意味していると思われるが、実際にはコードに対するコメントが充実していることや記法の揺れが少ないなどコードを生成AIが作ることの利点もあることも記憶にとどめておくべきだろう。
インシデント対応が遅れることの原因を挙げて、「アラートが出過ぎることで疲弊してしまうこと」「初期のレスポンスが遅れること」「チーム間の連携の悪さ」などを紹介した。
インシデント対応のためのツールスタックが分断されていることで、対応のためのコストが増加してしまうことも指摘。これはオブザーバビリティツールに加えてSlackやPagerDutyなどのソリューションが別途必要になることを指摘していると思われる。
実際にここからはデモを行ってコマースサイトのチェックアウトが遅くなったことで離脱率が上がってしまったというシナリオに基づいて解説を行った。
ここで注目したいのは、インシデント管理は個人で行う仕事ではないというGrafana Labsの考え方だ。これはインタビューで繰り返しChipouras氏から発言があった内容だが、インシデントが発生してそれに対する対応を行うのはチームの仕事であるべきという発想だ。コーディングアシスタントであれば、利用者は個人だが、担当する分野が違うエンジニアが対応にあたるインシデント管理においてはチームとして仕事が行われるのが現実的なあり方だろう。それを先行するPagerDutyと同じように実装しているのは良い方向だ。
実際にはすでにSlackやMicrosoft Teamsなどを使っているユーザー向けには連携機能が用意されており、スムーズに利用が可能であることがデモで示されていた。
このセッションのまとめとして「インシデント管理の効果を高めるためには組織的な取り組みが必要」「ツールはデータに近いところで実装されるべき」「AIはまだ支援をする段階で人間を完全には代替できない」ことなどを説明してセッションを終えた。
会場に集まった約220名の参加者は同時通訳を聞きながらプレゼンテーションとデモ見るという形式だったが、参加者の一人は通訳の質が高く専門用語も自然な日本語として翻訳されていたと語っていた。Marc Chipouras氏のインタビューは別稿で紹介する。
