Grafana Labs CTOのTom Wilkie氏インタビュー。スクラップアンドビルドから産まれた「トラブルシューティングの民主化」とは

- 1 オブザーバービリティの最前線を支えるGrafana Labs
- 2 ObservabilityCON基調講演レポート:Grafana Labsの最新動向
- 3 Grafana Labs CTOが語るオブザーバービリティの未来
- 3.1 簡単に自己紹介をお願いします。
- 3.2 Grafana Labsのソフトウェアはオープンソースからエンタープライズ、そしてクラウドでのSaaSと幅広く提供されていますが、基調講演で紹介された新機能はどのプラットフォームで実現されるのですか。
- 3.3 それは、どのような理由からでしょうか。
- 3.4 基調講演で「トラブルシューティングを民主化する(Democratize Metrics)」ということを訴求していましたが、その意味を教えてください。
- 3.5 それは根本原因解析(Root Cause Analysis)に人工知能を活用するということですね。
- 3.6 Grafana LabsのCTOとしてのチャレンジは何ですか。
- 3.7 最後に、日本のコミュニティへのメッセージをお願いします。
- 4 まとめ
クラウドネイティブなシステムのオブザーバービリティに使われる可視化ツールとして代表的なツール、Grafanaの開発元であるGrafana Labsがテクニカルカンファレンス「ObservabilityCON on the Road」を日本で初めて2025年2月25日に都内で開催した。
本稿では、カンファレンスの基調講演として行われたGrafana LabsのCTO、Tom Wilkie氏のセッションの内容を紹介するとともに、最新の技術動向やオブザーバービリティの未来について掘り下げた、講演後のインタビューの模様をお届けする。
オブザーバービリティの最前線を支える
Grafana Labs
Grafana Labsは、その社名が示す通りオープンソースの可視化ツール「Grafana」 の開発元である。しかし、現在はLGTMスタックを中心に、オブザーバービリティのための総合的なツール群を提供する企業へと進化している。
同社は、以下の3つの形態でビジネスを展開している。
- オープンソース版(無償)
- エンタープライズ版(オンプレミスおよびクラウド向け)
- クラウドサービス版「Grafana Cloud」(SaaS)
*Grafana Cloudの無料プランが含む
なお、LGTMはデベロッパーがコードレビュー時に使う「Looking Good To Me」の略ではなく、Loki(ログ収集)、Grafana(可視化)、Tempo(トレース)、Mimir(メトリクス)の頭文字を取ったオブザーバービリティスタックの名称となっている。
Grafana Labsは、ログ、トレース、メトリクスに加え、システムのプロファイリングを行う「Pyroscope」やパフォーマンスおよび負荷テストを実現する「K6」を備えた包括的なオブザーバービリティソリューションを提供している。
オブザーバービリティの導入形態は、大きくオープンソースをオンプレミス環境で運用する場合と、SaaSを利用する場合の2つに分けられることが多い。しかし、Grafana Labsのソリューションは、以下のように幅広い選択肢を提供している。
- オープンソース版をオンプレミスやクラウドに実装し、自社で管理する方法
- 機能強化されたエンタープライズ版をオンプレミスまたはクラウドで運用する方法
- クラウドサービスとして、フルマネージドなLGTMスタックをSaaSとして利用する方法
これにより、ユーザーの用途に応じた柔軟なプロダクト形態を提供することが可能となっている。
ObservabilityCON基調講演レポート:
Grafana Labsの最新動向
カンファレンスはTom Wilkie氏の基調講演から始まった。
Tom Wilkie氏は、今回のミニカンファレンスの位置付けについて説明し、ワークショップやセミナーなど、Grafana Labsのソリューションを学ぶ機会について解説を行った。また、オープンソースから始まったGrafana Labsのソリューションが、5000社以上の顧客に広く利用されていることも紹介した。
基調講演は、Grafana Labsが提供するクラウドサービス「Grafana Cloud」 の新機能を中心に、最新のアップデートについてデモを交えて解説する内容となった。
特にLGTMスタックについては、より簡単に利用できる機能やシンセティックモニタリング、パフォーマンステストなど、従来の監視機能の枠を拡げる新機能が紹介された。これにより、インシデント発生後に受動的にログやメトリクスを分析する従来の手法から、より能動的にシステムの状態を把握するアプローチへと進化していることが解説された。
人工知能に関しては、大規模言語モデル(LLM)に対するオブザーバービリティの実験的な新機能として、eBPFを活用したCUDAコードの分析や、複数の新しいアプリケーションについて説明が行われた。
Grafana Labs CTOが語る
オブザーバービリティの未来
ここからは、基調講演で語られた最新の技術動向やGrafana Labsの取り組みを踏まえ、さらに詳しく掘り下げる形で、Tom Wilkie氏のインタビューをお届けする。
簡単に自己紹介をお願いします。
私はもともとデベロッパーとして、エンタープライズ向けシステムの開発に携わっていました。その中で「Apache Cassandra」を活用したデータ分析企業を立ち上げ、後にAppleへ売却しました。その後、GoogleにSREとして入社し、クラウドサービスの構築方法を学んだことが次の挑戦に活きています。
Googleでの経験をもとに新たなベンチャーを立ち上げ、「Cortex」というPrometheusのストレージ向けオープンソースソフトウェアを開発しました。この取り組みを通じて、オブザーバービリティの分野に深く関わるようになりました。その後、私たちの会社はGrafana Labsに買収され、現在は同社のCTOとしてテクノロジー全般を統括しています。
Grafana Labsのソフトウェアはオープンソースからエンタープライズ、そしてクラウドでのSaaSと幅広く提供されていますが、基調講演で紹介された新機能はどのプラットフォームで実現されるのですか。
多くの新機能は、Grafana Cloudというクラウドサービス上で提供されることになります。我々はオープンソースへの貢献を重視しており、顧客もそれを望んでいます。しかし、オブザーバービリティに関しては、多くのケースでクラウドサービスとしての提供が求められていると考えています。
我々の歴史を振り返ると、当初はGrafana の開発に注力していましたが、その後、「データをどのように扱うか?」という課題に取り組むようになりました。オブザーバービリティを実装する過程で、大規模なデータ管理の必要性が生じたからです。さらに、その技術をクラウドサービスとして最適な形で顧客に提供するにはどうすべきか? という課題に向き合っています。
この流れを「三幕構成」として考えると、第1幕は Grafana の開発、第2幕はデータ管理の課題への取り組み、そして第3幕がクラウドサービスの提供にあたります。第1幕・第2幕まではオープンソースソフトウェアとして実現可能でしたが、第3幕ではクラウドサービスの形態が不可欠でした。それは、顧客の多くが「すぐに利用できるソリューション」を求めていることが分かったからです。
第1幕・第2幕の段階では、多くの顧客がオープンソースを自ら検証し、実装できるエンジニアを擁していました。しかし、現在Grafana Labsの売上を支える多くの企業は、クラウドサービスを活用してオブザーバービリティを実現したいと考えています。
それは、どのような理由からでしょうか。
クラウドネイティブなシステムを構築・運用すると、多くのシステム管理者が最初に直面するのがシステムから膨大なデータが発生するという課題です。このデータを活用し、システムを監視しながら日々の問題を把握・解決することが求められます。しかし、その前段階として「オブザーバービリティのために生成される大量のデータをどのように管理するか」という問題に直面することになります。
そのため、従来はオープンソース版やエンタープライズ版を利用していた顧客も、次第にクラウドサービスへ移行し始めています。大量のデータ管理は本来システム管理者が担うべき責務ではなく、不要な負担とも言えます。システムの現状を把握し、問題を未然に防ぎたいというニーズがある一方で、データの維持管理という余計な作業をできるだけ避けたいというのは、自然な流れでしょう。
このようなデータ管理の業務は、IT管理者にとって差別化要因にはならず、決して無駄ではないものの、できれば避けたい仕事の1つです。そのため、クラウドサービスの利用がより一層加速しているのです。
基調講演で「トラブルシューティングを民主化する(Democratize Metrics)」ということを訴求していましたが、その意味を教えてください。
これは、大量のオブザーバービリティデータを活用して問題を解決することが、さらに難しくなっている現状への回答です。つまり、データ量が増大する一方で、それを生成するソフトウェアは統一されておらず、問題解決の難易度が高まっているのです。
この課題に対して人工知能を活用することで、誰もが容易に問題を解決できる環境を実現しようというメッセージが込められています。
それは根本原因解析(Root Cause Analysis)に人工知能を活用するということですね。
その通りです。問題解決に推論エンジンを用いることで、何が根本的な原因で問題が発生したのかを容易に特定できるようになります。
我々は大規模言語モデル(LLM)を活用して根本原因解析を行おうと試みましたが、実験の結果、思うように機能しないことが分かりました。オブザーバービリティデータ、特にログデータやメトリクスデータは非構造化データであり、そのままLLMに入力しても適切な推論が得られず、正確な回答を生成できなかったのです。一方、プロファイルデータは比較的構造化されているため、有効に活用できました。
この課題を解決するために、非構造化データを一度ベクター化し、意味付けを行った上でグラフデータとして整理し、それをLLMに入力することで高品質な回答を生成する方法を確立しました。この研究には多くの時間を費やし、試作と破棄を繰り返しながら最適な手法を見つけていきました。
Grafana LabsのCTOとしてのチャレンジは何ですか。
最大のチャレンジは「レガシーシステムへの対応」です。意外に聞こえるかもしれませんが、現在も多くの企業や組織でレガシーシステムが稼働しており、それらを無視することはできません。クラウドネイティブなシステムの導入は進んでいますが、既存のレガシー環境が根強く残っているのが現実です。
Grafanaのユーザー層には二極化が見られます。クラウドベースの、いわゆる「クールで先進的なシステム」を開発するデベロッパーは、最初からGrafanaの価値を理解し、積極的に導入してくれます。しかし、レガシーシステムを維持管理している顧客は新しいオブザーバービリティツールの導入に慎重であり、なかなか移行が進みません。
我々は、レガシーシステムを利用する企業にもGrafanaの価値を提供し、その活用を広げていきたいと考えています。それが、現在の大きなチャレンジです。
最後に、日本のコミュニティへのメッセージをお願いします。
日本にも多くのGrafanaユーザーがいることを認識しており、今回の訪日では、そうしたコミュニティと直接コンタクトを取って「何が求められているのか」を知りたいと思っていました。
今後、日本のビジネス環境に適した事業展開を進めていくつもりです。ぜひ期待していてください。
まとめ
日本での展開については、まだ課題が残されていることを十分理解しつつも、日本のユーザーコミュニティが成長し、加速していることに自信を持っている様子が伺えるインタビューとなった。
また、Wilkie氏はロンドン在住ということもあり、4月に開催される「KubeCon + CloudNativeCon Europe 2024」(ロンドン)に期待を寄せているという。「イーストロンドンは安全で美しい場所だから、ぜひ安心して来てほしい」 とコメントした。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- 「Grafana Cloud」の先進的ユーザーであるグリーが10年をかけて到達した「オブザーバービリティ」とは
- KubeCon Europe 2024にて、New RelicのEMEA担当CTOにインタビュー
- KubeCon Europe 2023共催のLinkerd Dayからアディダスの事例セッションを紹介
- CNDT2021、日本オラクルのエンジニアによるクラウドネイティブを再確認するセッション
- CloudNative Days Fukuoka 2023、GoogleによるGKE上のGateway APIの解説セッションを紹介
- CNDT2021、ミクシィのSREによるEKS移行の概要を解説するセッションを紹介
- ClickHouseを使ったデータレイクの概要を解説する動画を紹介
- カオスエンジニアリングのOSS、LitmusChaosの概要を解説するCNCFのウェビナーを紹介
- KubeCon North America 2024、日本からの参加者を集めて座談会を実施。お祭り騒ぎから実質的になった背景とは?
- eBPF Summit、eBPFとKubernetesでコアネットワーク構築? Bell Canadaのセッションを紹介