連載 [第5回] :
  StrimziCon 2024レポート

StrimziCon 2024番外編、KafkaのリバランスをKubernetesのオペレータで実行するCruise Controlを紹介

2024年8月6日(火)
松下 康之 - Yasuyuki Matsushita
Kafkaのリバランスを可能にするCruise ControlをRed Hatの動画から紹介する。

StrimziConはKafkaをKubernetesで稼働させるためのオペレータStrimziに特化したオンラインカンファレンスだ。この記事ではStrimziConで公開されたセッションではないが、Strimziの主なデベロッパーであるRed Hatが2023年7月に公開した動画を元に、Kafkaのリバランスの自動化を可能にするCruise Controlの解説とデモを紹介したい。

動画はRed Hat DeveloperというチャンネルのDevNation Dayというイベントで公開された動画になる。プレゼンターはRed HatのソリューションアーキテクトであるDonato Marrazzo氏だ。Marrazzo氏はIBMで15年以上テクニカルセールス、ソリューションアーキテクトなどの職を務めた後Red Hatに移り、アプリケーションデベロップメントのプリンシパルソリューションアーキテクトを8年間担っているイタリア在住のエンジニアだ。

●動画:Optimize Apache Kafka with Cruise Control

赤い帽子の背景がMarrazzo氏

赤い帽子の背景がMarrazzo氏

セッションのタイトルは「Optimize Apache Kafka with Cruise Control」、Kafkaのリバランス問題をCruise Controlで解決するという内容だ。

Red Hatの製品としてのKafka、AMQ Streamを紹介

Red Hatの製品としてのKafka、AMQ Streamを紹介

このスライドではKafkaをOpenShift上で実装したRed Hatの商用プロダクトAMQ Streamのダイアグラムを使って、ソフトウェア構成を解説。赤い四角で表現された中に今回のトピックであるCruise Controlがある。

Kafkaが抱える課題をリストアップ

Kafkaが抱える課題をリストアップ

ここでKafkaが持つ構造上の課題を列挙して運用における問題点を整理している。特にトピック、パーティション、レプリカが運用に従ってアンバランスな状態になることを指摘。Kafka自体にはそのアンバランス状態を自動的に解消する機能が備わっていないことを説明した。

アンバランスなクラスターの状態はノードを追加しても解消しない

アンバランスなクラスターの状態はノードを追加しても解消しない

アンバランスな状態は単にノードを追加しても解消せず、トピックやパーティションをリバランスすることでのみ解決されることを説明した。

リバランスを行うことでクラスターの安定的な運用が可能になる

リバランスを行うことでクラスターの安定的な運用が可能になる

そしてリバランスをするために必要な要点を解説。ここではブローカー実行中のメトリクスを収集すること、運用に最適なワークロードの分散を行うこと、その際にCPUやストレージ、ネットワークなどのデータを検討すること、ブローカーのリーダーが最適に分散されているかを確認すること、またサーバーがどのラックに配置されているのかを意識するラックアウェアネスなどを要点として挙げた。そのうえで、これらの調整をすべて手動で行うのは非常に難しいと説明した。

リバランスの要点を整理。すべての調整をマニュアルで行うのは困難

リバランスの要点を整理。すべての調整をマニュアルで行うのは困難

リバランスに関しては複数のゴールを設定するべきとして、ハードゴールとソフトゴールを説明。ハードゴールではラックアウェアネス、ブローカーの利用効率の閾値を設定し、それを守ることを挙げた。

リバランスのゴール設定の例

リバランスのゴール設定の例

またソフトゴールとして挙げたのは、複数のブローカー利用率のバランス、トピックのパーティションの分布、パーティション全体の分布状況などをゴールとして設定すべき要点として整理した。

ソフトゴールとしての要点を整理

ソフトゴールとしての要点を整理

リバランスを行う際のコストについて整理したスライドでは、リーダーの変更にはそれほどコストがかからないが、パーティションの変更はコストが高いことなどを解説した。

ここからはターミナルを開いて実際にOpenShift上のKafkaのリバランスを行うデモを見せた。

デモで実際にリバランスを行うところを実演

デモで実際にリバランスを行うところを実演

クラスターの状態に関しては、Grafanaのグラフィカルインターフェースを見せて各ノードの状態を解説。ここではひとつのノードに負荷が集中してアンバランスな状態になっていることを見せている。

Kafkaのリバランスを行うマニフェストを適用して、リバランスの状態を監視

Kafkaのリバランスを行うマニフェストを適用して、リバランスの状態を監視

そしてKafkaのリバランスを行うマニフェストを適用して、実際にノードがリバランスされるところを見せている。リバランスのプロポーザルが適用、それに対して許可をアノテーションの値として変更し、実際にリバランスが許可されるところまでを見せている。

リバランスのマニフェストを実行させるためにアノテーションの値を変更

リバランスのマニフェストを実行させるためにアノテーションの値を変更

そしてGrafanaでアンバランスだったノードの負荷が調整されるまでを見せた。ここまでRed Hatのデベロッパー向けのチャネルらしくOpenShiftのコマンドで実行しているが、Cruise Control自体はオペレータのひとつとしてLinkedInが開発、公開しているオープンソースソフトウェアである。OpenShift以外のKubernetesでも利用可能だろう。Kafkaの運用に多くの労力を使っているエンジニアは注目するべきプロジェクトだろう。

●参考:https://github.com/linkedin/cruise-control

著者
松下 康之 - Yasuyuki Matsushita
フリーランスライター&マーケティングスペシャリスト。DEC、マイクロソフト、アドビ、レノボなどでのマーケティング、ビジネス誌の編集委員などを経てICT関連のトピックを追うライターに。オープンソースとセキュリティが最近の興味の中心。

連載バックナンバー

開発ツールイベント
第5回

StrimziCon 2024番外編、KafkaのリバランスをKubernetesのオペレータで実行するCruise Controlを紹介

2024/8/6
Kafkaのリバランスを可能にするCruise ControlをRed Hatの動画から紹介する。
ミドルウェアイベント
第4回

StrimziCon 2024からブラジルのネットバンクにおけるKafkaクラスター移行のセッションを紹介

2024/7/29
StrimziCon 2024から、ブラジルのネットバンクNubankによるKafkaクラスター移行の事例を解説したセッションを紹介する。
開発ツールイベント
第3回

Kafka on KubernetesのStrimziConから新機能を解説するセッションを紹介

2024/7/22
Kafka on KubernetesのStrimziConから新機能を解説したセッションを紹介する。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています