KubeCon+CloudNativeCon Europe 2023レポート 7

KubeCon Europe 2023よりGitHubがMySQL互換のVitessを使った事例のセッションを紹介

KubeCon Europe 2023から、GitHubがワークロードの半分をVitessに実装したセッションを紹介。

松下 康之 - Yasuyuki Matsushita

2023年8月9日 6:00

KubeCon+CloudNativeCon Europe 2023から、GitHubがMySQL互換の分散データベースVitessを導入したユースケースを解説するセッションを紹介する。

PlanetScaleとGitHubが共同でVitessのユースケースを解説

PlanetScaleとGitHubが共同でVitessのユースケースを解説

●動画:Introduction to Vitess and Real World Usage - Arthur Schreiber, Github & Florent Poinsard, PlanetScale

これはVitessの開発元であるPlanetScaleのFlorent Poinsard氏とGitHubのArthur Schreiber氏が一緒に行ったセッションで、前半をPlanetScaleのPoinsard氏が担当し、後半のGitHubでの使われ方をSchreiber氏が解説するという形式を採っている。

セッションを行うPoinsard氏(左)とSchreiber氏(右)

セッションを行うPoinsard氏(左)とSchreiber氏(右)

VitessはYouTubeが使う分散データベースで、MySQLと互換性がありながらMySQLが不得意とするシャーディングとレプリケーションを高速に実行できるという特徴を持つオープンソースソフトウェアだ。CNCFのインキュベーションプロジェクトとして2018年2月にホストされ、2019年11月にGraduationしたという短期間で結果を出しているソフトウェアと言って良いだろう。KubernetesがGraduationまで約3年をかけたことを考えると非常に成熟していると言える。

スケーラブルで高い可用性を持つ分散データベースのVitess

スケーラブルで高い可用性を持つ分散データベースのVitess

ここでユースケースとしてYouTube以外にSlack、JD.comそしてGitHubを挙げて説明。JD.comは中国で第2位という規模の巨大なECサイトで、Nasdaqにも上場しているメジャープレイヤーだ。GitHub、YouTube、そしてJD.comというミッションクリティカルな使われ方でも、Vitessはその可用性が実証されているといったところだろう。またVitessはPlanetScaleが運営するクラウドサービスとしても提供されている。

VitessのユースケースとしてJD.com、GitHub、Slackが挙げられている

VitessのユースケースとしてJD.com、GitHub、Slackが挙げられている

次のスライドではVitessのアーキテクチャーが解説されている。右端のデータストアが分散されていることがわかる。その手前にあるvtgateがシャーディングされたデータストアにアクセスを分配するキーコンポーネントだ。

Vitessのアーキテクチャー図

Vitessのアーキテクチャー図

そしてVitessを導入する前のGitHubのMySQLについて解説したのが、次のスライドだ。ここでは80のクラスターから約1200のMySQLインスタンスが利用されていたと説明。ベアメタルのサーバーの上で実行されていたのは、性能を求めての仕様だろうか。

Vitess導入前のGitHubでのMySQLの状況

Vitess導入前のGitHubでのMySQLの状況

そしてMySQLの問題点について、MySQLを実行するサーバーをアップグレードするコスト、スキーママイグレーションの処理時間、レプリケーションの遅さなどを挙げた。

GitHubのMySQLが抱えていた問題を説明

GitHubのMySQLが抱えていた問題を説明

そしてMySQLからVitessに移行した理由として「MySQLの互換であったこと」「シャーディングのモデルがGitHubの欲しいデータモデルに近かったこと」そして「クエリーの互換性が高かったこと」などを説明した。

Vitessを採用した理由

Vitessを採用した理由

VitessがGitHubに導入されたのは2019年で、そこからGitHubのサービスであるNotifications、Actionsなどが移行され、現在ではIssuesとPull RequestのすべてがVitess上で実行されているという。

2019年から徐々にサービスをVitess上に移行

2019年から徐々にサービスをVitess上に移行

IssuesやPull Requestsがどのくらいの規模で処理されているのかを説明したのが次のスライドだ。

Issues/Pull Requestsの規模感

Issues/Pull Requestsの規模感

16のプライマリーに16のシャーディング、レプリカは48のインスタンスで実行、サイズとしては26TBほどだという。そこに3万クエリー/秒をプライマリーに、22万クエリー/秒がレプリカに実行されているという。

そしてVitess移行前後の比較を示しているのがこの表だ。

Vitess移行前と移行後の違い

Vitess移行前と移行後の違い

MySQL自体のプライマリーとレプリカの数がかなり異なっているのがわかる。また必要メモリーも減少しており、問題点として挙げられていたハードウェアコストが削減されていることがわかる。さらにオンラインでスキーマ変更を行うために必要な時間が、3週間から2日へと劇的に減少していることに注目したい。かなり大きな効果があったと言えるだろう。

そして現状はバージョン15で実行されているVitessだが、最新バージョンへのアップグレードなども計画されているという。多くのコンポーネントがKubernetes上で実行されていることも解説された。

GitHubの将来計画。多くのクラスターをVitess化する予定

GitHubの将来計画。多くのクラスターをVitess化する予定

最後にGitHubの経験からMySQLをスケーラブルに拡張できたこと、もしもMySQLを大量に使ってシャーディングやレプリケーション、スキーマ変更などに苦労しているなら、Vitessは検討するべきと説明してPlanetScaleのPoinsard氏に交代した。

GitHubのお勧め。大量のMySQLを使っているならVitessへの移行を検討すべき

GitHubのお勧め。大量のMySQLを使っているならVitessへの移行を検討すべき

ここでPoinsard氏が最新バージョンである17の概要を簡単に紹介してセッション全体を終えた。

Vitessの最新バージョン17の概要を紹介

Vitessの最新バージョン17の概要を紹介

全体としてソフトウェアそのものの解説をPlanetScaleが担当し、ユースケースの概要はユーザーであるGitHubが担当、背景や選択した理由、効果などについてユーザー自身に語らせるというスタイルが非常に上手く機能したセッションとなった。特にMySQLのアプリケーションはなるべく変更せずにデータベースそのものを変えることで問題点を解決した手法は評価されるべきだろう。処理時間を3週間から2日に短縮できるなら、多くのMySQLユーザーはVitessに注目するべきだ。

この記事をシェアしてください

人気記事トップ10

人気記事ランキングをもっと見る