PingCAP CEOのMax Liu、米HTAP Summit 2022でHTAP登場の背景を語る

2023年1月11日(水)
松下 康之 - Yasuyuki Matsushita
PingCAPのCEOが語るHTAPの背景と未来、そして実装の解説。

HTAP誕生の背景

ビッグデータや機械学習を始めとして、インターネットサービスにおいて大量データの活用は既にメインストリームだ。またスマートフォンのモバイルアプリをプラットフォームとしてEコマース、SNS、オンライン動画サイトなど大量のユーザー行動データから産み出されるリアルタイムのレコメンデーションは消費者にとって既に当たり前の機能だろう。

このような大量データのリアルタイム処理を実装することは従来のリレーショナルデータベースでは非常に複雑なシステムが必要となる。またシステム運用も従来のように予め想定されるユーザー数/アクセス数に応じたシステム規模や性能予測ではインターネットから一気に立ち上がるアクセスや爆発的に増えるユーザーに対する様々な分析のニーズに対応できないことが明らかになってきた。

そのようなシステムへの要求に対して、国際的な調査会社であるガートナーは2014年にOLTPとOLAPの両方の機能を備えた新しいデータベースシステムとして「HTAP(ハイブリッドトランザクションアナリティカルプロセッシング)」と呼ばれるカテゴリーを提案した。これまでのリレーショナルデータベースによるトランザクションとリアルタイムの分析処理を同時に処理しながら、分散処理によるスケーラビリティを保証する新しいバックエンドシステムと言える。

今回は、米カリフォルニアで2022年11月1日に初開催された、HTAPに特化したカンファレンス「HTAP Summit 2022」のキーノートから、オープンソースの分散データベースを開発するPingCAPの共同創業者でありCEOのMax Liu氏のセッションを紹介する。セッションのタイトルは「Rise of HTAP」だ。

キーノートセッションに登壇したLiu氏

デモでHTAPを実現する
「TiDB」活用の具体例を示す

Liu氏はHTAPが誕生した背景として、これまでのSQLデータベースは30年前、40年前であれば問題なかっただろう、なぜならビッグデータもなければOLAPも必要なかったからと説明した。しかし現在は大量データのトランザクションとリアルタイムのオンライン分析機能が必須になっていると説明。その両方を兼ね備えたシステムがHTAPだと語った。

OLTPとOLAPを同時に実行できるのがHTAP

そしてビッグデータの誕生以降、トランザクション処理とオンライン分析を兼ね備え、水平にスケールアウトできるデータベースシステムを簡単に説明することは難しいとして「ここからは例を使って説明しよう」と語り、「OSS Insight」というサイトの概要を説明するデモムービーを紹介した。これはソースコードリポジトリとして世界最大を誇るGitHubのリポジトリをデータソースにして様々な分析を実行するWebサービスであり、バックエンドはPingCAPが開発するオープンソースの分散データベース「TiDB」で実装されている。

リアルタイムでGitHubの中のデータを分析する「OSS Insight」の紹介

このムービーではGitHub上で実行された50億件以上のプルリクエストやコメント、マージなどのイベントをデータソースとしてリアルタイムに分析を行う様子が紹介されている。

記事執筆時のスクリーンショット。この時点で53億件のイベントを処理している

OSS InsightはGitHubをデータソースとしてリアルタイムで複雑な分析を行うWebサービスだが、このWebサービスの特徴を次の3つのポイントでまとめている。

OSS Insightの特徴

ここでは非常に急速に成長しているデータセットであること、様々なユーザーからの多種多様なクエリーリクエストを実行する必要があること、最適化が重要であることなどについて触れた。

次に紹介したのは「KNN3」、Web3と呼ばれるブロックチェーン技術を使った分散金融システムやスマートコントラクトなどの情報を包括するポータルサイトだ。

Web3のポータルサイト「KNN3」を紹介

KNN3は、ブロックチェーンを使った分散暗号データを俯瞰するためにリアルタイムの分析機能と、大量データを安全に処理するトランザクション機能が必要になるシステムバックエンドに使われているWebサービスとなる。

Liu氏は「もしもあなたが自社のサービスとしてカスタマー管理のシステムを作るとしたら何が必要だろう? どのようなデータを入力として、どのようなクエリーを行えばカスタマー管理として合格点なのだろうか?」と問いかけた。ここではSalesforceやZendesk、顧客からの電子メールやレガシーなExcelファイルなどをデータソースとして入力に使い、顧客のニーズに合わせて様々なクライテリアで検索や分析機能を実装しなければならないと説明。

このようなシステムを実装するために必要なシステムアーキテクチャーはどのようなものだろう?とLiu氏は参加者に語りかけた。

著者
松下 康之 - Yasuyuki Matsushita
フリーランスライター&マーケティングスペシャリスト。DEC、マイクロソフト、アドビ、レノボなどでのマーケティング、ビジネス誌の編集委員などを経てICT関連のトピックを追うライターに。オープンソースとセキュリティが最近の興味の中心。

連載バックナンバー

OSSイベント

Open Source Summit Japan 2022開催。車載からストレージ、Kubernetesまで幅広いトピックをカバー

2023/4/26
2022年12月、横浜でOpen Source Summit Japanが開催された。リアルでは約500名が参加し、車載システムからSBoM、AIまで広範なセッションが行われた。
開発言語イベント

WASM Meetup@ByteDanceで垣間見たWebAssemblyの静かな広がり

2023/4/11
ByteDanceのシリコンバレーオフィスで開催されたWebAssemblyのミートアップを紹介。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています