イベント・セミナー2022 第23回

PingCAP CEOのMax Liu、米HTAP Summit 2022でHTAP登場の背景を語る

PingCAPのCEOが語るHTAPの背景と未来、そして実装の解説。

2023年1月11日 6:30

HTAP誕生の背景

ビッグデータや機械学習を始めとして、インターネットサービスにおいて大量データの活用は既にメインストリームだ。またスマートフォンのモバイルアプリをプラットフォームとしてEコマース、SNS、オンライン動画サイトなど大量のユーザー行動データから産み出されるリアルタイムのレコメンデーションは消費者にとって既に当たり前の機能だろう。

このような大量データのリアルタイム処理を実装することは従来のリレーショナルデータベースでは非常に複雑なシステムが必要となる。またシステム運用も従来のように予め想定されるユーザー数/アクセス数に応じたシステム規模や性能予測ではインターネットから一気に立ち上がるアクセスや爆発的に増えるユーザーに対する様々な分析のニーズに対応できないことが明らかになってきた。

そのようなシステムへの要求に対して、国際的な調査会社であるガートナーは2014年にOLTPとOLAPの両方の機能を備えた新しいデータベースシステムとして「HTAP(ハイブリッドトランザクションアナリティカルプロセッシング)」と呼ばれるカテゴリーを提案した。これまでのリレーショナルデータベースによるトランザクションとリアルタイムの分析処理を同時に処理しながら、分散処理によるスケーラビリティを保証する新しいバックエンドシステムと言える。

今回は、米カリフォルニアで2022年11月1日に初開催された、HTAPに特化したカンファレンス「HTAP Summit 2022」のキーノートから、オープンソースの分散データベースを開発するPingCAPの共同創業者でありCEOのMax Liu氏のセッションを紹介する。セッションのタイトルは「Rise of HTAP」だ。

キーノートセッションに登壇したLiu氏

デモでHTAPを実現する
「TiDB」活用の具体例を示す

Liu氏はHTAPが誕生した背景として、これまでのSQLデータベースは30年前、40年前であれば問題なかっただろう、なぜならビッグデータもなければOLAPも必要なかったからと説明した。しかし現在は大量データのトランザクションとリアルタイムのオンライン分析機能が必須になっていると説明。その両方を兼ね備えたシステムがHTAPだと語った。

OLTPとOLAPを同時に実行できるのがHTAP

そしてビッグデータの誕生以降、トランザクション処理とオンライン分析を兼ね備え、水平にスケールアウトできるデータベースシステムを簡単に説明することは難しいとして「ここからは例を使って説明しよう」と語り、「OSS Insight」というサイトの概要を説明するデモムービーを紹介した。これはソースコードリポジトリとして世界最大を誇るGitHubのリポジトリをデータソースにして様々な分析を実行するWebサービスであり、バックエンドはPingCAPが開発するオープンソースの分散データベース「TiDB」で実装されている。

リアルタイムでGitHubの中のデータを分析する「OSS Insight」の紹介

このムービーではGitHub上で実行された50億件以上のプルリクエストやコメント、マージなどのイベントをデータソースとしてリアルタイムに分析を行う様子が紹介されている。

記事執筆時のスクリーンショット。この時点で53億件のイベントを処理している

OSS InsightはGitHubをデータソースとしてリアルタイムで複雑な分析を行うWebサービスだが、このWebサービスの特徴を次の3つのポイントでまとめている。

OSS Insightの特徴

ここでは非常に急速に成長しているデータセットであること、様々なユーザーからの多種多様なクエリーリクエストを実行する必要があること、最適化が重要であることなどについて触れた。

次に紹介したのは「KNN3」、Web3と呼ばれるブロックチェーン技術を使った分散金融システムやスマートコントラクトなどの情報を包括するポータルサイトだ。

Web3のポータルサイト「KNN3」を紹介

KNN3は、ブロックチェーンを使った分散暗号データを俯瞰するためにリアルタイムの分析機能と、大量データを安全に処理するトランザクション機能が必要になるシステムバックエンドに使われているWebサービスとなる。

Liu氏は「もしもあなたが自社のサービスとしてカスタマー管理のシステムを作るとしたら何が必要だろう? どのようなデータを入力として、どのようなクエリーを行えばカスタマー管理として合格点なのだろうか?」と問いかけた。ここではSalesforceやZendesk、顧客からの電子メールやレガシーなExcelファイルなどをデータソースとして入力に使い、顧客のニーズに合わせて様々なクライテリアで検索や分析機能を実装しなければならないと説明。

このようなシステムを実装するために必要なシステムアーキテクチャーはどのようなものだろう?とLiu氏は参加者に語りかけた。