SODA Data Vision 2023より、Gitの使い勝手をデータレイクに応用したlakeFSを紹介
The Linux Foundation配下のSODA FoundationがOpen Source Summit EU 2023併設カンファレンスとして2023年9月18日にスペインのビルバオで開催したSODA Data Vision 2023から、Gitのコンセプトをデータレイクに応用したlakeFSを解説するセッションを紹介する。約15分のセッションの中でデータレイクの中でデータを扱う際の問題点を、ソースコードの管理に利用されるGitの仕組みを使って解決するlakeFSというオープンソースソフトウェアを紹介している。
セッションを担当したのはTreeverseのCTO&Co-founderであるOz Katz氏だ。
●セッションの動画:Level Up Your Data Lake to ML and Beyond
Katz氏は自身の利用するデスクトップを見せて「私自身はオーガナイズドされた人間だと思うけど、どうしてもこうなってしまう」として、人間は基本的にこうなってしまう存在なのかもしれないと語った。
そしてデータの複雑さは、それに関わるエンジニア、データサイエンティストなどの乗数としてさらに複雑になってしまうと説明。
ここではAWSのS3のバケットを表示するインターフェースを見せながら、さまざまな名称やバージョンが存在し、どれが本番で使われるデータなのかが理解できないというアイコンだらけのデスクトップの問題点に通じる状況を紹介した。
問題点としてデータが常に変化するような現代の使われ方では再現性(Reproducibility)が不可能になること、開発~テストという環境において必要なデータセットを用意するのが難しいこと、結果として本番環境でのデータ保護が困難になることを紹介した。
この問題を解決するために開発されたのが、lakeFSだ。
lakeFSはデータマネージメントツールではあるが、データストレージ自体はS3などの既存のオブジェクトストレージを利用する。またオブジェクトストレージを使う側のツール、KafkaやSpark、Hadoopなどはそのまま利用することが可能であると説明。オブジェクトストレージに対してメタデータを追加することで、デベロッパーがGitを使うようにデータを使うことを可能にするというのがコンセプトだ。
この例ではS3のバケットに対してmainというブランチ名を追加しているが、このmainに対してブランチをForkしたりMergeしたりすることが可能になるという。
GitHubの公式ページでは「Data version Control (Git for Data)」というのがキャッチコピー。
このreadmeファイルには「Transform your object storage into a Git-like repository」という説明があり、ソースコードに変更を加える仕組みとして、すでに開発者には当たり前のGitのコンセプトをオブジェクトストレージに応用したということがわかる。
単にデータをバージョンコントロールするだけではなく、そのデータに利用されるライブラリーなどについてもメタデータとしてスナップショットをとることが可能だという。つまりどの時点のPythonのソースコードといつの時点のデータが組み合わされて実行されたのかを確認することが可能になるということだろう。
lakeFSのユーザーインターフェースを見せながら開発用、テスト用などのタグを使うことで単に名称だけではなくソースコードの管理と同様の手法でデータの管理ができることを説明した。ドキュメントではCI/CD for Dataというコピーが使われており、開発者にとって理解しやすいメタファーをつかっていることがわかる。
結果としてこれまでのデータに新しい要素を追加してテストする際に間違ってデータを追加してしまった場合でもマージする前の状態に戻すことができると語り、本番データを壊すことなどがないこと、Production Safetyが実現されると解説した。なお実際のデータ自体は複数のバージョンにコピーされているという。
結果としてデータに再現性をもたせられることになり、開発やテスト環境のためのデータセットの準備が容易になると説明。特にRevertボタンの持つ価値を強調した。
●公式ページ:https://lakefs.io/
●公式GitHubページ:https://github.com/treeverse/lakeFS
Gitの使い勝手をデータレイクに応用したlakeFSには、サーバーや開発用PCにインストールする形式以外にlakeFS Cloudというクラウドサービスも提供されており、公式のサイトでは実際にその使い方を体験できるようになっている。
●lakeFS Cloud:https://lakefs.cloud/
ちなみにlakeFSのロゴに使用されているのは通称ウーパールーパー、メキシコサラマンダーのLottieというキャラクターであると説明されている。データレイクがさまざまなモノで混乱した状態であることから、何がいるのかわからない湖(Lake)をキレイにしたいという意図から「lakeFS」と命名されたと質問に答えていたが、その湖にいる動物ということでウーパールーパーが選ばれたのであろう。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- SODA Data Vision 2023からKubernetes上のアプリケーションデータを保護するKanisterを紹介
- Open Source Forum:Huaweiが開発をリードするSODAに注目
- オープンソースのストレージプロジェクトSODAがコミュニティミーティングを実施。最新のリリースなどを解説
- オープンソースのストレージプロジェクト、SODAが6月14日にテックカンファレンスを開催
- 分散ストレージ管理のOSS、SODAが開催したミニカンファレンスを紹介
- AWSが「AWS Lake Formation」を発表–データレイクを簡単に構築
- AWSが「AWS Lake Formation」を発表–データレイクを簡単に構築
- オープンソースのストレージ管理ソフトウェアSODAがオンラインカンファレンスを開催
- SODACON Global 2021、トヨタが「一緒に走り続ける」と宣言したコネクテッドカーのインフラ
- RevertとBlameを使いこなして安全性の高い開発を推進しよう