イベント・セミナー2017 第4回

「データ統合の妨げはテクノロジーよりもカルチャー」CDOが語るTamrのビジネス

データ統合を手がけるMIT発のベンチャー「Tamr」のCDOが、ビッグデータ活用に必要な「汚い仕事」について語る。

2017年3月14日 0:00

2017年2月7日と8日の2日間、開催された「Big Data Analytics Tokyo」でのTamrのCEOのプレゼンテーションに続いて、Tamrのチーフデータオフィサー（CDO）のエリオット・ナドセン（Eliot Knudsen）氏のインタビューを紹介する。ナドセン氏は、チーフデータオフィサーとしてTamrのデータサイエンティスト部門を率いる責任者だ。

TamrのCDO、エリオット・ナドセン氏

Tamrが創業した経緯、会社の概要などを教えてください。

Tamrは、MITのリサーチのひとつとして始まりました。それは2011年に始まって2013年に終わったプロジェクトなのですが、その結果としてTamrが起業されたわけです。そのプロジェクトは、Tamrの創業者のマイケル・ストーンブレーカーとアンディ・パーマーが様々なデータソースからデータを統合する問題に取り組んだものでした。ストーンブレーカーが取り組んだプロジェクトは20以上ありますが、その中で唯一、商用化されたのがTamrだったというわけです。会社としてのTamrには現在75名の社員がいて、そのほとんどはエンジニアです。ボストン市内のケンブリッジにオフィスを置いていますが、MITのすぐそばということで多くの社員が元MITの人間です。Tamrのビジネスはパッケージのソフトウェアを提供することではなく、顧客のデータを統合するためのプロフェッショナルサービスを提供することです。私のデータサイエンティストのチームがそれを行います。

Tamrのコアな部分の競争力はどこにあるのですか？　プラットフォームとしてはオープンソースソフトウェアを利用していると思うのですが。

もともとマイケル（ストーンブレーカー）はUCB（カリフォルニア大学バークレー校）でPostgreSQLの開発を始めた人間ですので、我々のオープンソースソフトウェアに対する姿勢は理解してもらえると思いますが、Tamrはオープンソースソフトウェアをプラットフォームの部分に数多く利用しています。プロプライエタリなソフトウェアもありますが、それはアプリケーションのレイヤーの部分に限定されています。それ以外は全てオープンソースで、HadoopやSpark、PostgreSQLなどを使ってシステムを顧客に提供しています。システムとしては機械学習も積極的に取り入れていますが、その部分にはSpark/MLlibなどを活用しています。

GEやヨーロッパトヨタの事例ではデータを統合することによる効果を強調していましたが、日本語などマルチバイトの言語でも可能なのでしょうか？

そこに関しては、BASIS Technologyなどのパートナーと協力することで解決できると考えています。すでに中国の顧客のプロジェクトが始まっていますので、マルチバイトのデータについても問題はありません。それよりも実際のデータ統合に関しては、テクノロジーよりもカルチャーが障害になる場合のほうが多いのです。それぞれの国や企業の持つ文化的な側面が理由でデータが統合できないということがよく起こります。またそれぞれの企業では、だいたい複数のデータベースやERP、さらにETL（Extract、Transform、Load）のツール、ビジュアライゼーションのためのツールがすでに存在しているのです。Tamrは、それらを除外して新たに自社製のツールを強要することはありません。「あるものを使う」というのが方針です。それらをうまく活用して、データを統合することを目指しています。我々はデータを統合するという「古くからある問題を新しいやり方で解決する」ことをやっているのです。

「すでにある車輪を再発明しない」ということですね。

そうですね。

Tamrのデータ統合の3つの機能

Tamrにとってのチャレンジとはなんでしょうか？　特に日本市場において。

Tamrの顧客はエンタープライズ、それもグローバルな大企業がほとんどです。そういう顧客にとって信頼できるソフトウェアとサポートを提供することが、チャレンジのひとつでしょうね。それは、オープンソースソフトウェアに対しても同じことが言えると思います。色々なソフトウェアが開発されるのはいいことですが、それらのソフトウェアがエンタープライズで要求されるレベルであること、つまり信頼性や安定性に対しても十分に応えられるようにすることは非常に重要だと思いますし、その部分に対してTamrはコミュニティに還元していきたいと思っています。

もうひとつオープンソースソフトウェアに対して言えることは、例えばHadoopのディストリビューションのように各社が個別のパッケージを作ることで選択肢が増えすぎることで、エンタープライズのIT部門が選択する際に困難になるということもあります。どれが最新で何を使っているのか、全てを把握することが難しい状況は好ましいとは思えません。競争があることは健全な証拠ですが、余りにもバリエーションが増えることも問題です。日本市場については、システムインテグレーターなどとのパートナーシップを構築していくことが最初のチャレンジだと考えています。

Tamrの会社としてのモットーはなんですか？

我々のエンジニアは、非常にPragmatic（実利的）であるということですね。実際に顧客のビジネスに効果があることを最優先する、その際にはどんなツールでも使う、という部分でしょう。

ビッグデータアナリティクスを行う前に見落とされがちなデータ統合に取り組むTamrだが、日本でもシステムインテグレーターと組むことで実績が拡がっていくことは想像できる。日本での展開が楽しみだ。ただし管理コンソール以外はパッケージされたソフトウェアを売る形ではなさそうなので、システムインテグレーターによっては手間がかかってスケールしないのでは？　という懸念があるのが正直なところだろう。

ちなみにTamrの元となったストーンブレーカー氏のリサーチについては、以下の論文が参考になるだろう。

「Data Curation at Scale: The Data Tamer System」

Tamr：https://www.tamr.com/

この記事のキーワード：