データ統合/ETLを使う
Pentahoデータ統合/ETLのインストールとSpoonの起動
Pentahoデータ統合/ETLをインストールして、Spoonを起動してみましょう。
第1回で解説したように、エンタープライズ・エディション(EE)はインストーラを用いてインストールできるので、手動でインストールする必要はありません。一方、コミュニティ・エディション(CE)では、手動で入手してインストールする必要があります。
Pentahoデータ統合/ETLは、SourceForgeのData Integrationメニューでダウンロードできます。ファイル名にstableが付いた安定したバージョンをダウンロードすることをお勧めします。インストールは、ダウンロードしたzip(Unix系はtar.gz)ファイルを解凍すれば完了です。
インストールが完了したら、Spoonを実行します。解凍したdata-integrationフォルダ以下の「Kettle.exe」、もしくは「spoon.bat」(Unix系は「spoon.sh」)を実行するとSpoonが起動します(図2-1)。
※データ統合/ETLの実行には、Sun JRE 1.5が必要です。
Pentahoデータ統合/ETLの基本
接続するデータ・ソースの指定は、データベース名、データベース・タイプ(例えば、MySQLやOracle)、アクセス・タイプ(JDBCやODBC)を基本に設定します。ホスト名、ポート番号、ユーザー・プロファイルは、選択したデータベース・タイプに合わせて設定します。
作成したETL処理のデータは、ファイルかリポジトリのどちらかで管理します。ファイル・ベース管理、リポジトリ・ベース管理のどちらでも、データベース接続処理を作成できます。それぞれの特徴は以下の通りです。
ファイル・ベース管理
XMLファイルを用いてTransformationやJobを管理します。データベース接続は、現行(最新)のXMLファイルに書かれているTransformationやJobに限って利用可能で、TransformationやJobを作成するたびに、新たなXMLファイルを作成して接続を定義する必要があります。複数の設定(XMLファイル)を同時に利用することはできません。
リポジトリベース管理
リポジトリ・ベースの管理は、共同開発のための仕組みです。複数のユーザーがデータベース接続を共有できます。TransformationやJobを作成するたびに新規に接続を定義する必要はありません。リポジトリでは、データベース接続のほか、Transformation、Job、スキーマ、ユーザー情報を管理します。
リポジトリ設定方法
Spoonを起動すると、図2-1のリポジトリ選択画面が表示されます。「リポジトリを使用しない」ボタンをクリックすると、ファイル・ベース管理のモードでSpoonが起動し、図2-2の「ようこそ画面」が表示されます。
一方、リポジトリ・ベース管理のモードで起動するためには、あらかじめ以下の手順でリポジトリを作成しておく必要があります。
- リポジトリ選択画面で「新規作成」ボタンをクリックします。
- データ・ソースを設定します。リポジトリ情報画面で「新規作成」ボタンをクリックし、リポジトリを作成するデータベースを設定します。
- データベースに合わせて必要事項を設定し、接続を確認してリポジトリ情報画面に戻ります。
- データソース名を選択し、リポジトリを任意で入力して「新規作成または更新」ボタンをクリックします。
- SQLが表示されるので実行します。これで、データベースにリポジトリが作成されます。
- リポジトリ選択画面に戻り、ユーザー名、パスワードともにadminを入力し、OKをクリックするとリポジトリ・ベース管理のモードでSpoonが起動します(図2-3)。
次ページでは、簡単なTransformationの作り方を解説します。
「データ統合/ETLを使う」サンプルプログラム