TOP業務システム> テキスト処理の流れ
テキストマイニング
顧客の声を活用するテキストマイニング

第3回:テキストマイニング技術の全貌

著者:野村総合研究所  神田 晴彦   2006/12/25
1   2  3  次のページ
テキスト処理の流れ

   第3回の今回は、これまでとは話の内容を転換して、テキストマイニングの技術的な内容について言及していきたい。テキストマイニングを支える技術には、「自然言語処理技術」と「データマイニング技術」がある。

   実は自然文のテキストデータは、そのままの状態では分析することができない。そのため、「自然言語処理技術」の形態素解析や構文解析といった処理を行い、単語の出現の有無などを表現するために定量的なデータに変換する。

   「データマイニング技術」としては、同時に出現する単語間の関連性を見る「アソシエーション分析」、テキスト間の類似性からグループ化するのに利用される「クラスター分析」などがある。

   では実際に、野村総合研究所(NRI)が自社開発したテキストマイニングツール「TRUE TELLER」における処理を参考にして、具体的なテキストデータ処理の流れを見ていこう。

テキストデータ処理の流れ
図1:テキストデータ処理の流れ
(画像をクリックすると別ウィンドウに拡大図を表示します)

   まず、図1のチャートを見ていただきたい。ここに掲げる1〜4が基本的な分析系テキストマイニングの処理の流れを示している(なお図中のI〜IIはTRUE TELLERの特徴であり、詳しくは次項で述べる)。

   テキストマイニングを行うには、最初に自然言語処理によって文章を「形態素」と呼ばれる単位に分解する。これは「形態素解析」と呼ばれる処理だ。なお形態素とは、これ以上細かくしてしまうと意味を成さなくなってしまう最小の文字列を意味する。これは単語レベルの単位に近い。そこであえて本連載では、理解しやすいよう「単語」という表現で説明を進める。

   日本語の文章は数値データと異なり、単語が連続して記述されるため、このような処理が求められるのだ。また形態素解析では単語に分解するだけでなく、それぞれの単語の品詞(名詞、動詞、形容詞など)を把握することも可能だ。

   次の処理として、同義語の統一を行う。例えば「価格」「値段」などを、代表的な単語に統一してまとめることだ。ひらがなやカタカナ、固有名詞や省略形の表現なども、この段階で統一されることになる。なおTRUE TELLERでは1つ1つ手作業で同義語を入力する手間を回避するために、同義語登録支援機能を利用することもできる。

   続いて第3段階では、「各テキストにどの単語が出現しているのか」といった単語の出現パターンを抽出し、統計処理が可能な数値データへの変換を行う。例えば1つ目のテキストデータには「香り」や「容器」が含まれているかどうかなど、データベース上で0/1の数値情報で保持する。

   そして第4段階では、前段階で抽出した出現パターンを基に統計処理を行う。これで各種分析作業のための準備が完了する。

1   2  3  次のページ


株式会社野村総合研究所  神田 晴彦
著者プロフィール
株式会社野村総合研究所  神田 晴彦
野村総合研究所ビジネスインテリジェンス事業部にてテキストマイニングを活用したCS調査や、データマイニング分析コンサルティングを数多く手がける。近年はテキストマイニングによるBlog分析やFAQ構築、品質管理・経営層向けのポータルサイトの構築を実施している。また人材育成プロジェクトも担当し、日本で最初となるテキストマイニング認定試験の企画に携わる。高度情報処理技術者(上級シスアド)。


INDEX
第3回:テキストマイニング技術の全貌
テキスト処理の流れ
  TRUE TELLERの構文解析
  TRUE TELLERによる分析