モデル構築よりも類似プロジェクト検索

2008年10月27日(月)
松本 健一

事例紹介:データ欠損に対するロバスト性

 ロバスト性を調べるためには、データ欠損率の異なるデータセットを用意する必要がある。ここでは、まず、データ欠損のないデータセットを用意し、そこから必要な率だけ人為的にデータを欠損させることとした。データ欠損のないデータセットとしては、図1-2の作成のために用意した140プロジェクトの9個の説明変数(プロジェクト特性)を用いた。

 次に、人為的なデータ欠損であるが、これは簡単なようで難しい。実際のデータ欠損に生じる偏りの再現手法は研究テーマとしても興味深く、詳細については文献(http://se.naist.jp/achieve/pdf/181.pdf)を参照されたい。

重回帰分析モデルとCF法の比較

 データ欠損を人為的に発生させ、欠損率0%、10%、20%、30%、40%、50%としたデータセットそれぞれにおける見積もり精度(相対誤差)のばらつきを図2に示す。ステップワイズ重回帰分析モデルでは、欠損率0~30%において、見積もり精度のばらつきはあまり変化しないが、欠損率が40%を超えるとばらつきが非常に大きくなる。相対誤差の中央値で見ても、欠損率0%で1.38だったものが、欠損率50%では1.98となり、約43%の増加となった。

 一方、CF法では、欠損率0~50%において、見積もり精度のばらつきはほとんど変わらない。この図では省略しているが、この傾向は欠損率60%まで続き、欠損率70%でばらつきが極端に大きくなるという結果であった。相対誤差の中央値で見ても、欠損率0%で0.77、欠損率50%で0.76と、ほとんど変わらなかった。

 以上が、協調フィルタリング技術を用いた工数見積もりの具体的な事例、特に重回帰分析により構築された見積もりモデルとの比較を行った結果である。データ欠損が避けられないような状況下での工数見積もりにおいては、従来法よりも威力を発揮することが分かる。

 いよいよこの連載も最後のページとなる。今回紹介したような「モデル構築よりも類似プロジェクト検索」というアプローチがもたらす新たな可能性について少し述べる。

奈良先端科学技術大学院大学
奈良先端科学技術大学院大学 松本 健一。1989年5月大阪大学・基礎工学部・情報工学科・助手、1993年4月に奈良先端科学技術大学院大学・情報科学研究科・助教授、2001年4月から同大学教授。合同会社EASE創研業務執行社員。ソフトウエア工学、特に、ソフトウエアメトリクスの研究に従事。2007年8月から、ソフトウエアタグの研究開発を目的とした文部科学省STAGEプロジェクト研究代表者。http://se.naist.jp/http://easesoken.com/http://www.empirical.jp/http://www.stage-project.jp

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています