応用統計学

アブストラクト


Elastic Net罰則によるルール・アンサンブル法とその応用,19-40

下川敏雄,辻光宏,後藤昌司

要旨

アンサンブル学習法は,樹木モデル(基本学習器)の予測確度を向上させる方法として,統計科学およびデータマイニングの分野で研究されている.アンサンブル学習のモデルは,単一の基本学習器に比べて,劇的にその性能を向上させるものの,モデルを「ブラック・ボックス化」するため,結果に対する解釈は困難である.Friedman and Popescu(2008)は,樹木によって構成される「ルール」をアンサンブルさせる,ルール・アンサンブル法(RuleFit法)を提案している.RuleFit法は,応答に影響を与える基本学習器(ルール)を提示できる.そのため,変数重要度だけでなく,ルール(基本学習器)の重要度を提示できる.RuleFit法では,基本学習器に対して,lasso法による重みを加えることで,不必要な基本学習器を削除する「刈り込み」を有する.ただし,lasso法では,説明変数間の相関が強いときに,過剰刈り込みを行うことが線形モデルにおいて指摘されており(Hastie et al., 2009),RuleFit法においても同様の問題が推察される.その対処法として,本論文では,Elastic Net法(Zou and Hastie, 2005)を基本学習器の重み付けに用いる,修正RuleFit法を提案した.さらに,ルール重要度およびルール重要度をグラフィカルに表示するためのグラフィクスを提示した.修正RuleFit法の性能は,若干の数値検証により確認した.その結果,修正RuleFit法は,既存の手法(MART[Multiple Additive Regression Trees])法(Friedman, 1999; 2001),RandomForest法(Breiman, 2001))に比して良好な結果を示した.また,修正RuleFit法および診断グラフィクスの有用性は,臨床研究に対する文献事例において評価した.そこでは,前立腺癌のバイオマーカに対して影響を与える要因の探索に焦点を当てた.その結果,修正RuleFit法および診断グラフィクスは,ポジティブ・レスポンダー(およびネガティブ・レスポンダー)に対して,有用な示唆を与えることができた.

英文要旨

Modified Rule Ensemble Method and its Application for Bioceutical Data

Toshio Shimokawa,Mitsuhiro Tsuji,Masashi Goto

Ensemble learning methods can improve the prediction accuracy by combining multiple base learners, and are studied in the fields of statistics science and data mining. Since ensemble learning methods construct models of a "black box" nature, the models are difficult to interpret. Friedman and Popescu (2008) proposed the rule ensemble learning method, in which nodes of tree models are used as base learners. The rule ensemble method not only presents the base learner as a production rule, but also gives the response variable an influential measure with rule importance. In the rule ensemble method, base learners are weighted by shrinkage regression using the least absolute shrinkage and selection operator (lasso). However, when some pairs of base learners have high correlation, the lasso method prunes base learners excessively. In this study, we utilized elastic net (Zou and Hastie, 2006) for weighting the base learner to solve the problem of excessive pruning. We called our rule ensemble method the EN-RF method. Furthermore, we developed diagnostic graphics for partial variable importance and partial rule importance. The usefulness of the EN-RF method and its diagnostic graphics were illustrated by a practical example in medical data. In application of medical data, we focused on the characterization of the positive (and/or negative) responder. We found that the EN-RF method shows better performance compared with the existing regression method.


「2011年第40巻 No.1」目次へ

「応用統計学」総目次へ

「応用統計学」トップへ

「応用統計学会トップ」へ