応用統計学

アブストラクト


Random Forest を用いた欠測データの補完に基づく大学入試センター試験科目間得点差, 193-209

石岡 恒憲

要旨

Breimanによって提案された分類や非線形回帰のための集団学習の方法の一つであるRandom Forest(RF)が,欠測を多く含む大量データに対して安定してかつ精度のよいデータ補完(Imputation)を実施することを示す.本報告では,RFによるデータ補完の方法について解説し,ある年度のセンター試験の理科および社会の科目間難易比較についての応用例を示す.説明変数が全て同等もしくは同列ではなく,幾つかの説明変数がグループにまとめられ,またそのグループの中から一つが排他的に選択されるような場合には本報告の手順は有効であろう.

英文要旨

Data Imputation by Random Forest
−The Principle and Its Application for National Center Test in Japan−

Tsunenori Ishioka

Random Forest, one of the ensemble learning methods for classification and non-linear regression model, provides a stable and an accurate data imputation for the missing data. This paper shows that the algorithm works well for a large dataset containing missing data. The examples are science and society examination scores appearing in the Japanese National Center Test in 200x.


「2011年第40巻 No.3」目次へ

「応用統計学」総目次へ

「応用統計学」トップへ

「応用統計学会トップ」へ