主成分分析におけるオートスケーリング
公開日: 2016年5月10日火曜日 データ解析
データの前処理として、各変数から平均値を引いて平均を0にするセンタリングと、各変数を標準偏差で割って標準偏差を1にするスケーリングとを、両方行うオートスケーリングが有名です。
主成分分析 (principal component analysis, PCA) を行う前も、オートスケーリングを行うことが望ましいです。
特に、センタリングは必ず行わなければなりません。なぜなら、PCAでは主成分の分散が最大になるように主成分が計算されますが、センタリングを行わないと、アルゴリズム中の主成分スコアの二乗和が分散をあらわさなくなってしまうためです。
そこで、スケーリングはどちらでも構いませんが、センタリングは必ず行うようにしましょう。