主成分分析で使用するデータ

公開日: 2016年5月10日火曜日 データ解析

回帰分析・クラス分類であれば、各データ(サンプル)の目的変数の値が必要です。つまり、PLS、SVM、SVR、RFなどは目的変数がないとできません。

しかし、主成分分析 (principal component analysis, PCA)は目的変数が揃っていないデータや、目的変数が全くないデータでも、実行することが可能です。

データの前処理としてPCAを行う方がいらっしゃいます。回帰分析やクラス分類を行う際に、説明変数と目的変数との間で行うのではなく、説明変数から主成分を計算した後に、主成分と目的変数との間で行うということです。

この際、基本的には目的変数の値のあるデータを集めてきて説明変数から主成分を計算すると思います。ただ、先ほど話したとおり、PCAでは目的変数のデータは必要ありません。つまり、PCAを行うだけであれば説明変数のデータのみで可能です。

もし、目的変数の値は揃っていませんが、説明変数の値は揃っているようなデータがあれば、それも追加してPCAを行うことができます。

PCAを行う際には、データ数が多いほうがより正確に主成分軸を計算できるため、このようにデータを追加できるのであれば追加したほうがよいです。

もちろん、その後に回帰分析やクラス分類を行う際は、目的変数の値が揃ったデータのみで行うことになります。

  • ?±??G???g???[?d????u?b?N?}?[?N???A