主成分軸は外れデータの影響を受ける

公開日: 2016年5月10日火曜日 データ解析

こちらにおいてT2統計量とQ統計量を用いることで外れデータを調べることができるという話をしました。

実際、T2統計量やQ統計量の値の大きいデータを、外れデータとして元のデータセットから除外することもあると思います。

ただし、その後もう一度PCAを実行したほうが良いです。なぜなら、最初のPCAはデータセットの中に外れデータが存在する中で行われており、主成分軸の方向はその外れデータの影響を受けているためです。

外れデータが除外された今、再度PCAを行うことで、より正しい方向に主成分軸を取れる可能性があります。

このように、外れデータを除外した後は、再度PCAを行うほうが良いです。あらためて外れデータが見つかる可能性もあります。

  • ?±??G???g???[?d????u?b?N?}?[?N???A