主成分軸は外れデータの影響を受ける
公開日: 2016年5月10日火曜日 データ解析
こちらにおいてT2統計量とQ統計量を用いることで外れデータを調べることができるという話をしました。
実際、T2統計量やQ統計量の値の大きいデータを、外れデータとして元のデータセットから除外することもあると思います。
ただし、その後もう一度PCAを実行したほうが良いです。なぜなら、最初のPCAはデータセットの中に外れデータが存在する中で行われており、主成分軸の方向はその外れデータの影響を受けているためです。
外れデータが除外された今、再度PCAを行うことで、より正しい方向に主成分軸を取れる可能性があります。
このように、外れデータを除外した後は、再度PCAを行うほうが良いです。あらためて外れデータが見つかる可能性もあります。