主成分分析に基づく統計量

公開日: 2016年5月8日日曜日 データ解析

主成分分析 (principal component analysis, PCA) を行い、最適成分数を決めた後の話です。

PCAを行いデータの可視化をして、例えば第一主成分 vs. 第二主成分プロットを見てデータの分布はわかったとします。ただ、第二主成分までで元のデータセットの100%の情報量を扱えるわけではありませんので、実際のデータ分布と目で見えている二次元上の分布とが異なるかもしれません。

一方で、データ分布の詳細は分からなくても、あるデータが全体の分布から外れているかどうかを確認したい場合があります。第一主成分 vs. 第二主成分プロットで見ると分布から外れていなくても、第三、第四、・・・主成分を考慮すると分布から外れていると具合いが悪いわけです。

このような状況で用いることのできる、PCAに基づく指標が2つあります。

一つはT2統計量です。てぃーにじょう(じじょう)とうけいりょうと読みます。これは、一言で言うと、PCAを行った後に、各主成分をスケーリングした後の(それぞれの標準偏差で割った後の)、原点からのユークリッド距離のことです。原点からの距離が大きいとき、つまりT2統計量の値が大きいときに、そのデータはデータの分布から外れているといえます。



もう一つはQ統計量です。きゅーとうけいりょうと読みます。T2統計量によって、最適成分数までの主成分軸で表現される空間における分布からのデータの外れ具合は表現できますが、最適成分数より後の、考慮されていない主成分軸での分布は考慮されていません。そこで最適成分数より後のすべての主成分軸での空間における、原点からの距離がQ統計量です。Q統計量はPCAによる推定値と実際の値との誤差の二乗和という言い方もできます。



T2統計量とQ統計量とを両方チェックして、他のデータと比較して大きい値をどちらか一方でも取る場合は、そのデータは分布から外れているといえます。特にPCA後のデータ分布が正規分布に近い場合など、データ分布から外れているデータをもれなく検出することができます。

  • ?±??G???g???[?d????u?b?N?}?[?N???A