主成分分析を活用したクラス分類

公開日: 2016年5月8日日曜日 データ解析

主成分分析 (principal component analysis, PCA) は、データを可視化したりデータの次元を落として情報を縮約させたりするだけのものと考えている方もいらっしゃると思いますが、こちらで説明したとおり、T2統計量とQ統計量を用いることで外れデータの検出を行うこともできます。さらに、PCAを駆使することでクラス分類もできますのでここで説明します。ただ、基本的にはT2統計量とQ統計量の応用です。難しいことはありません。

まず、データセットをクラスごとに分けます。例えば3つのクラスがある場合は、3つのサブデータセットに分けます。もちろんそれらのサブデータセットを組み合わせると元のデータセットに戻ります。次に、それぞれのサブデータセットにおいて、センタリング・必要に応じたてスケーリング・PCAを行い、最適成分数を決め、T2統計量とQ統計量を計算します。3つのクラスがある場合は、3回『センタリング・必要に応じたスケーリング・PCA・最適成分数の決定・T2統計量とQ統計量の計算』を行うことになります。

新しいデータがどのクラスに属するか判定する際は、それぞれのT2統計量とQ統計量を計算します。元のサブデータセットのT2統計量とQ統計量の値と比べて小さいもしくは同じくらいの場合に、新しいデータはそのサブデータセットのクラスに属すると判定されます。つまり、新しいデータがどのサブデータセットに類似しているか検討できるわけです。どのサブデータセットのT2統計量とQ統計量の値も大きい場合は、どのクラスにも属さない、つまり新しいクラスのデータということになります。

  • ?±??G???g???[?d????u?b?N?}?[?N???A