T2統計量・Q統計量のしきい値の決め方

公開日: 2016年5月9日月曜日 データ解析

こちらではT2統計量とQ統計量の値を見て、外れデータを確認できる話をしました。

こちらではT2統計量とQ統計量の値によってクラス分類ができるという話をしました。

それぞれ、T2統計量とQ統計量の値が小さければ、外れデータではなかったり、該当のクラスに属したりすることになります。

では、T2統計量とQ統計量の値がどの値より小さければよいのでしょうか? 今回はこのしきい値の決め方について話します。

単純に思いつくのは、元のデータセットのT2統計量・Q統計量の値の最大値をしきい値とする方法です。これにより、元のデータセットのT2統計量・Q統計量の値がカバーする範囲をしきい値として設定できます。しかし、たまたま元のデータセットの中にT2統計量・Q統計量の値の大きいデータが含まれているかもしれません。最大値(や最小値)は、そのような"たまたま"の状況に左右されやすいといえます。

そこで、よりそのような状況に左右されにくく、統計的に妥当なのは、元のデータセットの99.7%が含まれる範囲とすることです。ちなみに99.7%というのは3シグマ法に由来します。例えば、元のデータセットに1000個のデータがあるとしますと、T2統計量の値を小さい順に並び替え、その997番目の値をT2統計量のしきい値とします。Q統計量についても同じです。

  • ?±??G???g???[?d????u?b?N?}?[?N???A