SNSのデータから犯行に及ぶかどうか判定するモデルを作ろう!
公開日: 2016年7月7日木曜日 データ解析
【ネットの安全】芸能人SNSへのストーカー、殺人予告… 民間企業が監視サービス開始 人工知能(AI)で危険を把握 - 産経ニュース
SNSのテキストデータから、実際に犯行に及ぶかどうか判定するモデルを構築しましょう。
モデルを作るときに問題になるのは、当たり前ですが「犯行に及んだ」というデータが圧倒的に少ない、ということです。その代わりに、「犯行には及ばなかった」というデータがたくさんあります。なので、その「犯行には及ばなかった」データの領域を推定するモデルを構築しましょう。新しいデータが、領域内に来れば安心ですが、領域の外に来たら犯行に及ぶ危険がある、ということです。
テキストデータから記述子 (特徴量・変数) を計算し、これまでのSNSデータセットを用いてデータ領域推定モデルを構築します。主成分分析 (PCA) を行った後のT2やQにしきい値を設定したり、One-Class Support Vector Machine (OCSVM) を行ったりします。
随時、新しいSNSデータが取られますので、その都度、犯行に及びそうかどうか判定します。犯行に及ばないと判定されたら安心ですね。実際に犯行に至らなかったら、そのデータを用いてモデルを更新します。こうすることで、最新の情報を考慮したモデルを運用することができます。
一方、モデルが犯行に及びそう、と判定したら、その場に警察が駆けつけます。
このような判定モデルを用いることで、抑止力になって犯行に及びにくくなったり、人々の安全性が高まったりすることに貢献するはずです。
こちらもぜひ!
- 大学教授のブログ (データ解析全般、色々な研究の紹介、本の紹介、研究生活、など。)
- 大学教授のnote (実践的かつ実用的なプログラムを公開中)
- 大学教授のtwitter (色々な情報を発信中。)
参考になった方、共感された方は、このような情報をどんどん発信していきますので、フォローしていただけると嬉しいです。
Follow @univprofblog1