つづき
7.予測に使う特徴量
(1)フランス軍の勝ち予想と負け予想に使う特徴量
下図のように13ケある(学習に使うには数値にする必要がある)。
・戦場の広さを示すHEX数 2ケ
・両軍の兵種毎の部隊数 6ケ
・時間を示すターン数 1ケ
・両軍の司令官種別(*1) 2ケ
・両軍の国種別(7種類) 2ケ
(*1)人数が多いので、超有能な2人(ナポレオンとウエリントン公爵)のみ有無を入力した。
(2)特徴量の削減と重要度
codExaの実践 ロジスティック回帰では、RFEという特徴量削減ツールが使われてる。
これは、次のような優れものである。
”与えられた特徴量を全て使ってモデルを訓練し、訓練済モデルから重要度が低い特徴量を削除します。
そして、残った特徴量でまた新たなモデルを作り、徐々に重要度が低い順に特徴量を削除していき、
最終的には設定した特徴量の数までこの検証を繰り返し行います。”
そこで、フランス軍の勝ち予想に適用してみた。下図のように特徴量を13から6に削減させた。
その結果は、下図のように砲兵中隊の数、両軍の司令官種別、両軍の国種別が残った。
これらは、他のパラメータよりも重要度が高いと判断された。
6ケの特徴量を使った予想は、下図のようになった。
史実が勝ち以外の場合(20)> 予想が勝ち以外となったが6、 予想が勝ちとなったのが14
史実が勝ちの場合(28)> 予想が勝ち以外となったのが2、 予想が勝ちとなったのが26
このモデルの正解率は66.67%と特徴量削減前の81.25%よりも大きく低下した。
なお、勝ちの適合率は、26÷(14+26)=0.65と特徴量削減前の0.8085よりも大きく低下した。
特徴量を削減すると、正解率が下がるので、今回は見送ることにした。
次回へつづく
<個人的な感想>
意外だったのは、RFEによる特徴量削減で歩兵大隊の数が残らなかった事である。
戦場の主力は歩兵と思うが・・・。両軍の司令官種別については、残ったのが納得。
ナポレオンとウエリントン公爵が指揮するかどうかで勝敗が変わるのは、当然である。