【機械学習】画像認識の試行錯誤（７／Ｅ）

2019年8月6日2019年8月13日 by sberjisan66

つづき

１２．処理速度

１２．１　CPUとGPU

　　１０項までのパラメータとCNN構造で正解率０．８８６２を得た時の

処理時間は１０１．６秒で２３ｓｔｅｐであった。この時の環境では、

CPU（Core i5-9600K）とGPU（RTX2060）の両方を使っていた。

CPUだけで計算した時(*1)の処理時間を比べてみた。サンプルとして、

最初のｓｔｅｐの処理時間を測定した。約２１．６倍の差が出た。

使用ハードウェア	CPUとGPU	CPUだけ
処理時間（秒）	５．１	１１０．２
CPU使用率（％）	３０	１００
GPU使用率（％）	６	１

例１）CPUとGPU

　処理時間

　CPUとGPUの負荷

例２）CPUだけ

　処理時間

　CPUとGPUの負荷

(*1)下記のコードでGPUがオフになった。

下記のWEBページにお世話になりました。ありがとうございます。

・Keras on jupyter notebook でGPUを使わない

１２．２　テンソルコアの効果

　残念ながら、テンソルコアの使用をオフする方法が分からなかったので、測定出来なかった。

NVIDIA Deep Leraning Frameworks Documentationの7.1.6によれば、デフォルトが

テンソルコア有効になっている。（自分の環境ではCUDNNをバックグラウンドで使っている。）

１２．３　FP16とFP32の違い

　NVIDIA Deep Leraning Frameworks Documentationの2.9.4にはFP32データの

場合には、FP16に変換してからテンソルコアを使うと書いてある。下図はその抜粋である。

１）FP16

２）FP32

しかし、１０項までのパラメータとCNN構造で正解率０．８８６２を得た場合で比較したが、

FP16とFP32では処理時間が同じであった。

＜個人的な感想＞

テンソルコアの効果を調べたかったが、どのようなコード（命令文）をjupyter notebookから

入力すれば良いか分からなかった（WEBで色々探したが・・・）。これが残念である。

＜リンク＞

ブログのトップページは、こちら

バタイユゲーム情報班のホームページは、こちら