LUT-NetworkによるFPGAでの手書き数字(MNIST)のセマンティックセグメンテーション再整理

はじめに

私のTwitter のトップにも置いているこの動画ですが、かなり昔 C++ ベースでハイパーパラメーターや構造を何度も変えてリコンパイルしながら少しづつ試行錯誤してネットを育てるという事をやってしまったので、容易に再現環境が作れずにおりました。

BinaryBrain ver4で、Python対応もだいぶ進んで、(作者にとっては)多少いろんなネット構造がある程度柔軟に扱えるようにもなってきましたので次のステップに行く前に整理してみました。

とは言え学習時間が結構かかるのですよね。

アプローチ

通常であれば、セマンティックセグメンテーションと言えば、U-Net みたいな構造でつくるかと思います。

当サイトとしても最終的には、以前から構想だけは持っているCNNの1frame前をIIRフィルタ的に使う使い方で、U-Net 的な効果を出したいと考えてはいるのですが、なかなかそこまで難しい学習ができるプラットフォームも作れていないので、Pooling層を使わずに 3x3 畳み込み層を 29直列することで、「数字1個分ぐらいはスコープに入る画像フィルタを学習してしまおう」というアプローチになっています。結構力業です。

その際に、LUT回路を微分した DifferentiableLUT モデルを MobileNet 風に、Pointwise(LUT 2層)-Depthwise(LUT 1層)-Pointwise(LUT 2層) として効率化を図ります。そうすると29直列で、145層のLUT層ができるのですが、残念ながらこれの直接学習は深すぎてうまくいきませんでした。

そこで、BinaryDenseAffine 層を用いた29層を先に学習させておいて、それを補助層として使いながらLUT層を学習させていくというアプローチをとっています。

ネットワークの概要

ネットワークの構造としてはこんな感じです。

f:id:Ryuz88:20210710095420p:plain — ネットワーク構造

f:id:Ryuz88:20210710095508p:plain — ネットワーク構造の表

表の Dense (BinaryDenseAffine) の方は、FP32 のパラメータですので、結構な規模なのですが、LUTの方は純粋に 6入力1出力のLUT素子の個数でカウントしています。

学習の進め方

こんな感じで学習させています。

まずDenseなネットワークを学習させる
1層だけLUTにしてそこだけ学習させる
LUT化した層以降を再度追加学習させる
2に戻って次の層をLUT化する

という地道なことをやってます。とても長いです。

工夫の余地はいくらでも残っていそうですが、工夫して効果を確認しようとすると、その「とても長い」を何度も繰り返して比較することになるので挫折しています(笑)。

学習結果

まずこちらがDenseでの学習結果です。今回はデータにネガポジ反転も混ぜましたが、さすが全結合の畳み込みだけあって綺麗に数字の部分も出していますし、分類もそれなりに数字に応じた部分が発火するようになっているようです。

f:id:Ryuz88:20210710095924p:plain — Denseでの学習結果

次に、これをLUTに写し取った結果です。

f:id:Ryuz88:20210710100135p:plain — DifferentiableLUTに写し取った結果

さすがだいぶ劣化しちゃいました。とは言え、当サイトではまだ、LUT-Network の有り余る処理帯域を使って時間方向の変調の手が残っていますので、もう少し引き上げができるかとは思います。

実際、デモの動画でも実は１枚１枚はそれほど精度高くないのですが、1000fps で動いている関係上、60fps の民生カメラで撮影すると16枚程度が1フレームに重ね合わされてしまい、結果的に綺麗に映っているかと思います。人間の眼も同じくで、残像効果がありますので、映像と変わらない見栄えが得られます。