2024-01-01から1年間の記事一覧
FPGAをはじめてみたい 「FPGAという何やら面白いものがあるらしくて、使うとすごい計算やいろいろなデバイス制御ができるらしい。」 と、興味を持って頂ける方はそれなりにいらっしゃるのではないでしょうか? 早速なんらかのHDLなる言語を勉強し、例えば Sy…
はじめに つい最近、x86 CPU が割と長らく整数乗算をスループット1で処理していなかったことに気が付いてこんなブログを書きました。 ついでなので、工夫や構成でトランジスタ数の変わる乗算は置いておいて、比較的変化の少ない加算器で専用計算機との比較を…
CPUが苦手でFPGAが得意な処理にどんなのがあるか考えたときに、案外 LUT-Network はそれに近いかもしれないと思う。 ここで手元にある KV260 を考えてみると 117,120個 のLUTがある。 LUT-Network で行われる動作としては ランダムに結線されている別のノー…
はじめに 計算機の世界で ××倍速い、とか、〇〇倍の効率を達成とか、よく聞くわけですが、いわゆる当社比で2つを比べる場合ならともかく、そうでない場合はいろいろと比較が難しいように感じております。 特に FPGA をやっていると、ASICと比べると 10~100…
はじめに 先日、下記のくだりを X で呟いたところ、思いのほかのプチバズり状態となり驚きました。 動き探索などが良い例で、1フレームで100ピクセル移動されると、100x100で10000ピクセルの範囲を検索しないといけないが、フレームレートを100倍にすると、1…
はじめに BinaryBrain の最初のコミット日を調べてみると 2018年8月1日でした。 github.com LUT-Network という名前のネットワークとその学習環境である BinaryBrain の開発を始めてから 6 年以上が経ったことになります。 世の中の AI が LLMなどで盛り上が…
はじめに 一言で「ソフトウェア開発」と言っても非常に手広いと思います。 特に、当サイトでは常々「FPGA はソフトウェアだ」と言っておりますとおり、ソフトウェアの範疇は非常に広いです。 一方で、「ソフトウェア開発」といったときに、やはりパソコンや…
はじめに まだまだ現役で利用されているシーンも多いかとは思いますが、下記のようなUSBに接続するタイプのアクセラレータが 2018年~2019年ごろ発売され始めて以降、特に進化したバージョンが現れてニュースを騒がせたりしていない気がします(私が知らない…
はじめに 今更と言うところはあるのですが、FPGAプログラミングを知らない人に説明する機会も増えてきたので少し記事にしておきます。 FPGA とは 昔電子工作したときに撮影した写真が出てきたので張っておきますが、いわゆるこんなやつです。 こんなやつです…
はじめに 先般 MN-Ccore Challenge なるものが開催され、私もスキマ時間に気分転換的にちょこちょこ挑戦していたのですが(本業関係者への言い訳)、とても面白いアーキテクチャだなと思いました(順位はまあその力及ばず微妙な感じでしたが)。 普段 FPGAプログ…
はじめに FPGAなどでデータ処理をする場合、その並列性を活かして高性能な処理をするという事はしばし求められることです。 その際にしばし使われるデータ並列とパイプライン並列を整理しておきたいと思います。 データ並列と言うと、AVX-2 のような SIMD(Si…
情報量にエントロピーという概念があります。 エントロピーと言うと物理学で習うエントロピー増大の法則を思い浮かべるわけですが、そちらのエントロピーには時間が経過するとエントロピーが増大するというエントロピー増大の法則があります。 ここで、情報…
なんとなく、駄文を書いてみます。 技術者という職業を突き詰めていくと、はその技術力を売ってその対価としてお賃金を頂く職業なわけです。 ただ見渡す限り、メンバーシップ型雇用が主体のわが国では、純粋な職業技術者として人を雇っているところはそれほ…
はじめに 今日は、最近のプロセッサをウォッチしている中での素人の妄想を書いてみます。 プロセッサの性能と規模の法則としてポラックの法則というものがあります。 これは簡単に言うとプロセッサの性能を2倍、3倍、4倍にするには、プロセッサに適用する…
はじめに だいぶ前に、RISC-V もどきの最小セットを作って遊んでいましたが、今回はその延長でもう少し遊んでみました。 動機としては レジスタファイルの構成に LUTRAM や BlockRAM を使うのだから、レジスタ32個だけじゃもったいない 複数スレッド動かすな…
はじめに KV260 には K26 SoMが搭載されています。実際には KV260 にはコネクタが片方しかついてないとかいろいろあるのですが、一旦そこは置いておいて、K26 SoM モジュールをデータ帯域観点で見てみたいと思います。 以前にリアルタイムコンピューティング…
GDDR について もともとGPGPUはGPUであり、GPUはグラフィックスボードであります。 グラフィックスボードは、DVIとかHDMIとかDisplayPort を備え、60fps などで毎フレーム画像を生成&出力するものですが、そうするとゲームなどではその fps に対して、例え…
はじめに 過去に PS-PL間の通信帯域やレイテンシを実測して実験していましたが、少しドキュメントから読み取れる仕様についても整理しておきたいと思います。 独自の調査であり、正しく読み取れていない可能性はあるので、誤りはあるかもしれないことを予め…
はじめに 筆者は過去に幾つかこの手のパフォーマンス検証を行い、下記のブログを書きました。 Ultra96V2(ZynqMP) のPS⇔PL間性能計測 - Ryuz's tech blog KV260 で PS から PL へのシングルアクセス速度を測ってみる 基本的には MPU を自由に弄りやすい、RPU(…
はじめに 先日、Youtube でこんな動画を見かけて、そのなかで加算器などの演算器がいくつか出てきました。 youtu.be 計算機黎明期の演算資源が貴重だった時代のお話と思いますが、今のテクノロジーでやろうとしたらどうなるんだろう? という妄想をしてみた…
はじめに 私が FPGA に興味を持ち Verilog を勉強し始めたころこんなブログを書いていました。 遥か昔、「モジュールは全部FF出ししないとだめよ」という事を言っていた先輩の言葉を真に受けて、何とかして ready も FF 出ししようと、無い知恵を絞って作っ…
はじめに なんとなくお散歩中に考えていたことを先ほどとめどなく X にツイートしていたのですが、少しまとめておきたく、久々にブログに書いておこうと思います。 私が今Xの固定ツイートにしている下記のデモ試作のアーキテクチャを題材に、非ノイマン型に…
はじめに FPGA は各社しばし同期リセット推奨だったと記憶していますが、FF周にはいろいろ機能がついてます。 KV260 (Zynq UltraScale+ MPSoC) 用の合成結果の中身を覗いてみたのでメモです。 普通に書いてみる 私が普段よく書く書き方が下記のような感じで…
なにが起きたのか 下記のようなシーンで何やら Verilator が Operator NOT expects 5 bits on the LHS, but LHS's VARREF 'b' generates 4 bits. というワーニングを出してきた。 logic [3:0] a; logic [3:0] b; logic [4:0] c; assign c = a + ~b; 4bit同士…
はじめに 2024年3月末日を持って23年半ほど勤めた会社を退職して転職を致しました。 今回で転職は二度目になるのですが、余りに長くいたのでいろいろな思いもあり、ちょうどGWで振り返るにも丁度よいタイミングですので、少し総括しておきたいかなと思います…
はじめに 最近久々に FPGA 使う仕事に復帰したので、これまた久々に最新のFPGAの性能を調べてみたいと思います。 過去にも何度かやっている FLOPS の見積もりを、現時点で Xilinx の最高峰の筈の VP1902 (TSMC 7nm )に対してもやってみます。 www.amd.com は…
はじめに 少し前に、X(Twitter) にこんな絵を張り付けた。 ちょうど BitNet(b1.58) が盛り上がっていて、パラメータ効率の議論が起こっていたときだと思う。 忘れる前にもう少し書いておこうと思う。 上の図では少なくとも DRAM などの外部メモリや、そこへ…
はじめに だいぶ以前、最小限の RISC-V 命令だけ実装して遊んだときに下記のようなレジスタファイルを作りました。 後でいろいろパラメータ変えて計測しようと思いつつ完全に忘れていたので思い出したように実験です。 https://github.com/ryuz/jelly/blob/m…
はじめに 毎度おなじみ当方の LUT-Netは、ネットワークのパラメータをLUTのテーブル値として学習して回路にしてしまう為、外部SDRAMなどのメモリからパラメータをロードしながら演算する必要がありません。 今回はLUT-Net は置いておいて、「もし普通の積和…