改造したソフトの性能がばらつくので、なんでかな~?
と思って、アルゴリズムごとの性能をモニタしたら、10倍近い差がある。
(注:X16r は 16 種類のアルゴリズムをミックスしつつ動作する)
不思議に思って調べたら、そもそもそういう設計らしい。
https://ravencoin.org/wp-content/uploads/2018/03/X16R-Whitepaper.pdf
なるほど、じゃ、時間のかかるアルゴリズムをFPGAで加速するのが、Acorn のポイントか。
と、一瞬納得したが、実は問題がある。
課題:
・X16rは、一連の処理の中で、GPU <-> FPGA のデータ転送が頻繁に発生する。
GPUのみで完結する場合は、GPUメモリ速度が 256GB/s (GTX1070の場合)
一方、PCIe gen2 x4レーンだと、2GB/s と100倍遅い。
従来のリグだと、GPUは PCIe x1 でつないでいるから、0.5GB/s になる。
性能がかなりきつそう。(PCIe gen1 x1 だと 0.25GB/s まで落ちる)
結論(仮):
Acorn を使うには、M.2 PCIe のスロットと、PCIE x 16を2本持った普通のマザボとの組み合わせじゃないと、所定の性能が出ないかもしれない。
う~ん、マザボ考えないと。