個人でスパコンが作れるか
GRAPE1の製造費用は20万円だったそうだ(まあ材料費だけだと思いますが)。
今を生きるエンジニアに同じワクワクは可能だろうか?
それともLSI作れるような億単位の投資条件のそろったプロジェクトでのみ可能になってしまったのであろうか?
ということで、FPGAを使ったスパコンを考察してみる(できれば考察に留めたくないが)。
FPGAの最低クラスのラインナップは通常数ドル以下である(注:日本では500円玉1枚で買えるチップをワンコインチップと呼んだりもするが、可愛い子犬が入っているわけではない)。
が、価格に直結するシリコン面積が小さいだけで、ハイエンドクラスと同じプロセスで作られていたりするのでI/Oの性能だけは異様に高い。
XILINXのチップを見てみよう。
7シリーズはまだDigikeyなどにライナップが無いのでSpartan6世代を見てみる。
http://japan.xilinx.com/support/documentation/data_sheets/j_ds160.pdf
「差動 I/Oあたり最大 1,080Mb/s」
「DDR3 800Mb/s」
あたりの単語が目に付く。
同じスペックが最下位グレードのFPGAのI/Oにも等しく付いてくるわけだ。
しかも差動に関しては、チップを真横につければたぶんシングルエンドでも
動くのではないかと予想している。
# そもそもLVDSとかの終端からの枝とか 数mm ぐらい許容するし。
メモリコントローラ付きで、規模あたりの I/O 数の多いレンジを探すと
XCSLX9 や XC6SLX16 あたりがI/Oコストパフォーマンス的に美味しそうである。
CSG 324パッケージで帯域を計算してみる。
16bit × 800Mb/s が 完全独立(ココ重要)でが2個
DDR3-SDRAMに2バンク食われてもまだI/Oはバンク2つ120pinあまる
メモリ帯域 : 25.6Gbps
I/O帯域 : 64.8Gbps (シングルエンドで動けば 129.6Gbps)
この性能が、ワンコインで買えるとしたらワクワクしてこないだろうか?
Digykey 価格では 3000円程度だが、そもそもDigikeyではLX4でも2000円とかなのであまり参考にはならない。
勝手な推測だが、Spartan3とか$3とかでプレスリリースがあるところ見ると、LX4で同レンジで、LX9や16は
たぶん量産価格、$5~$10と思う。
この価格でこの性能だとワクワクしないだろうか?
それでは本当にお得かベンチマークしてみたいと思う。
CPUには余裕で勝てるので最近流行のGPUと比較
GeForce GTX 690 GDDR5 3004MHz (256bit x 2) で 384GB/sec $1,000 というところ
ちなみに 300W らしい。
3Tbps / $1,000 なので 1ドルで3Gbps が買える計算。
対するFPGAは、仮に5$と(いいのか?)仮定しちゃうと、1ドルで 5.3Gbps 買えるので
勝てちゃいます(DRAM代入れていい勝負か?)
電力にいたっては仮にFPGAが1個3W食っても圧勝です。
そしてなにより GPU と違い、16bit幅などの細かい粒度でアクセスができます。
ですので、たとえば FPGA を 何十個とか何百個とかを、高速なI/Oを生かして密結合させたボードを起こせば特定用途でGPGPUよりコストパフォーマンスのよいボードが作れる計算になります。
世の中にはメモリ帯域律速しているアルゴリズムも多数ありますので、分野を限定すれば有意義なものになる可能性があります。
ポイントはGRAPE1同様に、その価値を基板作成に集約している点で、とにかく尖った部分のある石を見つけてきてボード技術でカバーするということをやればまだまだ大型投資無しでも楽しめそうです。
ボード技術に解を求めて勝てるのはピン律速問題が半導体進化だけでは難しいところがあり(TSVとかいろいろあるにはありますが)、ボード側で力技ととなると意外と個人でも太刀打ちできそうです。
レッツP板ドットコムですな。
ただし、高速差動となると、配線のインピーダンスコントロールが欠かせなくなるので価格面でこれは課題。短くつなげば机上計算だけで無視してもいいのかな?
(http://nahitafu.cocolog-nifty.com/nahitafu/2008/11/post-57a1.html)
DDR3とかも怪しげな雰囲気。ノウハウを集める必要がありそう。
あと、BGA実装も頼むと高そうです。ホットプレートリフローをまじめに検討中。
http://www.amazon.co.jp/
など、世の中には猛者がいらっしゃいますね。
さて、夢はでっかく、ゴードン・ベル賞狙いで(笑)
« TOP500更新 | トップページ | KiCAD + FusionPCB で XC6SLXFTG256 用二層 5cmx5cm基板 »
「FPGA」カテゴリの記事
- LUT-Networkの蒸留とMobileNet風構成とセマンティックセグメンテーション(2020.03.09)
- LUT-Networkの蒸留(Distillation)について(2019.12.29)
- FPGAでのDNN(Deep Neural Network)の整理(LUT-Netまとめ)(2019.12.15)
- LUT-NetのFPGAリソースについて(2019.12.08)
- MNIST認識のリアルタイム動作環境更新(2019.09.02)
コメント
この記事へのコメントは終了しました。
« TOP500更新 | トップページ | KiCAD + FusionPCB で XC6SLXFTG256 用二層 5cmx5cm基板 »
>たとえば FPGA を 何十個とか何百個とかを、高速なI/Oを生かして密結合させたボードを起こせば特定用途でGPGPUよりコストパフォーマンスのよいボードが作れる計算になります。
この辺が、それに近いのではないか?と思います。ただ、通信スピードはそんなに速くないと思います。
http://www.arch.cs.titech.ac.jp/a/scalablecore/ScalableCore_System.html
個人としては、この辺を狙われるのは、いかがでしょうか?
投稿: marsee | 2012年11月17日 (土) 17時27分
情報有難うございます。思い描いていたボード構成がほぼそのまま飛び込んできてびっくりしました。
あとは子ボード同士の接続をLVDSケーブルにすればケーブルの組み換えでメッシュ以外の接続網もいろいろ作れて楽しいかなとか想像していました。
また最近あまりFPGAいじる時間が取れていませんが、こういう情報を頂くと夢が膨らんできますね。いろいろ調べて見たいと思います。
面白いアプリをなかなか思いつけていないのですけどね(HDMIでも繋いで100フレームのリアルタイムブレンディングとかメモリ帯域だけに幅に物を言わせた超絶アプリとか楽しそうだなとか)。
P.S.
FPGAの部屋の方ですよね?(違っていたらすみません)。いつも参考にさせていただいております。
投稿: Ryuz | 2012年11月17日 (土) 20時01分
いつも見て頂いてありがとうございます。FPGAの部屋を書いているmarseeです。
お役に立てて良かったです。頑張ってください。
投稿: marsee | 2012年11月18日 (日) 19時01分
「FPGAの部屋」の情報はいつも公私共に非常に活用させていただいております。私なんぞのサイトに書き込みいただいて感激しております。
リンク先はよく読むとSimulatorへの応用など考えているもののようですね。FPGAでSimulatorというとFPGAベースのエミュレータ(今もあるのかな?)を思い浮かべてしまうのですが、FPGAの機能も価格帯もここ10年で激変しましたのでいろんな活用先が模索できると楽しいかなと思っております。
寄り道も多いですが、細く長くをモットーに運営しておりますので、またお立ち寄りいただければ幸いです。よろしくお願いいたします。
投稿: Ryuz | 2012年11月19日 (月) 22時58分