Flash Moduleと接続ケーブル
取材では取り出したFlash Moduleを見せてもらいました。外側はアルミで覆われており,
Andy:外側はヒートシンクになっています。全体に並列にアクセスするために熱くなるんです。Flash自体はローパワーなのですが,
ミリオン単位のIOPSを受けるとフラッシュチップとコントローラのチップを合わせて, 50Wになるんです。 筆者:うお……
(50W×36モジュールで1. 8KWにもなります) Andy:性能のためです。もしI/
Oがなければほとんどゼロなんですが。つまりハイパフォーマンスがこれだけのパワーを持っていくのです。D5 1つで最大3,000W。通常動作時はこの半分と思えば良いでしょう。タダでハイ・ パフォーマンス, というのは存在しないんだよ (ははは) 筆者:まあ3KWでもいいでしょう。HPCの世界ではそういったことが起きていますし,
最近のアプリケーションは徐々にHPCに近づいていますからね。 Andy:そのとおり。多くのHPC
(企業) や政府がそう考えていると思います。ともかくこれが業界で初めてのdual portでhot swap可能なNVMeモジュールです。バッテリはなく, スーパーキャパシタが入っており, これで書き込み途中に電源喪失があってもデータを最後まで書けます。現在D5には4TバイトのFlash Moduleが用意されていますが, 次の18ヵ月で倍に上げていきます。 このFlash ModuleはDSSD専用のものですが,
HBAとケーブルもやはりDSSD製です。HBAはPCIeブリッジチップが1つ載っているだけで, それほど特別なものではないと思われますが, 筆者が驚いたのはむしろそのケーブルです。持ってみるとPCIe gen3 4 laneを通すとは思えないほど細くしなやかで, 見るからに小さなそのコネクタにパッと見て数えるのが困難なほど細かなピッチでピン接点が並んでいます。 筆者:このケーブルですが……
Andy:ケーブルは特別製です
(Andyは質問の途中で答える傾向がある。負けずに質問を続けなければなりません)。 筆者:とても細いですね。距離について気にしているんですが。
Andy:接続できるのは1ラックです。光ファイバについて探しています。それで30mかそれ以上まで届きますが,
しかし今は (銅線のケーブルで) とにかく1ラック距離です。 筆者:なるほど。ちょっと気にしていました。というのもユーザは大きなサーバを使いたかったりします
(1ラックに入るサーバの数は限られている)。 Andy:そう,
だから2ラック目にも (なんとか) 届く。つまり左右隣のラックにサーバを置いてそこに届くようにすることはできます。
写真の上端にHX-2と書かれているのがHBAカードです。P1,
Multicast RDMA
ディスクアレイで利用されているRAIDなど,
が,
さて,
筆者:私の理解ですが,
Multicast RDMAってのは業界で初めてではないですか? Andy:そのとおりです。シリコン
(FabricのPCIeスイッチチップ) には (以前から) 導入されていたのですが, 今まで誰も使ったことがなかったのです。まず, データを書き込むと, 1つはコントローラのDRAMに書かれ, それ以外にもコピーが2つFlash Moduleに作られます。しかし我々は複数回の転送を行いません。データをPCIe Fabricに入れて, これらのコピーを並列にFlashに書きます。
この説明で,
筆者:OK,
ただ私はスイッチレイヤでのオーバーサブスクリプションが気になるのです。 Andy:いや,
これ (Multicasting) はLower Layerで行われます (※3)。 筆者:どこですか?
Andy:Flash Module に直接つながれているところ
(図2参照) です。ここで複製されるのであって, 上の PCIe Switch では行われません。
なるほどこの位置での複製であれば,
D5の設計上の工夫は,
なお,
取材でもCubic RAIDのCheck-sum領域の計算と書き込みは事後
- ※1)
- たとえば,
“EMC DSSD Cubic RAID” (PDFファイル)。 - ※2)
- US 8819304, “Storage system with multicast DMA and unified address space”
- ※3)
- 第一答が文字どおりこうでした。Andyとの対話ではよくあるパターンで,
その後に相応の説明を要することでも, Andyはそれらを飛び越して最終の答を最初に出してきます。このQAに限らず, 多くの場合そのようにして対話は進みます。今回の筆者の質問は 「オーバーサブスクリプションによる経路途中でのデータロストがあると, そのリカバリに備えるための同期処理等が性能劣化を引き起こす筈だが, どうしているか?」 というものですが, これを途中で遮ってこのように返事をしました。手っ取り早くて良いのですが, ちょっと大変です。この時も結局 「ロスト対策の機構が遅延を追加する」 ことについてはお互い一言も出さないまま終わりました。 - ※4)
“Software Aspects of the EMC DSSD D5 Rack Scale Flash Storage Platform” - ※5)
“DSSD: Scalable High Performance FLASH Systems”