Data Science Part 3: Advances in Deep Learning Inferencing with Dell PowerEdge

Itzikr's Blog 日本語翻訳版

＊オリジナルブログは以下URLから参照可能です

https://volumes.blog/2023/03/10/data-science-part-3-advances-in-deep-learning-inferencing-with-dell-poweredge/

A guest post by Nomuka Luehr

Welcome back!

前回は、ディープラーニングの基礎と、画像分類や自然言語処理など様々なワークロードに最適なモデルを訓練するための適切なツールの選び方について探求しました。今回は訓練済みのモデルを使用して、新しいデータを使用し、推論を通じて予測を行うという、皆さんが毎日利用している検索エンジンが検索内容からアウトプットを予測しているというようなことに関連する、とても面白い話です。訓練フェーズと同様に、推論中のピークパフォーマンスの確保は多くのタスクに時間的制約があることを考慮すると、モデル全体を成功させるために重要になります。

では、どうやって推論のために適切なツールを選択するのか？

トレーニングと同様に、適切なツールがなければ推論のための適切なハードウェアとソフトウェア構成を実現可能な選択肢の中から選び出すことが難しい場合があります。幸いなことに、MLCommonsは推論のための類似テストやベンチマークを実施しており、その最新バージョン2.1の結果が今月公開されました。MLPerfベンチマークは、MLCommonsの規定に従って、機械学習モデル、ソフトウェア、ハードウェアをストレステストし、省エネ監視をオプションで実行する包括的なシステムテストです。結果が公開されて以来、それらのテストを通じて見出された推論の進展がデータサイエンス界で話題となっています。これの素晴らしいところは、このデータを深層学習クラスタのサイズを決定するための参照点として利用でき、顧客は簡単にテストとその結果を再現できる点です。Dell統合システムの他に、MLCommonsを使用して他のベンダー製品を比較することもできます。

MLPerfはどのように異なるシステムの推論処理をベンチマークしているのでしょうか？

MLPerfは、提出された各システムアンダーテスト（SUT）とそれに対応するモデルに対して、さまざまなシナリオのデータセットと品質目標を用いてベンチマークテストします。多様な推論プラットフォームとユースケースの代表的なテストを実現するために、MLPerfは、複数の異なるシナリオにおける以下領域のベンチマーク要件を定義しています。サーバーシナリオの場合、LoadGenはポアソン分布に従って新しいクエリをSUTに送信し、パフォーマンス指標は秒間クエリ数（QPS）です。オフラインシナリオの場合、LoadGenは開始時にすべてのクエリをSUTに送信し、パフォーマンス指標は秒間オフラインサンプル数です。

前述のように、各ベンチマークはデータセットと品質目標によって定義されます。以下の表は、スイートのこのバージョンのベンチマークをまとめたものです。

結果が出ました！

お客様のディープラーニングアプリケーションの要件に合ったシステム選定を手助けするために、Dell Technologiesは6つのシステムをテストのために提出しました。完全なレポートはこちらで確認できます。

今回最も注目すべき結果の一つは、自然言語処理（NLP）タスクにおけるオープンBERT 99.9カテゴリーのオフライン提出結果でした。これはDellにとってAMDとDeci AIとの間で、初めて成功した3者提出であったので非常にエキサイティングなことでした。このシステムは、PowerEdge R7525ラックサーバー、2つの強力なAMD EPYCプロセッサー、およびDeci AIの独自のAutoNACエンジンから構成されており、PowerEdge R7525サーバーと2つの64コアAMD EPYC 7773Xプロセッサーの基本構成に合わせて最適化されたBERT-Largeモデルを作成するために使用されます。提出の目的は、基準精度（Stanford Question Answering Dataset（SQuAD））の90.874 F1から0.1％の誤差範囲内で精度を維持しながらスループットを最大化することでした。

評決は？

R7525は、最大24個の直接接続NVMeドライブをサポートするオールフラッシュAF8 vSAN Ready Nodes、4TBのメモリ、8つのPCIe Gen4スロットを介したIOPS最大化などを実現しているので、パフォーマンス要件を満たすために必要とされるハイレベルな仕様を満たしており、推論ワークロードの利用に非常に適しています。さらに、AMD Instinct MI100およびMI200アクセラレーターおよびその他のdouble-width GPUSを追加することで、より高いパフォーマンスを提供できます。

AutoNACにより、参照BERT-Largeモデルサイズは、標準BERT-Largeモデルの3億4,000万のパラメーターから1億1,500万のパラメーターに減少し、魅力的なパフォーマンスと精度を実現しながら約3倍縮小されました。さらに、Deci AI AutoNACアルゴリズムを適用してDeciBERT-Largeモデルを生成することにより、FP32パフォーマンスは6.33倍、INT8パフォーマンスは6.64倍向上しました。その強化されたパフォーマンスと、パラメーター数とメモリサイズの大幅な削減との組み合わせにより、Deci AI最適化モデルは幅広いアプリケーションに対して効率が高いことが示されました！Dellからのこの提出の完全な分析結果をここでチェックしてみてください。

これは何を意味している？

これは、感情分析、ライブ・トランスクリプションや翻訳、そして質問応答などの実世界のシナリオに簡単に適用できる深層学習のエキサイティングな進歩を表しています。Deci AIがMLPerf v2.1で開発したDeciBERT-Largeモデルは、簡単にチューニングして本番環境に展開でき、パフォーマンスを改善し、インサイトを得るまでの時間を短縮し、計算量を抑えることにより小型化、かつ最適化されたモデルを展開できるようになります。これにより、コストや環境制約を満たしながら最適なパフォーマンスを達成することが可能です。

次は何？

読んでいただきありがとうございます。今後の提出結果については、MLPerfのウェブサイトに注目してください！

翻訳者：Uehara Y.

View All

No Events found!

ストレージ Wiki

Data Science Part 3: Advances in Deep Learning Inferencing with Dell PowerEdge