米Nvidia社、Kubernetesを鍵と見る=GPUアクセラレーションAIのスケーリングで

Kubernetesについて考えるとき、コンテナワークロードの要求を満たすためにCPUリソースやメモリリソースのクラスタがすべてスケーリングされているのが思い浮かぶだろう。では、GPUアクセラレーションはその全体像のどこに収めればしっくりくるだろうか。
これは2014年にKubernetesが登場して以来、米半導体のNvidia社がずっと問い続けてきたことだ。Nvidia社でGPUコンピューティングソフトウェアプラットフォーム担当VPを務めるChris Lamb氏は、SDxCentralのインタビューで、「私たちはかなり長いことKubernetesに取り組んできました」と語った。
この分野でのNvidia社の取り組みは、Kubernetesの主要なユースケースであり続けてきたWebスケールアプリケーションの存在によって幾分かき消されてきたと氏は説明する。しかし、Nvidia社が長年君臨してきた人工知能(AI)ワークロードの分野では、GPUアクセラレーションを使ったKubernetesクラスタには大きな可能性があるという。
「当社では実際に、大規模なAIトレーニングにKubernetesを社内で使用しています」と氏は言う。「複数のレールを備えたスーパーコンピュータのようなものがあるのですが、私たちはその上で、基本的にKubernetesを使用して高性能なバッチスケジューリングを行っています」
多要素から成るスケーリングのための基盤
当初は、「Kubernetesクラスタ内でGPUアクセラレーションがされたコンピュートノードをどのように扱うかということから始めました」と氏は言う。
しかしKubernetesが進化するにつれ、Nvidia社はノード上で動くコンテナのPodとそれを構成するホストリソースとの間のインタラクションを制御するSIG Nodeの開発を進めることに焦点を移していったという。Lamb氏によると、SIG NodeはKubernetesクラスタで実行されているコンテナ化ワークロードがGPUアクセラレーションされたノードを効率的に扱えるようにするものだ。
とはいえKubernetesは銀の弾ではない、とLamb氏は言う。「Kubernetesではリソースの検出と管理については優れたAPIを提供していますが、そうしたリソースを使いやすくすることに関して言えば、それだけで完全なソリューションだとは言えません」
そのためNvidia社は、オープンソースの推論サービスプラットフォーム「Triton」を開発し、ユーザーが任意のGPU/CPUベースのインターフェイス上でAIトレーニングモデルを展開できるようにした。Kubernetes環境でTritonを実行することで、ソフトウェアからハードウェアを完全に抽象化できるとLamb氏は言う。「役に立ちますよ。自動的にスケールされます」と氏は言う。
この場合Kubernetesは基板として機能し、Tritonはその上で動作する状態だと氏は説明する。Tritonはノード内のハードウェアの抽象化を処理し、Kubernetesはクラスタのオーケストレーションを行うことで、より効果的なスケールアウトができるようになる。
GPUハードウェアにおけるKubernetes
Nvidia社はソフトウェア以外にも、仮想環境での使用に向けてハードウェアを調整する措置を講じている。とはいえ、これはKubernetesに限ったことではない。同社はマルチインスタンスGPU(MIG)を導入し、Ampereベースのエンタープライズ向けGPUシリーズ「A100」と「DGX A100」サーバを発表した。
MIGを使用すると、1個のA100 GPUを7つの小さなGPUに分割できる。これはCPUを個々のコアに分割できるのと似ている。Lamb氏によると、これにより、ユーザーはKubernetesのようなコンテナランタイムを使用して、より細かい粒度でアプリケーションを自動的にスケーリングできるようになるという。
MIGが導入される以前は、GPUアクセラレーションがされたKubernetesクラスタの各ノードには、専用のGPUが必要だった。MIGによって1個のNvidia A100(DGX A100には8個ある)が最大7つの小さなノードをサポートできるようになり、アプリケーションやリソースをよりリニアにスケールさせることができるようになった。
将来へ目を向けると、GPUはKubernetesの主流になり始めるだろう、とLamb氏は予測している。理由として、「AIサービスがGPUアクセラレーションワークロードになっていくからです。現在はちょうど離陸へ向かう変曲点に来ています」と強調する。
「状況が進んでいけば、ほとんどの人はGPUアクセラレーションを高速なボタン、効率的なボタンと考えればよくなるでしょう。GPUの開発やプログラミングについて考える必要はなくなると思います」と氏は付け加えている。

Tobias Mann is an editor at SDxCentral covering the SD-WAN, SASE, and semiconductor industries. He can be reached at tmann@sdxcentral.com

Tobias Mann is an editor at SDxCentral covering the SD-WAN, SASE, and semiconductor industries. He can be reached at tmann@sdxcentral.com
JOIN NEWSME ニュースレター購読
月に1回、newsMEのトピックスをメールで配信しています!
登録解除も簡単です。ぜひお気軽にご購読ください
KCMEの革新的な技術情報を随時発信
5G・IoT・クラウド・セキュリティ・AIなどの注目領域のコンテンツをお届けします。
KCME注目の技術領域に関するテックブログを配信しています。
KCME注目の技術領域に関するテックブログを配信しています。
RELATED ARTICLE 関連記事
-
ネットワーク StringerAI2025.04.25
Cloudbrinkがデータセンター当たり300 Gbps、ユーザー当たり1Gbpsを提供
Cloudbrink は、同社のソリューションがゲー…
-
セキュリティ StringerAI2025.04.24
VaronisがPure Storageと提携しデータセキュリティを強化
データセキュリティとストレージリーダーが協力してデー…
-
セキュリティ StringerAI2025.04.23
VaronisとConcentrixがAIデータセキュリティソリューションで提携
業界の大手が提携し、データ保護のためのエンドツーエン…
-
オープンソース StringerAI2025.04.21
NebulがAIワークロード向けにオープンソースのk0rdentを展開
Mirantisは、オランダに拠点を置くクラウドサー…
HOT TAG 注目タグ
RANKING 閲覧ランキング
-
ネットワーク Sean Michael Kerner
2024年における10のネットワーキング技術予測
-
IT Dan Meyer
BroadcomによるVMware製品の価格/ライセンスの変更がどうなったか
-
スイッチング技術 Tobias Mann
コパッケージドオプティクスの実用化は何年も先=専門家談
-
セキュリティ Nancy Liu
SASE市場が急成長=第1四半期、首位はZscaler
-
IT Dan Meyer
BroadcomがVMwareパートナープログラムの詳細を発表
-
IT Dan Meyer
どうなるHPEのジュニパー買収=Juniper Mistの分離・売却はあるのか
-
ネットワーク Dan Meyer
GSMAの共通API構想「Open Gateway」=次の展開へ
-
セキュリティ Tobias Mann
米CitrixはMcAfee社、FireEye社と同じ運命を辿るのか=買収合併の後に
-
クラウド Dan Meyer
クラウド市場の成長=Azure、GCPの伸びがAWSを上回る
-
IT Dan Meyer
米Nutanixの2Q決算=米VMwareから700社近くの顧客を奪う