米Nvidia社、Kubernetesを鍵と見る=GPUアクセラレーションAIのスケーリングで
Kubernetesについて考えるとき、コンテナワークロードの要求を満たすためにCPUリソースやメモリリソースのクラスタがすべてスケーリングされているのが思い浮かぶだろう。では、GPUアクセラレーションはその全体像のどこに収めればしっくりくるだろうか。
これは2014年にKubernetesが登場して以来、米半導体のNvidia社がずっと問い続けてきたことだ。Nvidia社でGPUコンピューティングソフトウェアプラットフォーム担当VPを務めるChris Lamb氏は、SDxCentralのインタビューで、「私たちはかなり長いことKubernetesに取り組んできました」と語った。
この分野でのNvidia社の取り組みは、Kubernetesの主要なユースケースであり続けてきたWebスケールアプリケーションの存在によって幾分かき消されてきたと氏は説明する。しかし、Nvidia社が長年君臨してきた人工知能(AI)ワークロードの分野では、GPUアクセラレーションを使ったKubernetesクラスタには大きな可能性があるという。
「当社では実際に、大規模なAIトレーニングにKubernetesを社内で使用しています」と氏は言う。「複数のレールを備えたスーパーコンピュータのようなものがあるのですが、私たちはその上で、基本的にKubernetesを使用して高性能なバッチスケジューリングを行っています」
多要素から成るスケーリングのための基盤
当初は、「Kubernetesクラスタ内でGPUアクセラレーションがされたコンピュートノードをどのように扱うかということから始めました」と氏は言う。
しかしKubernetesが進化するにつれ、Nvidia社はノード上で動くコンテナのPodとそれを構成するホストリソースとの間のインタラクションを制御するSIG Nodeの開発を進めることに焦点を移していったという。Lamb氏によると、SIG NodeはKubernetesクラスタで実行されているコンテナ化ワークロードがGPUアクセラレーションされたノードを効率的に扱えるようにするものだ。
とはいえKubernetesは銀の弾ではない、とLamb氏は言う。「Kubernetesではリソースの検出と管理については優れたAPIを提供していますが、そうしたリソースを使いやすくすることに関して言えば、それだけで完全なソリューションだとは言えません」
そのためNvidia社は、オープンソースの推論サービスプラットフォーム「Triton」を開発し、ユーザーが任意のGPU/CPUベースのインターフェイス上でAIトレーニングモデルを展開できるようにした。Kubernetes環境でTritonを実行することで、ソフトウェアからハードウェアを完全に抽象化できるとLamb氏は言う。「役に立ちますよ。自動的にスケールされます」と氏は言う。
この場合Kubernetesは基板として機能し、Tritonはその上で動作する状態だと氏は説明する。Tritonはノード内のハードウェアの抽象化を処理し、Kubernetesはクラスタのオーケストレーションを行うことで、より効果的なスケールアウトができるようになる。
GPUハードウェアにおけるKubernetes
Nvidia社はソフトウェア以外にも、仮想環境での使用に向けてハードウェアを調整する措置を講じている。とはいえ、これはKubernetesに限ったことではない。同社はマルチインスタンスGPU(MIG)を導入し、Ampereベースのエンタープライズ向けGPUシリーズ「A100」と「DGX A100」サーバを発表した。
MIGを使用すると、1個のA100 GPUを7つの小さなGPUに分割できる。これはCPUを個々のコアに分割できるのと似ている。Lamb氏によると、これにより、ユーザーはKubernetesのようなコンテナランタイムを使用して、より細かい粒度でアプリケーションを自動的にスケーリングできるようになるという。
MIGが導入される以前は、GPUアクセラレーションがされたKubernetesクラスタの各ノードには、専用のGPUが必要だった。MIGによって1個のNvidia A100(DGX A100には8個ある)が最大7つの小さなノードをサポートできるようになり、アプリケーションやリソースをよりリニアにスケールさせることができるようになった。
将来へ目を向けると、GPUはKubernetesの主流になり始めるだろう、とLamb氏は予測している。理由として、「AIサービスがGPUアクセラレーションワークロードになっていくからです。現在はちょうど離陸へ向かう変曲点に来ています」と強調する。
「状況が進んでいけば、ほとんどの人はGPUアクセラレーションを高速なボタン、効率的なボタンと考えればよくなるでしょう。GPUの開発やプログラミングについて考える必要はなくなると思います」と氏は付け加えている。
Tobias Mann is an editor at SDxCentral covering the SD-WAN, SASE, and semiconductor industries. He can be reached at tmann@sdxcentral.com
Tobias Mann is an editor at SDxCentral covering the SD-WAN, SASE, and semiconductor industries. He can be reached at tmann@sdxcentral.com
JOIN NEWSME ニュースレター購読
KCMEの革新的な技術情報を随時発信
5G・IoT・クラウド・セキュリティ・AIなどの注目領域のコンテンツをお届けします。
KCME注目の技術領域に関するテックブログを配信しています。
KCME注目の技術領域に関するテックブログを配信しています。
RELATED ARTICLE 関連記事
-
セキュリティ Dan Meyer2024.10.23
SIEM市場が激変=クラウドストライクはAI支援で備え
SIEM(シーム・Security Informat…
-
OPEN-RAN Dan Meyer2024.10.22
2025年以降、オープンRAN市場は活性化するのか=米通信業界の事例
米衛星通信のエコースター(EchoStar)と米通信…
-
ネットワーク Dan Meyer2024.10.11
通信業界とエッジAI=TモバイルUSは手本となれるか
米通信大手のTモバイルUSが未来志向の取り組みを進め…
-
データセンター Dan Meyer2024.10.10
データセンター投資とエネルギー消費が増大=生成AI需要で
データセンター設備投資額が上半期、生成AIの影響で大…
HOT TAG 注目タグ
RANKING 閲覧ランキング
-
IT Dan Meyer
BroadcomによるVMware製品の価格/ライセンスの変更がどうなったか
-
IT Dan Meyer
Broadcomは「脅迫者」=米AT&Tが酷評
-
ネットワーク Sean Michael Kerner
2024年における10のネットワーキング技術予測
-
IT Dan Meyer
BroadcomがVMwareパートナープログラムの詳細を発表
-
セキュリティ Nancy Liu
SASE市場が急成長=第1四半期、首位はZscaler
-
IT Dan Meyer
Dell、HPE、LenovoはBroadcomがVMwareの顧客の懸念を和らげるのに役立つか?
-
セキュリティ Tobias Mann
米CitrixはMcAfee社、FireEye社と同じ運命を辿るのか=買収合併の後に
-
セキュリティ Nancy Liu
デル、データ侵害を確認=ハッカーが4900万件の顧客データ販売を主張
-
スイッチング技術 Tobias Mann
コパッケージドオプティクスの実用化は何年も先=専門家談
-
ネットワーク Sean Michael Kerner
2023年 ITネットワークのトレンドTOP10 現時点