米Nvidia社、Kubernetesを鍵と見る=GPUアクセラレーションAIのスケーリングで

Kubernetesについて考えるとき、コンテナワークロードの要求を満たすためにCPUリソースやメモリリソースのクラスタがすべてスケーリングされているのが思い浮かぶだろう。では、GPUアクセラレーションはその全体像のどこに収めればしっくりくるだろうか。
これは2014年にKubernetesが登場して以来、米半導体のNvidia社がずっと問い続けてきたことだ。Nvidia社でGPUコンピューティングソフトウェアプラットフォーム担当VPを務めるChris Lamb氏は、SDxCentralのインタビューで、「私たちはかなり長いことKubernetesに取り組んできました」と語った。
この分野でのNvidia社の取り組みは、Kubernetesの主要なユースケースであり続けてきたWebスケールアプリケーションの存在によって幾分かき消されてきたと氏は説明する。しかし、Nvidia社が長年君臨してきた人工知能(AI)ワークロードの分野では、GPUアクセラレーションを使ったKubernetesクラスタには大きな可能性があるという。
「当社では実際に、大規模なAIトレーニングにKubernetesを社内で使用しています」と氏は言う。「複数のレールを備えたスーパーコンピュータのようなものがあるのですが、私たちはその上で、基本的にKubernetesを使用して高性能なバッチスケジューリングを行っています」
多要素から成るスケーリングのための基盤
当初は、「Kubernetesクラスタ内でGPUアクセラレーションがされたコンピュートノードをどのように扱うかということから始めました」と氏は言う。
しかしKubernetesが進化するにつれ、Nvidia社はノード上で動くコンテナのPodとそれを構成するホストリソースとの間のインタラクションを制御するSIG Nodeの開発を進めることに焦点を移していったという。Lamb氏によると、SIG NodeはKubernetesクラスタで実行されているコンテナ化ワークロードがGPUアクセラレーションされたノードを効率的に扱えるようにするものだ。
とはいえKubernetesは銀の弾ではない、とLamb氏は言う。「Kubernetesではリソースの検出と管理については優れたAPIを提供していますが、そうしたリソースを使いやすくすることに関して言えば、それだけで完全なソリューションだとは言えません」
そのためNvidia社は、オープンソースの推論サービスプラットフォーム「Triton」を開発し、ユーザーが任意のGPU/CPUベースのインターフェイス上でAIトレーニングモデルを展開できるようにした。Kubernetes環境でTritonを実行することで、ソフトウェアからハードウェアを完全に抽象化できるとLamb氏は言う。「役に立ちますよ。自動的にスケールされます」と氏は言う。
この場合Kubernetesは基板として機能し、Tritonはその上で動作する状態だと氏は説明する。Tritonはノード内のハードウェアの抽象化を処理し、Kubernetesはクラスタのオーケストレーションを行うことで、より効果的なスケールアウトができるようになる。
GPUハードウェアにおけるKubernetes
Nvidia社はソフトウェア以外にも、仮想環境での使用に向けてハードウェアを調整する措置を講じている。とはいえ、これはKubernetesに限ったことではない。同社はマルチインスタンスGPU(MIG)を導入し、Ampereベースのエンタープライズ向けGPUシリーズ「A100」と「DGX A100」サーバを発表した。
MIGを使用すると、1個のA100 GPUを7つの小さなGPUに分割できる。これはCPUを個々のコアに分割できるのと似ている。Lamb氏によると、これにより、ユーザーはKubernetesのようなコンテナランタイムを使用して、より細かい粒度でアプリケーションを自動的にスケーリングできるようになるという。
MIGが導入される以前は、GPUアクセラレーションがされたKubernetesクラスタの各ノードには、専用のGPUが必要だった。MIGによって1個のNvidia A100(DGX A100には8個ある)が最大7つの小さなノードをサポートできるようになり、アプリケーションやリソースをよりリニアにスケールさせることができるようになった。
将来へ目を向けると、GPUはKubernetesの主流になり始めるだろう、とLamb氏は予測している。理由として、「AIサービスがGPUアクセラレーションワークロードになっていくからです。現在はちょうど離陸へ向かう変曲点に来ています」と強調する。
「状況が進んでいけば、ほとんどの人はGPUアクセラレーションを高速なボタン、効率的なボタンと考えればよくなるでしょう。GPUの開発やプログラミングについて考える必要はなくなると思います」と氏は付け加えている。

Tobias Mann is an editor at SDxCentral covering the SD-WAN, SASE, and semiconductor industries. He can be reached at tmann@sdxcentral.com

Tobias Mann is an editor at SDxCentral covering the SD-WAN, SASE, and semiconductor industries. He can be reached at tmann@sdxcentral.com
JOIN NEWSME ニュースレター購読
月に1回、newsMEのトピックスをメールで配信しています!
登録解除も簡単です。ぜひお気軽にご購読ください
KCMEの革新的な技術情報を随時発信
5G・IoT・クラウド・セキュリティ・AIなどの注目領域のコンテンツをお届けします。
KCME注目の技術領域に関するテックブログを配信しています。
KCME注目の技術領域に関するテックブログを配信しています。
RELATED ARTICLE 関連記事
-
ネットワーク StringerAI2025.02.10
Nokia、ベトナム航空交通管理公社の通信ネットワークを安全性向上のために近代化
Nokiaは、旧式のシステムを置き換え、航空交通管理…
-
ネットワーク StringerAI2025.02.10
DriveNets、富士通、UfiSpaceがオープンネットワーク展開を加速するために協業
クラウドのようなネットワーク構築を進めるソフトウェア…
-
人工知能(AI) StringerAI2025.02.07
New Relic、AI導入と投資利益率(ROI)を加速する業界唯一のDeepSeek対応オブザーバビリティ統合を発表
New Relic社(クラウドベースのアプリケーショ…
-
ネットワーク Dan Meyer2025.02.04
通信向けAWSクラウド=柔軟性を発揮するのか
米ケーブル大手コムキャスト(Comcast)が昨年1…
HOT TAG 注目タグ
RANKING 閲覧ランキング
-
ネットワーク Sean Michael Kerner
2024年における10のネットワーキング技術予測
-
IT Dan Meyer
BroadcomによるVMware製品の価格/ライセンスの変更がどうなったか
-
IT Dan Meyer
ネットワーキング業界の混迷、顧客の懸念=HPEとジュニパー、シスコをめぐって
-
ネットワーク Dan Meyer
シスコ、トランプ政権のブロードバンド計画に備える
-
IT Dan Meyer
シスコが「堅調な」滑り出し=1Q決算、AIとSplunkが後押し
-
セキュリティ Nancy Liu
SASE市場が急成長=第1四半期、首位はZscaler
-
スイッチング技術 Tobias Mann
コパッケージドオプティクスの実用化は何年も先=専門家談
-
IT Dan Meyer
BroadcomがVMwareパートナープログラムの詳細を発表
-
データセンター Emma Chervek
マイクロソフトとOpenAI、15兆円規模のAIデータセンターを計画=NVIDIA依存を軽減
-
データセンター Dan Meyer
世界のデータセンター事情=ハイパースケーラーに容量が集中していくのはなぜか