米Nvidia社、Kubernetesを鍵と見る=GPUアクセラレーションAIのスケーリングで

Kubernetesについて考えるとき、コンテナワークロードの要求を満たすためにCPUリソースやメモリリソースのクラスタがすべてスケーリングされているのが思い浮かぶだろう。では、GPUアクセラレーションはその全体像のどこに収めればしっくりくるだろうか。

これは2014年にKubernetesが登場して以来、米半導体のNvidia社がずっと問い続けてきたことだ。Nvidia社でGPUコンピューティングソフトウェアプラットフォーム担当VPを務めるChris Lamb氏は、SDxCentralのインタビューで、「私たちはかなり長いことKubernetesに取り組んできました」と語った。

この分野でのNvidia社の取り組みは、Kubernetesの主要なユースケースであり続けてきたWebスケールアプリケーションの存在によって幾分かき消されてきたと氏は説明する。しかし、Nvidia社が長年君臨してきた人工知能（AI）ワークロードの分野では、GPUアクセラレーションを使ったKubernetesクラスタには大きな可能性があるという。

「当社では実際に、大規模なAIトレーニングにKubernetesを社内で使用しています」と氏は言う。「複数のレールを備えたスーパーコンピュータのようなものがあるのですが、私たちはその上で、基本的にKubernetesを使用して高性能なバッチスケジューリングを行っています」

多要素から成るスケーリングのための基盤

当初は、「Kubernetesクラスタ内でGPUアクセラレーションがされたコンピュートノードをどのように扱うかということから始めました」と氏は言う。

しかしKubernetesが進化するにつれ、Nvidia社はノード上で動くコンテナのPodとそれを構成するホストリソースとの間のインタラクションを制御するSIG Nodeの開発を進めることに焦点を移していったという。Lamb氏によると、SIG NodeはKubernetesクラスタで実行されているコンテナ化ワークロードがGPUアクセラレーションされたノードを効率的に扱えるようにするものだ。

とはいえKubernetesは銀の弾ではない、とLamb氏は言う。「Kubernetesではリソースの検出と管理については優れたAPIを提供していますが、そうしたリソースを使いやすくすることに関して言えば、それだけで完全なソリューションだとは言えません」

そのためNvidia社は、オープンソースの推論サービスプラットフォーム「Triton」を開発し、ユーザーが任意のGPU/CPUベースのインターフェイス上でAIトレーニングモデルを展開できるようにした。Kubernetes環境でTritonを実行することで、ソフトウェアからハードウェアを完全に抽象化できるとLamb氏は言う。「役に立ちますよ。自動的にスケールされます」と氏は言う。

この場合Kubernetesは基板として機能し、Tritonはその上で動作する状態だと氏は説明する。Tritonはノード内のハードウェアの抽象化を処理し、Kubernetesはクラスタのオーケストレーションを行うことで、より効果的なスケールアウトができるようになる。

GPUハードウェアにおけるKubernetes

Nvidia社はソフトウェア以外にも、仮想環境での使用に向けてハードウェアを調整する措置を講じている。とはいえ、これはKubernetesに限ったことではない。同社はマルチインスタンスGPU（MIG）を導入し、Ampereベースのエンタープライズ向けGPUシリーズ「A100」と「DGX A100」サーバを発表した。

MIGを使用すると、1個のA100 GPUを7つの小さなGPUに分割できる。これはCPUを個々のコアに分割できるのと似ている。Lamb氏によると、これにより、ユーザーはKubernetesのようなコンテナランタイムを使用して、より細かい粒度でアプリケーションを自動的にスケーリングできるようになるという。

MIGが導入される以前は、GPUアクセラレーションがされたKubernetesクラスタの各ノードには、専用のGPUが必要だった。MIGによって1個のNvidia A100（DGX A100には8個ある）が最大7つの小さなノードをサポートできるようになり、アプリケーションやリソースをよりリニアにスケールさせることができるようになった。

将来へ目を向けると、GPUはKubernetesの主流になり始めるだろう、とLamb氏は予測している。理由として、「AIサービスがGPUアクセラレーションワークロードになっていくからです。現在はちょうど離陸へ向かう変曲点に来ています」と強調する。

「状況が進んでいけば、ほとんどの人はGPUアクセラレーションを高速なボタン、効率的なボタンと考えればよくなるでしょう。GPUの開発やプログラミングについて考える必要はなくなると思います」と氏は付け加えている。

Nvidia Views Kubernetes as Key to GPU Accelerated AI Scale