米Nvidia社、Kubernetesを鍵と見る=GPUアクセラレーションAIのスケーリングで
![米Nvidia社、Kubernetesを鍵と見る=GPUアクセラレーションAIのスケーリングで](https://www.newsme.jp/wp-content/uploads/2022/10/Nvidia-VP-Kubernetes-Key-to-GPU-Accelerated-AI-Scale.webp)
Kubernetesについて考えるとき、コンテナワークロードの要求を満たすためにCPUリソースやメモリリソースのクラスタがすべてスケーリングされているのが思い浮かぶだろう。では、GPUアクセラレーションはその全体像のどこに収めればしっくりくるだろうか。
これは2014年にKubernetesが登場して以来、米半導体のNvidia社がずっと問い続けてきたことだ。Nvidia社でGPUコンピューティングソフトウェアプラットフォーム担当VPを務めるChris Lamb氏は、SDxCentralのインタビューで、「私たちはかなり長いことKubernetesに取り組んできました」と語った。
この分野でのNvidia社の取り組みは、Kubernetesの主要なユースケースであり続けてきたWebスケールアプリケーションの存在によって幾分かき消されてきたと氏は説明する。しかし、Nvidia社が長年君臨してきた人工知能(AI)ワークロードの分野では、GPUアクセラレーションを使ったKubernetesクラスタには大きな可能性があるという。
「当社では実際に、大規模なAIトレーニングにKubernetesを社内で使用しています」と氏は言う。「複数のレールを備えたスーパーコンピュータのようなものがあるのですが、私たちはその上で、基本的にKubernetesを使用して高性能なバッチスケジューリングを行っています」
多要素から成るスケーリングのための基盤
当初は、「Kubernetesクラスタ内でGPUアクセラレーションがされたコンピュートノードをどのように扱うかということから始めました」と氏は言う。
しかしKubernetesが進化するにつれ、Nvidia社はノード上で動くコンテナのPodとそれを構成するホストリソースとの間のインタラクションを制御するSIG Nodeの開発を進めることに焦点を移していったという。Lamb氏によると、SIG NodeはKubernetesクラスタで実行されているコンテナ化ワークロードがGPUアクセラレーションされたノードを効率的に扱えるようにするものだ。
とはいえKubernetesは銀の弾ではない、とLamb氏は言う。「Kubernetesではリソースの検出と管理については優れたAPIを提供していますが、そうしたリソースを使いやすくすることに関して言えば、それだけで完全なソリューションだとは言えません」
そのためNvidia社は、オープンソースの推論サービスプラットフォーム「Triton」を開発し、ユーザーが任意のGPU/CPUベースのインターフェイス上でAIトレーニングモデルを展開できるようにした。Kubernetes環境でTritonを実行することで、ソフトウェアからハードウェアを完全に抽象化できるとLamb氏は言う。「役に立ちますよ。自動的にスケールされます」と氏は言う。
この場合Kubernetesは基板として機能し、Tritonはその上で動作する状態だと氏は説明する。Tritonはノード内のハードウェアの抽象化を処理し、Kubernetesはクラスタのオーケストレーションを行うことで、より効果的なスケールアウトができるようになる。
GPUハードウェアにおけるKubernetes
Nvidia社はソフトウェア以外にも、仮想環境での使用に向けてハードウェアを調整する措置を講じている。とはいえ、これはKubernetesに限ったことではない。同社はマルチインスタンスGPU(MIG)を導入し、Ampereベースのエンタープライズ向けGPUシリーズ「A100」と「DGX A100」サーバを発表した。
MIGを使用すると、1個のA100 GPUを7つの小さなGPUに分割できる。これはCPUを個々のコアに分割できるのと似ている。Lamb氏によると、これにより、ユーザーはKubernetesのようなコンテナランタイムを使用して、より細かい粒度でアプリケーションを自動的にスケーリングできるようになるという。
MIGが導入される以前は、GPUアクセラレーションがされたKubernetesクラスタの各ノードには、専用のGPUが必要だった。MIGによって1個のNvidia A100(DGX A100には8個ある)が最大7つの小さなノードをサポートできるようになり、アプリケーションやリソースをよりリニアにスケールさせることができるようになった。
将来へ目を向けると、GPUはKubernetesの主流になり始めるだろう、とLamb氏は予測している。理由として、「AIサービスがGPUアクセラレーションワークロードになっていくからです。現在はちょうど離陸へ向かう変曲点に来ています」と強調する。
「状況が進んでいけば、ほとんどの人はGPUアクセラレーションを高速なボタン、効率的なボタンと考えればよくなるでしょう。GPUの開発やプログラミングについて考える必要はなくなると思います」と氏は付け加えている。
![Tobias Mann](https://www.newsme.jp/wp-content/uploads/2022/06/tobias.png)
Tobias Mann is an editor at SDxCentral covering the SD-WAN, SASE, and semiconductor industries. He can be reached at tmann@sdxcentral.com
![Tobias Mann](https://www.newsme.jp/wp-content/uploads/2022/06/tobias.png)
Tobias Mann is an editor at SDxCentral covering the SD-WAN, SASE, and semiconductor industries. He can be reached at tmann@sdxcentral.com
JOIN NEWSME ニュースレター購読
月に1回、newsMEのトピックスをメールで配信しています!
登録解除も簡単です。ぜひお気軽にご購読ください
KCMEの革新的な技術情報を随時発信
5G・IoT・クラウド・セキュリティ・AIなどの注目領域のコンテンツをお届けします。
KCME注目の技術領域に関するテックブログを配信しています。
KCME注目の技術領域に関するテックブログを配信しています。
RELATED ARTICLE 関連記事
-
5G Dan Meyer2024.07.26
電気通信業界のDX(デジタルトランスフォーメーション)を阻む要因
DX(デジタルトランスフォーメーション)への取り組み…
-
ネットワーク SDxCentral Studios Sponsored by VMware2024.07.26
RANや5Gの運用を妨げている、5つの要因
通信業界では、RANからエッジ、コアに至るまで、エン…
-
ネットワーク Dan Meyer2024.07.22
Linux Foundationが見る、通信業界に足りないもの=オープンネットワークについて
通信事業者は、すでに展開済みの高価な資産をもっとうま…
-
セキュリティ Nancy Liu2024.07.09
シスコ、産業用スイッチ/ルータにOTセキュリティ機能を搭載
米ネットワーク機器大手のシスコは、ゼロトラストネット…
HOT TAG 注目タグ
RANKING 閲覧ランキング
-
IT Emma Chervek
BroadcomのVMware買収による意外な影響=どう備えるか
-
セキュリティ Tobias Mann
米CitrixはMcAfee社、FireEye社と同じ運命を辿るのか=買収合併の後に
-
IT Dan Meyer
BroadcomがVMwareパートナープログラムの詳細を発表
-
ネットワーク Sean Michael Kerner
2023年 ITネットワークのトレンドTOP10 現時点
-
セキュリティ Nancy Liu
デル、データ侵害を確認=ハッカーが4900万件の顧客データ販売を主張
-
スイッチング技術 Tobias Mann
コパッケージドオプティクスの実用化は何年も先=専門家談
-
IT Dan Meyer
Dell、HPE、LenovoはBroadcomがVMwareの顧客の懸念を和らげるのに役立つか?
-
セキュリティ Nancy Liu
RSAカンファレンスが閉幕、AIセキュリティ関連の主な発表=パロアルト、マイクロソフト、Google、CrowdStrike、IBM
-
IT Nancy Liu
米Nutanixが好業績=米BroadcomによるVMwareの買収で
-
IT Dan Meyer
米BroadcomのCEOによる、VMware買収後100日間のハイライト