Google、企業向けの新しいマルチモーダルAIツールをリリース

最近では、どの企業もAIを活用したいと考えており、さまざまなコンテンツ――テキストだけでなく、コード、ビデオ、オーディオ、画像（そして間違いなく今後もさらに多くのコンテンツ）――でそれを実現できないかと望んでいる。

このため、エンタープライズ向けのAI市場では、マルチモーダルであることがますます重要になっている。つまり、AIモデルがさまざまな種類の大量の入力を取り込み――そしてさらに重要なのが――それに対して有用で的を射た回答を提供できる能力だ。

AIプロバイダーは、この需要に応え、最新かつ最高の製品としての地位を確立しようと躍起になっているが、Googleも例外ではない。このテクノロジー大手は13日、企業向けの新しいマルチモーダルAIモデル「Gemini Pro」を発表した。

わずか1週間前には、同社が「最大」かつ「高性能」と称するフラッグシップ生成AIモデル「Gemini」を発表している。しかし、その画像解析能力（というよりもその欠如）についてはすぐに批判を浴びた。

「初のネイティブマルチモーダルモデルであるGeminiは、ゲームチェンジャーであり、他のモデルが今後比較される対象となる、新しいベンチマークでもあります」と米調査会社Gartnerのバイスプレジデント・アナリスト、Chirag Dekate（チラグ・デカテ）氏がSDxCentralの取材で語った。「Geminiにより、GoogleはAIファースト企業としての潜在力を発揮しています」

Gemini ProのAPIは、企業向けにはGoogle Cloudが提供するVertex AIプラットフォームから、開発者向けにはGoogle AI studioから利用できる。また、テキスト出力用にテキスト入力と画像入力の両方を受け入れる専用のマルチモーダル入力対応モデル、Gemini Pro Visionも組み込まれている。

Geminiによるモデルの構築と展開

GoogleのGeminiには、Ultra、Pro、Nanoの3つのサイズがある。Ultraは現在、一部の顧客向けのプライベートプレビュー段階で、NanoはAndroidで利用可能で、ProはGoogleのBardチャットボットで利用できる。

Gemini Proは、ユーザーが”制限内”で試すことができる無料版（1分あたり最大60クエリまでは無料で、ユーザーが入力したものはすべて、モデルのさらなるトレーニングに役立てられる）のほか、従量課金版が提供される。「無料で利用できるモデルは、あらゆる消費者がモデルの能力を評価し、テストすることを可能にします」とDekate氏は言う。

従量課金制は１分あたり60クエリ以上の利用が可能で、チャット、関数呼び出し、埋め込み、セマンティック検索、カスタムナレッジグラウンディングなどの機能を備えている。38の言語とPython、Android（Kotlin）、Node.js、Swift、JavaScriptをサポートしている。

規模拡大を目指す企業は、Vertex AIおよびGoogle AI Studioを通じてGemini ProのAPIにアクセスすることができる。これにより、安全性とセキュリティの対策が組み込まれた強力なマルチモーダルAIモデルを構築することが可能になる。

Googleによれば、開発者はGoogleのほか、オープンソースやサードパーティが提供する130以上のモデルの中から選択することができるという。

その後、必要に応じてモデルの重みを調整するチューニング・ツールを使用して、特定の企業データでモデルの振る舞いをカスタマイズすることができる。サポートされているチューニング技術には、プロンプト設計、アダプターベースのLoRA（Low-Rank Adaptation）、および蒸留などがある。組織は、構造化データおよび非構造化データとGoogle検索テクノロジーに対してグラウンディングを使用できる。Vertex AIは、人間のフィードバックからの強化学習（RLHF）も可能にする。

Googleはまた、モデルを比較する新しい自動化されたオンデマンド評価モデル、Automatic Side by Side（Auto SxS）をリリースした。Googleによれば、手動評価よりも迅速かつコスト効率が高く、モデルの導入とメンテナンスを迅速に行うことが可能だという。

Googleはブログ投稿で、「今後数週間から数か月の間に、皆さんのフィードバックに耳を傾け、学びながら、さらに微調整していく予定です」とコメントした。

「誇大広告が集中する」市場を通り抜ける

今後、複数のプロバイダーがイノベーションへの無料アクセスを提供することになるだろう、とDekate氏は指摘する。

企業がこの「誇大宣伝が集中する」市場をうまく通り抜けようとするなら、同氏は、「マルチモーダル機能をまねて、異種のユニモーダルAIをいくつか組み合わせた」代替技術よりも、ネイティブのマルチモーダルAIの利点を積極的に探求するよう提案した。

「結論から言えば、すべての無料モデルが同じというわけではなく、企業は、自社のコンテキストにおいて最も価値をもたらし、最新のイノベーションを可能にする技術に時間とリソースを選択的に投資すべきです」と同氏は言う。「それ以下のものは気晴らしになるだけでしょう」

Googleのクラウドポートフォリオ全体にわたるGemini

Geminiは「超大規模」なAIインフラストラクチャを特徴としており、かつ「ネイティブなマルチモーダル」であり、つまりテキスト、コード、オーディオ、ビデオ、画像を「同業他社にはできない方法で」使用できることを意味するとDekate氏は述べた。GartnerはGoogleがGeminiを自社のクラウドポートフォリオ全体に浸透させることを期待していると指摘した。

「結果は正確で、他のモデルが匹敵するのが難しい超没入型体験を可能にします」と同氏は言った。「Geminiがほとんどの指標において新たなベンチマークとなるのは驚くべきことではありません」

GeminiはGoogleのカスタムAIハイパーコンピューター（TPUと、JupiterやOCSを含むカスタムインターコネクトで構成）でトレーニングされているため、従来のGPUベースのツールと比較して、より低いコストとエネルギー使用量でモデルを提供できると同氏は述べた。

他のプロバイダーが「単純なプロンプトとテキスト応答タイプのインターフェイス」に依存しているのに対し、GeminiはAlphaCode2と統合されているため、複雑な応答を伴うインタラクティブな体験を創出できる。

「これらの機能を組み合わせることで、従来のテキストプロンプトの枠を超えた、エンタープライズユースケースが解放されるはずです」と氏は述べている。

その他のGoogle AIアップデート

発表の一環として、Googleはまた、テキストから画像を生成するツール「Imagen 2」をアップグレードしたことに言及した。Googleのブログ投稿によると、「Imagen 2は、エンブレム、レターマーク、抽象的なロゴなど、ビジネス、ブランド、製品のための創造的でリアルなロゴを幅広く生成する能力を含む、大幅に改善された画質と多くの機能を提供し、多言語のテキストのレンダリングを含む、テキストから画像を生成するツールがしばしば苦労する分野で改善された結果を提供することができます」

また、ヘルスケア向けに微調整された基盤モデル群、MedLMを発表した。MedLMは、Vertex AI経由で米国のGoogle Cloudの顧客が利用できる。

最後に、同社は、開発者がAIを活用したコーディングとチャットアシスタンスを使用してアプリケーションを構築するのを支援するDuet AI for Developersと、Duet AI in Security Operationsの一般提供を発表した。Googleは後者について、「大手クラウドプロバイダーとして初めて、統合セキュリティ運用プラットフォームで防御者が生成AIを一般利用できるようにしました」と述べている。

また、MedLM製品とDuet製品の両方をGeminiで間もなく利用可能にすることも約束した。

Google releases new multimodal AI tools for enterprises