NVIDIA、大規模展開に最適化された推論マイクロサービスのコレクション NVIDIA NIM を発表

ニュース

2024年3月18日(現地時間)Nvidiaは、AIモデルの大規模展開に最適化された推論マイクロサービスを提供する「NVIDIA NIM」を発表しました。

最適化されたAI推論のためのNVIDIA NIM

NIMは、市場投入までの時間を短縮し、クラウド、データセンター、GPU加速ワークステーションなど、あらゆる場所での生成AIモデルの展開を簡素化するように設計された、最適化されたクラウドネイティブなマイクロサービスのセットです。業界標準のAPIを使用して、AIモデル開発の複雑さを抽象化し、生産用にパッケージ化することで、開発者プールを拡大します。

NVIDIA NIMは、複雑なAI開発の世界と企業環境の運用ニーズとのギャップを埋めるように設計されており、10~100倍多くの企業アプリケーション開発者が企業のAI変革に貢献できるようにします。

NIMの中核的な利点には、以下のようなものがあります。

どこにでも導入可能

NIMはポータビリティとコントロールのために構築されており、ローカルのワークステーションからクラウド、オンプレミスのデータセンターまで、さまざまなインフラにわたってモデルを展開することができます。これには、NVIDIA DGX、NVIDIA DGX Cloud、NVIDIA認定システム、NVIDIA RTXワークステーションおよびPCが含まれます。

最適化されたモデルでパッケージ化されたビルド済みコンテナとHelmチャートは、異なるNVIDIAハードウェアプラットフォーム、クラウドサービスプロバイダ、およびKubernetesディストリビューションにわたって厳密に検証され、ベンチマークされています。これにより、NVIDIAを搭載したすべての環境でのサポートが可能になり、企業は、アプリケーションとそれらが処理するデータを完全に制御したまま、生成AIアプリケーションをどこにでも展開できるようになります。

■業界標準のAPIで開発

開発者は、各領域の業界標準に準拠したAPIを通じてAIモデルにアクセスすることができ、AIアプリケーションの開発が簡素化されます。これらのAPIはエコシステム内の標準的なデプロイメントプロセスと互換性があるため、開発者はAIアプリケーションを迅速に更新できます。このシームレスな統合と使いやすさにより、企業環境内でのAIソリューションの迅速な展開と拡張が容易になります。

■ドメイン固有モデルの活用

NIMはまた、いくつかの重要な機能を通じて、ドメイン固有のソリューションと最適化されたパフォーマンスの必要性にも対応しています。NIM は、言語、音声、映像処理、ヘルスケアなど、さまざまなドメインに合わせたドメイン固有の NVIDIA CUDA ライブラリと専用コードをパッケージ化しています。このアプローチにより、アプリケーションは正確で、特定のユースケースに関連したものとなります。

■最適化された推論エンジンでの実行

NIMは、各モデルとハードウェアのセットアップに最適化された推論エンジンを活用し、高速化されたインフラストラクチャ上で可能な限り最良のレイテンシーとスループットを提供します。これにより、推論ワークロードの拡張に伴う実行コストを削減し、エンドユーザー・エクスペリエンスを向上させます。最適化されたコミュニティ・モデルのサポートに加え、開発者は、データセンターの境界を離れることのない独自のデータ・ソースとモデルを調整し、微調整することで、さらに高い精度とパフォーマンスを達成することができます。

■エンタープライズグレードのAIをサポート

NVIDIA AI Enterpriseの一部であるNIMは、エンタープライズグレードのベースコンテナで構築されており、機能分岐、厳格な検証、サービスレベル契約によるエンタープライズサポート、CVEに対する定期的なセキュリティアップデートを通じて、エンタープライズAIソフトウェアの強固な基盤を提供します。包括的なサポート体制と最適化機能は、効率的でスケーラブル、かつカスタマイズされたAIアプリケーションを本番環境で展開する上で極めて重要なツールとしてのNIMの役割を強調している。

展開の準備が整った高速AIモデル

コミュニティモデル、NVIDIA AI Foundationモデル、NVIDIAパートナーが提供するカスタムAIモデルなど、多くのAIモデルをサポートすることで、NIMは複数のドメインにわたるAIのユースケースをサポートします。これには、大規模言語モデル(LLM)、視覚言語モデル(VLM)、音声、画像、動画、3D、創薬、医療画像などのモデルが含まれます。

開発者は、NVIDIA APIカタログからNVIDIAが管理するクラウドAPIを使用して、最新の生成AIモデルをテストすることができます。あるいは、NIMをダウンロードしてモデルをセルフホストし、Kubernetesを使って主要なクラウドプロバイダーやオンプレミスの本番環境に迅速にデプロイすることで、開発時間、複雑さ、コストを削減することができます。

NIMマイクロサービスは、アルゴリズム、システム、ランタイムの最適化をパッケージ化し、業界標準のAPIを追加することで、AIモデルのデプロイプロセスを簡素化します。これにより開発者は、大規模なカスタマイズや専門的な専門知識を必要とせずに、NIMを既存のアプリケーションやインフラに統合することができます。

NIMを利用することで、企業はAIモデル開発の複雑さやコンテナ化を心配することなく、AIインフラを最適化し、最大限の効率と費用対効果を得ることができる。NIMは、AIインフラストラクチャを高速化した上で、パフォーマンスとスケーラビリティを向上させ、ハードウェアと運用コストを削減します。

エンタープライズアプリケーション向けにモデルをカスタマイズしたい企業のために、NVIDIAは異なるドメインにわたるモデルのカスタマイズのためのマイクロサービスを提供しています。。

  • NVIDIA NeMoは、LLM、音声AI、マルチモーダルモデル向けに、独自のデータを使用した微調整機能を提供します。
  • NVIDIA BioNeMoは、ジェネレーティブ・バイオロジー・ケミストリーと分子予測のためのモデルのコレクションを増やし、創薬を加速します。
  • NVIDIA Picassoは、Edifyモデルにより、クリエイティブなワークフローの高速化を可能にします。これらのモデルは、ビジュアルコンテンツプロバイダーからライセンスされたライブラリで学習され、ビジュアルコンテンツ作成用にカスタマイズされた生成AIモデルの展開を可能にします。

Nvidia NIMを始めるには

NVIDIA NIM の使用を開始するのは簡単で、NVIDIA API カタログ内で、開発者は独自の AI アプリケーションを構築および展開するために使用できる幅広い AI モデルにアクセスすることが可能です。 グラフィカル ユーザー インターフェイス(GUI)を使用してカタログ内で直接プロトタイピングを開始するか、無料で API を直接操作することができます。

また、インフラストラクチャにマイクロサービスをデプロイするには、NVIDIA AI Enterprise 90 日間評価ライセンスにサインアップし、以下の手順に従うだけです。

1. デプロイするモデルを NVIDIA NGC からダウンロードします。この例では、単一の A100 GPU 用に構築された Llama-2 7B モデルのバージョンをダウンロードします。

ngc registry model download-version "ohlfw0olaadg/ea-participants/llama-2-7b:LLAMA-2-7B-4K-FP16-1-A100.24.01"

別の GPU を使用している場合は、ngc レジストリ モデル リスト「ohlfw0olaadg/ea-participants/llama-2-7b:*」を使用してモデルの利用可能なバージョンをリストできます。

2. ダウンロードしたアーティファクトをモデル リポジトリに解凍します。

tar -xzf llama-2-7b_vLLAMA-2-7B-4K-FP16-1-A100.24.01/LLAMA-2-7B-4K-FP16-1-A100.24.01.tar.gz

3. 目的のモデルで NIM コンテナを起動します。

docker run --gpus all --shm-size 1G -v $(pwd)/model-store:/model-store --net=host nvcr.io/ohlfw0olaadg/ea-participants/nemollm-inference-ms:24.01 nemollm_inference_ms --model llama-2-7b --num_gpus=1

4. NIM がデプロイされたら、標準の REST API を使用してリクエストの作成を開始できます。

import requests
headers = {
    'accept': 'application/json',
    'Content-Type': 'application/json'
}
data = {
    'model': 'llama-2-7b',
    'prompt': "The capital of France is called",
    'max_tokens': 100,
    'temperature': 0.7,
    'n': 1,
    'stream': False,
    'stop': 'string',
    'frequency_penalty': 0.0
}
response = requests.post(endpoint, headers=headers, json=data)
print(response.json())

NVIDIA NIM Offers Optimized Inference Microservices for Deploying AI Models at Scale

コメント

Translate »
タイトルとURLをコピーしました