2022年9月20日(現地時間) – Nvidia は、GeForce RTX 40シリーズ GPUを発表しました。
GeForce RTX 40シリーズ GPU
新しいNVIDIA® Ada Lovelaceアーキテクチャを採用した世界初のGPUであるRTX 40シリーズは、性能と効率の面で世代を超えた大きな飛躍を実現しており、以下のような特徴があります。
NVIDIA Ada Lovelace アーキテクチャ
各GeForce RTX 40シリーズグラフィックスカードの心臓部にあるNVIDIA Ada Lovelaceアーキテクチャは、性能、効率、機能において大規模な世代交代を実現します。カスタムTSMC 4Nプロセス上に構築され、最大760億トランジスタ(前世代の280億と比較して)を持つAdaは、これまで作成された中で世界で最も先進的なGPUアーキテクチャとされています。
Adaは、Ampereと比較して、同じ電力で2倍以上のパフォーマンスを発揮し、電力が増加するにつれて優れたスケーラビリティとオーバークロック性を発揮します。
■NVIDIA Ada Lovelace ストリーミング マルチプロセッサ
ストリーミング マルチプロセッサ(SM)は、ゲームの性能の大部分を提供します。
前世代ではFP32のピークスループットが2倍になりましたが、Adaでは前世代GPUの40Shader-TFLOPSと比較してさらに2倍以上となりました。NVIDIA GPUのShaderパワーは最大90TFLOPs、GeForce RTX 4090では83TFLOPsとなっています。
■シェーダー実行の順序変更
GPU アーキテクチャは高度に並列化されており、類似のワークロードを同時に実行するときに最も効率的になります。しかし、高度なレイトレーシングでは、シーン全体で数百万本の光線が多数の異なる種類のマテリアルに当たった場合の影響を計算する必要があり、シェーダー(3Dシーンのレンダリング中に適切なレベルの明暗と色を計算するシェーダーで、最新のあらゆるゲームで使用されています)にとって発散的で非効率な一連の作業負荷が発生します。
Nvidiaの新しいShader Execution Reordering (SER) テクノロジーは、これらの非効率なワークロードをより効率的なものに動的に再編成し、シェーダーのパフォーマンスを最大2倍、ゲーム内のフレームレートを最大25%向上させます。
■第3世代レイトレーシングコア
Adaの第3世代レイトレーシングコアは、レイトライアングル交差スループットが2倍になり、ピークRT-TFLOP性能が最大で2.8倍という驚異的な増加を遂げています。GeForce RTX 4090では、ゲーマーとクリエイターは、191 RT-TFLOPSのパワーを自由に使えるようになります。
また、Adaの第3世代RTコアには、Opacity Micro-Map EnginesとMicro-Mesh Enginesという、要求の厳しいレイトレーシングのワークロードを加速するための新しいハードウェアユニットも導入されており、以下の新しいソフトウェア技術との組み合わせで使用されます。
■第4世代Tensorコア
NVIDIA Tensor Coreは、216のリリースされたゲームやアプリで利用可能なNVIDIA DLSSや、新しいフレームレート倍増NVIDIA DLSS 3など、変革をもたらすAI技術を実現し加速します。 また、何百万ものGeForce RTXおよびNVIDIA RTXユーザが、Tensor Coreを活用して無料のNVIDIA Broadcastアプリで放送、およびビデオ通話や音声通話を充実させることも可能です。
Adaの新しい第4世代Tensor Coreは、まったく新しい8ビット浮動小数点(FP8)Tensor Engineによってスループットが最大5倍増加し、GeForce RTX 4090では1.32 Tensor-petaFLOPSになりました。
■新しいオプティカルフローアクセラレータ
NVIDIA DLSS 3のフレーム生成技術は、Adaの新しいオプティカル フロー アクセラレータによって強化されており、後続フレームのピクセルモーションデータをDLSSニューラルネットワークに送り、GPU上で新しいフレームを生成し、CPU負荷の高いシナリオでも性能を加速させます。
GeForce RTX 4090およびGeForce RTX 4080グラフィックスカードは、AV1エンコーディングをサポートする新しい第8世代NVIDIAエンコーダ(NVENC)を2つ搭載しています。
ライブストリーマーにとって、AV1はエンコーディングの効率を40%向上させ、あたかも40%多くのビットレートを使用しているかのようにライブストリームを表示します。主要なストリーミングアプリケーションであるOBS Studioは、NVIDIAと協力し、10月に予定されている次のソフトウェアリリースでAV1エンコーディングを可能にする予定です。OBSはまた、すべてのNVIDIA GPUでオーバーヘッドを35%削減するためにエンコーディングパイプラインを最適化しています。また、Discordは、今年後半にAV1サポートを追加することにより、ビデオ通話者も高品質なライブストリーミングの恩恵を受けることができます。
ビデオ編集者にとっては、デュアルエンコーダーは最大で2倍速くなり、毎週何時間もクリエイターの時間を節約することができます。DaVinci Resolve、Adobe Premiere Proの人気プラグインであるVoukoder、中国で人気のあるビデオ編集アプリであるJianyingと協力し、トップビデオ編集アプリでこの機能が使用できるようになっています。アップデートは10月に提供される予定です。また、動画用の高解像度コンテンツのキャプチャに興味がある場合、GeForce RTX 40シリーズグラフィックスカードを搭載したGeForce Experienceユーザーは、NVIDIA ShadowPlayを使って、最大8K、60FPSで、HDRでゲームプレイをキャプチャできるようになりました。
新しいソフトウェアによるパフォーマンスの加速と最適化
■NVIDIA DLSS 3
NVIDIA Deep Learning Super Sampling (DLSS)は、専用のTensor Coreを使用してGeForce RTX GPUのパフォーマンスを向上させるNvidiaのテクノロジーです。現在までに、216のゲームとアプリで使用されています。
最新バージョンのDLSS 3では、AIを活用した新しいオプティカルマルチフレームジェネレーション(Optical Multi Frame Generation)という新機能が追加されました。
オプティカルマルチフレームジェネレーションは、単なるピクセルではなく、完全に新しいフレームを生成し、大幅な性能向上を実現します。NVIDIA Ada Lovelaceアーキテクチャに組み込まれた新しいオプティカルフローアクセラレータは、2つの連続したゲーム内画像を分析し、フレームに登場するオブジェクトや要素のうち、従来のゲームエンジンのモーションベクターではモデル化されていないもののモーションベクターデータを計算します。これにより、パーティクル、反射、影、照明などの要素をAIがレンダリングする際の視覚的な異常が劇的に減少します。
ゲームからの超解像フレームのペアは、エンジンとオプティカルフローの両方のモーションベクトルと共に、コンボリューショナル・ニューラル・ネットワークに送られ、データを分析した後、ゲームレンダリングの各フレームに対して自動的に追加フレームを生成します。これは、リアルタイムゲームレンダリングでは初めての試みとされています。
DLSS生成フレームとDLSS超解像フレームを組み合わせることで、DLSS 3は表示ピクセルの8分の7をAIで再構成し、DLSSなしと比較してフレームレートを最大4倍まで向上させることができます。
DLSS 3は世界の主要なゲーム開発会社の多くからサポートを受けており、35以上のゲームやアプリケーションがサポートを表明しています。
より詳しくは、こちらの記事をご覧ください。
■Opacity Micro-Map
Opacity Micro-Mapは、ゲームの詳細に関するデータをゲームエンジンのワールドのオブジェクトに直接エンコードすることで、レイトレーシングを最適化します。葉のような複雑なアイテムは、光線がシーンの照明に基づいてその外観に影響を与えることができる多くの異なる方法と、葉と枝の間で跳ね返ることができる無数の方向のために、レイトレースが特に要求されます。Ada GPUに搭載されている第3世代RT Coreでは、これらのアイテムの不透明度(不透明、透明、不明)の状態を割り当てるために不透明度マスクを使用します。
■Displaced Micro-Meshes
第3世代RTコアは、レイトレーシングのバウンディングボリュームヒエラルキー(BVH)を10倍速く構築し、20倍少ないVRAMでDMM(Displaced Micro-Meshes)を生成することができます。DMMは、第3世代RTコアがネイティブに処理する微小三角形の構造化メッシュを表す新しいプリミティブで、基本三角形のみを使用して複雑な形状をレンダリングする際に、ストレージと処理の要件を前世代より削減します。
DMMは、非常に詳細なレイトレースのゲームやシーンで特に有益であり、開発者は、フォトグラメトリ、超詳細なオブジェクトやサーフェスを活用したフォトリアルなゲームや体験を作成するための性能を得ることができます。
GeForce RTX 4090
GeForce RTX 4090は、16,384のCUDAコア、1,321のTensor-TFLOPs、191のRT-TFLOPs、83のShader-TFLOPsを搭載し、24GBのG6X VRAMでサポートされます。GeForce RTX 3090 Tiと同じ電力で最大2倍の速度で動作します。
今日のレイトレースゲームでは、GeForce RTX 3090 Tiと比べてパフォーマンスが最大で2倍向上、DLSS 3、SER、その他のAdaイノベーションを活用すると、最大4倍高速に動作します。
また、クリエイティブなアプリケーションでは、ビデオのエクスポートから3Dレンダリング、AIエフェクトまで、あらゆるワークフローが最大2倍速く動作し、貴重な時間を節約して、プロジェクトをより速く完了させることができます。
GeForce RTX 4080
GeForce RTX 4080は、2つの構成で発売されます。
GeForce RTX 4080(16GB)は、9,728 CUDAコア、780 Tensor-TFLOPs、113 RT-TFLOPs、49 Shader-TFLOPs、GDDR6Xメモリで、GeForce 3080 Tiの2倍の速度と10%近い消費電力の削減が実現されています。クリエイターは、より大きなシーンのレンダリング、12K RAWビデオの編集、複数のアプリケーションを同時に使用する場合にも、追加メモリの恩恵を受けることができます。
GeForce RTX 4080(12GB)は、7680のCUDAコア、639のTensor-TFLOPs、92のRT-TFLOPs、40のShader-TFLOPs、GDDR6Xメモリをで、GeForce RTX 3090 Tiより高い性能と、当社の新世代の革新技術のすべてにアクセスすることができるようになります。
スペック
GeForce RTX 4090 | GeForce RTX 4080 (16GB) | GeForce RTX 4080 (12GB) | |
---|---|---|---|
アーキテクチャ | Ada Lovelace | Ada Lovelace | Ada Lovelace |
CUDAコア | 16384 | 9728 | 7680 |
ブースト クロック (GHz) | 2.52 | 2.51 | 2.61 |
ベース クロック (GHz) | 2.23 | 2.21 | 2.31 |
標準メモリ構成 | 24 GB GDDR6X | 16 GB GDDR6X | 12 GB GDDR6X |
メモリ インターフェイス幅 | 384 ビット | 256 ビット | 192 ビット |
価格 | 298,000円~ (1599ドル~) | 219,800円~ (1199ドル~) | 164,800円~ (899ドル~) |
価格と発売時期
GeForce RTX 4090は、2022年10月12日に1599ドル~発売される予定です。
GeForce RTX 4080は、どちらのバージョンも今年11月に発売される予定で、GeForce RTX 4080(16GB)1199ドル~、GeForce RTX 4080(12GB)899ドル~です。
ASUS、Colorful、Gainward、Galaxy、GIGABYTE、INNO3D、MSI、Palit、PNY、ZOTACなど、世界各国のパートナーが独自の設計と冷却ソリューションを活用したカスタムカードが販売予定となっています。詳細については、各社のウェブサイトをご覧ください。
また、GeForce RTX 4090およびRTX 4080(16GB)グラフィックスカードは、NVIDIA独自の自社設計によるグラフィックスカードを求めるファンのために、限定Founders EditionとしてNVIDIAが直接生産することも決定しています。
コメント