2025年8月6日（現地時間）- Nvidia は、CUDA Toolkitの最新アップデートであるバージョン13.0の新機能を共有しました。

このメジャーリリースは、将来のCUDA 13.Xソフトウェアラインナップ全体の基盤を築くものとなっており、タイルベースのプログラミングモデル、Armプラットフォームにおける開発者体験の統一、NVIDIA Nsight™開発者ツールの更新、数学ライブラリ、NVCCコンパイラ、Accelerated Pythonの改良など、基礎的な機能強化が導入されています。

ここでは、このリリースに含まれる新機能や強化点の一部を紹介したいと思います。

CUDA 13.0でサポートされるBlackwell GPU
CUDA 13.0のさらなる進化
Arm向けCUDAの統合：一度ビルドすれば、どこにでも展開可能
1. 旧来の方法：二重のエコシステム管理
2. 新しい方法：単一ツールキットで全ターゲット対応

CUDA 13.0でサポートされるBlackwell GPU

CUDA Toolkit 12.8で初めてサポートされたBlackwellアーキテクチャは、パフォーマンスと能力の向上を続けています。

CUDA 13.0は、以下を含む最新のBlackwell GPUをサポートします。

B200 および GB200
B300 および GB300
RTX PRO Blackwellシリーズ
RTX 5000シリーズ (GeForce)
Jetson Thor
DGX Spark

CUDA 13.0のさらなる進化

NVIDIAは、最新のCUDA 13.0リリースにおいて、スタック全体のパフォーマンス向上とプログラマビリティの改善を実現しました。従来から採用されてきたSIMT（Single Instruction, Multiple Threads）によるスレッド並列モデルに加え、今回新たに「タイルベース・プログラミングモデル」の導入に向けた基盤が築かれています。

このタイル（または配列）ベースのモデルは、PythonやNumPyなどの高水準言語で広く使われている手法で、配列や行列全体に対してシンプルかつ表現力の高い命令を適用できるのが特徴です。低レベルの実行処理はシステム側が担うため、開発者はスレッド単位の制御に煩わされることなく、アルゴリズムの設計そのものに集中できるようになります。結果として、開発効率と生産性の向上が期待されます。

この新しいプログラミングモデルの導入は、2025年のGTCにてNVIDIAから正式に発表されたもので、開発者の生産性とハードウェア効率にとって大きな一歩とされています。

図1. タイルプログラミングモデルがデータブロック全体を操作するのに対し、SIMTプログラミングは個々のスレッドで操作する様子を示す図。

タイルプログラミングモデルは、データを「タイル」と呼ばれる単位で定義し、それぞれのタイルに対する操作を指定する手法です。コンパイラとランタイムが協調して、スレッドへの作業分散やハードウェア資源の最適化を自動的に行うため、開発者は低レベルのスレッド管理に煩わされることなくGPUの性能を最大限に引き出すことができます。

このモデルの大きな特徴は、タイル構造がTensorコアと自然に対応している点です。コンパイラがメモリ管理や操作のマッピングを担うことで、現行および将来のTensorコアアーキテクチャを効率的に活用でき、高い前方互換性が確保されます。一度作成したプログラムは、最新または将来のGPUでも高速に動作することが期待できます。

タイルプログラミングモデルは、2つのレベルで利用可能になります。

高レベルAPIとドメイン固有言語（DSL） – Python、C++などの言語から直接タイルを利用できます。
中間表現（IR） – コンパイラやツールの開発者は、新しいCUDA Tile IRバックエンドをターゲットにすることで、タイルモデルのパフォーマンスとハードウェア機能を活用できます。

CUDA 13.0のメジャーリリースでは、このモデルを支える低レベルインフラの刷新が行われます。これらの変更は多くの場合ユーザーからは見えませんが、GPUプログラミングの新しい方法に向けて、使いやすさ・性能・長期的な移植性を兼ね備えた基盤を形成するものです。

Arm向けCUDAの統合：一度ビルドすれば、どこにでも展開可能

CUDA 13.0では、Armプラットフォーム向け開発の効率化のため、サーバークラスと組み込みデバイス間でCUDAツールキットが統一されます。これにより、SBSA（Server Base System Architecture）準拠サーバーと、Thorのような次世代組み込みシステムに対して、別々のインストールやツールチェーンを維持する必要がなくなります。単一のCUDAインストールで、Orin（sm_87）を除くすべてのArmターゲットをサポートする設計です（Orinは当面従来の構成を継続します）。

この統合は、生産性の大幅な向上につながります。開発者は、ロボティクスやAIアプリケーションを一度ビルドし、DGX Sparkのような高性能システム上でシミュレーションした後、同一バイナリをコード変更なしでThorといった組み込みターゲットに直接展開できます。結果として、シミュレーションと展開の間に存在していた障壁が取り払われます。

旧来の方法：二重のエコシステム管理

従来、ArmサーバーとNVIDIA組み込みプラットフォームの両方をターゲットにする場合、並行するエコシステムをそれぞれ管理する必要がありました。

SBSA準拠プラットフォーム（GraceベースのサーバーやArmワークステーション）向けには、標準のaarch64 CUDA Toolkitを使用。独自のsysroot、ライブラリ、コンテナイメージが含まれていました。
組み込み向け（Jetsonなど）はJetPackとL4Tソフトウェアスタックに依存し、カスタマイズされたCUDAコンポーネントやボードサポートパッケージを含んでいました。また、x86やGraceシステムからのクロスコンパイルが必要になることも多く、チームは同一アプリケーションを維持するだけでも複数のビルドスクリプトやCIジョブ、コンテナレジストリを抱えることになっていました。

新しい方法：単一ツールキットで全ターゲット対応

CUDA 13.0では、SBSAサーバーと将来の組み込みプラットフォームを単一のCUDAインストールからターゲットにできます。コンパイラ、ヘッダー、ライブラリが共通化され、ターゲット切り替えはSDK交換ではなく、コンピュートアーキテクチャ（例：sm_XX）指定によるビルドのみで行えます。

また、この方針はコンテナにも適用されます。NVIDIAはイメージエコシステムを統合し、シミュレーション、テスト、展開のワークフローが同一のコンテナ系統上で運用できるようにしました。これにより、再ビルドの削減、CIオーバーヘッドの低減、そしてコードからハードウェアへの移行がよりスムーズになります。

この統一により、開発者はCIパイプラインの重複やコンテナ管理の煩雑さを解消でき、異なるSDK管理による微細な不整合やバグのリスクを減らせます。その結果、ツールチェーン維持ではなく、アルゴリズムの改善やパフォーマンス向上、効率的な展開といった本質的な課題に集中することが可能になります。

開発者向けツール

NVIDIA Nsight Compute 2025.3では、ソースビューにInstruction MixテーブルとScoreboard Dependencyテーブルが追加されました。これにより、ユーザーは長い依存関係のストールに影響されるソース行を特定し、入出力の依存関係の場所をより効率的に識別できます。

これらのテーブルは、ソース行内の命令タイプ（浮動小数点、整数、データ移動など）を分類し、依存関係ストールの根本原因に関する詳細を提供します。

図2: Nsight ComputeのInstruction MixおよびScoreboard Dependencyテーブル

さらに、Metric Detailsウィンドウに新しい「Throughput Breakdown」セクションが追加され、個々のユニットのスループットメトリクスが表示されます。これらのユニットのいずれもがスループットの制限要因となる可能性があり、このウィンドウはユーザーがそれぞれのパフォーマンスを理解するのに役立ちます。

その他のアップデート詳細

CUDA Toolkit 13.0には、主要な機能強化に加えて、以下の重要なアップデートが含まれています。

OSとプラットフォームサポートの更新: Red Hat Enterprise Linux 10、Debian 12.10、Fedora 42、Rocky Linux 10.0など、最新のオペレーティングシステムへのサポートが追加されました。
数学ライブラリのアップデート: cuBLAS、cuSPARSE、cuSOLVER、cuFFTにおいて、特にNVIDIA Blackwell GPU上でのパフォーマンスが向上しました。
NVCCコンパイラのアップデート: fatbinのデフォルト圧縮方式がZStandardに変更され、バイナリサイズが削減されました。また、GCC 15とClang 20がホストコンパイラとしてサポートされます。
機能が完成したアーキテクチャ: Turing以前のアーキテクチャ（コンピュート能力7.5未満）のオフラインコンパイルのサポートが終了しました。
更新されたベクトル型: Blackwellアーキテクチャの256ビットロード/ストアを活かすため、32バイトアライメントを持つ新しいベクトル型（例: `double4_32a`）が追加されました。
Jetson Thorのサポート: オープンソースGPUドライバへの移行、UVMと完全なコヒーレンシのサポートなど、次世代SoCであるThorへの対応が強化されました。

その他の新機能・より詳しい情報はこちらから確認できます。

まとめ

CUDA Toolkit 13.0は、プログラマの生産性と最新（および将来の）ハードウェアでのパフォーマンスを向上させる新しいタイルベースプログラミングモデルの基盤を築くメジャーリリースとなっています。CUDA 13.0は、高速化されたライブラリ、コンパイラ、開発者ツールを備え、最新のNVIDIA GPUへの強化されたサポートを提供します。

詳細は以下リンクからアクセスできます。

What’s New and Important in CUDA Toolkit 13.0