Nvidia在今年Siggraph宣布推出新架構的Quadro系列專業工作站顯卡的三款新產品:Quadro RTX 5000,Quadro RTX 6000和Quadro RTX 8000。
Quadro RTX 系列新品的特徴包括:
- RT Core 可做到物件和環境的即時光線追蹤,並物理上精確的陰影、反射和折射及全域光照。
- Tensor Core 可加速深度神經網路訓練和推理。
- 圖靈流式多處理器(Turing Streaming Multiprocessor)架構有 4,608 個 CUDA core,可提供高達 16teraflops 的計算效能,並列運算每秒 16 萬億次整數運算,以加速模擬真實世界的物理模擬。
- 先進的程式化著色技術可提高複雜視效和圖形密集型工作體驗。
- 首次採用超快速的三星 16Gb GDDR6 記憶體,支援更複雜的設計、大量建築資料集、8K 電影內容等。
- NVIDIA NVLink 可透過高速鏈路聯通兩個 GPU,將記憶體容量延伸至 96GB,並可透過高達 100GB/s 的資料傳送,提供更高效能。
- 提供對 USB Type-C 和 VirtualLink 硬體支援。
- 增強型技術可提高VR應用效能,包括可變速率著色(Variable Rate Shading)、多視角渲染(Multi-View Rendering)和 VRWorks Audio。
全新圖靈(Turing)架構
RTX系列是基於新的圖靈(Turing)架構,被稱為世上第一個硬體支援即時光跡追踪(Real Time Ray Tracing)的GPU。內建新的RT核心(RT Core),專為Raytrace加速使用,用於加速DirectX 12中新的DirectX Raytrace的 Nvidia硬體加速技術。
每個都有一組RT核心(RT core) – 新的專用光跡追踪(Raytrace)處理器 – 以及Nvidia當前的Volta架構中的兩種核心類型:用於通用GPU計算的CUDA和用於AI計算的Tensor Core。
Nvidia表示Turing架構比早期使用的大多數現有Quadro卡中的Pascal架構加速了光跡追踪操作25倍。
新架構Turing支持混合渲染 – 光跡追踪(Raytrace)和光柵化(Rasterize)的混合,旨在進一步加速複雜的工作 – 與Nvidia聲稱比Pascal提高6倍光柵化(Rasterize)速度。
RT核心 + Tensor核心
新Turing的RT核心提供了10Giga Rays/sec的速度,與前一代Pascal的架構相比,在Raytrace的效率上提升了25倍,並可與光柵化混合渲染。在之前Nvidia GTC 2018與Microsoft展示DirectX 12 Raytrace的DXR技術時,同時發表RTX的Game Raytrace技術時就有提到,將會有GPU硬體的配合,對Raytrace做特別的加速。當時DXR稱未來支援使用Nvidia Volta架構還宣稱使用Hardware + Software (RTX)的模式。這次則是將RTX相關規格更明確化,直接將使用Hardware的RT核心來負責Raytrace的運算。據Nvidia表示新的處理架構可以加速光線與三角面的交集(ray-triangle intersection)檢查和在現今常見的用來儲存Raytracing的資料結構bounding volume hierarchy (BVH)的操作。
Turing架構也內建結合了Volta的Tensor核心。Tensor核心是許多NVIDIA計劃的重要方面,除了加速光跡追踪本身之外,NVIDIA的其他工具還包括通過使用AI Denoiser來清理圖像以減少場景中所需的光線量,這是Tensor核心所擅長的。所以雖然不是Siggraph人群的主要關注點,但是證實了NVIDIA最強大的神經網絡硬體即將進入到GPU更廣泛的應用。
Turing架構提供了更廣泛的精度控制。Tensor核心更支援INT8甚至INT4精度。它們分別比FP16快2倍和4倍,可以在不需要高精度的工作負載中實現顯著的加速,可以更有效的將演算最佳化以提升計算效率。
為了更好地利用光跡追踪和專業深度學習軟件之外的Tensor核心,NVIDIA將推出一個SDK,NVIDIA NGX,將神經網絡集成到圖像處理中。NVIDIA正在設想使用神經網絡和Tensor核心進行額外的圖像和視訊處理。也即將推出使用該技術所發展出的深度學習抗鋸齒(Deep Learning Anti-Aliasing DLAA)等方法。
處理架構的新技術
新的Turing使用了Volta架構的一個新的方法,專用的INT整數核心(INT core)。它將整數核心分離成自己的區塊,而不是浮點CUDA核心的一部分。這方面的優勢,至少與我們在Volta中看到的一樣,是它加速了位址的生成(address generation)和融合乘法加法(Fused Multiply Add FMA)性能。
快速FP16,快速打包數學以及將多個較小的操作打包到一個較大的操作中的其他方法,都是在摩爾定律減速時,提高GPU性能的關鍵組成部分。通過僅根據需要使用大(精確)的數據類型,可以將它們打包在一起以在相同的時間段內完成更多的工作。這反過來對於神經網絡推理尤其重要,但在遊戲開發中也越來越重要,因為並非所有著色器程序都需要FP32精度,並且降低精度可以提高性能,並減少寶貴的記憶體頻寬和寄存器文件(register)的使用量。
在Volta中,這表現為FP16操作速度是FP32速率的2倍,INT8操作速度是INT32速率的4倍。雖然Turing在新聞稿沒提及,但是因為Tensor核心已經支持這個概念,也許在CUDA也支持這樣的操作。
新聞稿中,提到了對可變速率著色(Variable Rate Shading)的支持。這是一種相對年輕且即將推出的圖形渲染技術,其相關資訊有限(特別是關於NVIDIA如何實現它)。但在非常高的層面上,它聽起來像是下一代NVIDIA的多分辨率著色(multi-res shading)技術,它允許開發人員以各種有效分辨率渲染屏幕的不同區域,以便將品質(和渲染時間)集中到最有效的區域。
支援DDR6
新的Turing支援DDR6記憶體。第一代GDDR6每個腳位記憶體頻寬高達16Gbps,是NVIDIA新一代GDDR5顯卡的2倍,比NVIDIA最新的GDDR5X卡快40%。NVIDIA已經證實,第一款Turing Quadro顯卡將以14Gbps的速度運行GDDR6,對於典型的256位GPU來說,NVIDIA可以使用標準的8個模組,並獲得16GB的總容量,如果使用clamshell mode,甚至可以達到32GB。
Quadro RTX Specification Comparison | ||||||
GPU | Memory | Memory(NVLink) | Raytracing bandwidth | CUDA core | Tensor core | Price |
RTX 8000 | 48GB | 96GB (NVLink x 2) | 10 Gagarays/sec | 4608 | 576 | $10000 |
RTX 6000 | 24GB | 48GB (NVLink x 2) | 10 Gagarays/sec | 4608 | 576 | $6300 |
RTX 5000 | 16GB | 32GB (NVLink x 2) | 6 Gagarays/sec | 3072 | 384 | $2300 |
NVIDIA Quadro Specification Comparison | ||||
RTX 8000 | GV100 | P6000 | M6000 | |
CUDA Cores | 4608 | 5120 | 3840 | 3072 |
Tensor Cores | 576 | 640 | N/A | N/A |
Memory Clock | 14Gbps GDDR6 | 1.7Gbps HBM2 | 9Gbps GDDR5X | 6.6Gbps GDDR5 |
Memory Bus Width | 384-bit | 4096-bit | 384-bit | 384-bit |
VRAM | 48GB | 32GB | 24GB | 24GB |
Architecture | Turing | Volta | Pascal | Maxwell 2 |
Manufacturing Process | 台積電12nm FFN | 台積電12nm FFN | 台積電16nm FFN | 台積電28nm FFN |
支援的廠商與軟體
Nvidia表示有超過二十家主要軟件公司支持新的Turing架構,詳見。
Chaos Group也同時在Siggraph 2018上發布了Project Lavina的技術展示。展示了在即時光跡追踪(Real time Ray Tracing),單個Quadro RTX 6000上以25fps渲染3000億個三角形的場景。
CUDA 10
CUDA10 新特徴包括:
- 支援圖靈(Turing)架構。
- 新增效能最佳化程式庫,在 16-GPU 系統達成強大的 FFT 效能延伸。
- nvJPEG:用於混合 JPEG 處理的新程式庫,單個和批量影像解碼速度是原來 2 倍。
- CUDA / Graphics Interop:CUDA 和圖形 API 之間的新互作業性。
- 新的開發人員工具:用於追蹤,分析和除錯 CUDA 應用程式的新 Nsight 產品系列工具。
Siggraph 2018 Nvidia RTX 發表
相關新聞
NVIDIA Unveils Quadro RTX, World’s First Ray-Tracing GPU