双倍的性能,双倍的快乐:英伟达RTX 30系显卡架构解析

双倍的性能,双倍的快乐:英伟达RTX 30系显卡架构解析

白猫 / 2020-09-05 07:4374121

英伟达在北京时间9月2日举办新品发布会,正式发布了全新的英伟达RTX 30系显卡,包括RTX 3070、RTX 3080以及RTX 3090,采用了最新的安培架构以及高度定制的三星的8nm制程工艺,在性能上也取得了极大的提升,可以说几乎横扫了所有的20系显卡。

QQ截图20200905064646.jpg

英伟达官方表示RTX 3080拥有2倍的RTX 2080的性能,而RTX 3070则超过了RTX 2080 Ti,至于最旗舰的RTX 3090更是能够满足8K分辨率和60帧的终极目标,而第三代深度学习单元,第二代的RTX光追处理单元又让新一代显卡更加出色,那么为什么今年的30系显卡如此给力,它又有什么黑科技呢?

目前英伟达举办了关于30系安培显卡的技术讲解会,详细地介绍了新一代的安培架构,也介绍了在安培显卡上所采用的全新的图形特性。而在本文中我们也将浅显地介绍安培架构,此外也将为大家带来英伟达在30系显卡上所采用的众多黑科技。

架构的革新:CUDA数量大幅提升

对于新一代显卡来说,架构的改进能够极大地提升显卡的性能,而光线追踪游戏的加入又让英伟达的显卡在架构上有着革命性的变化,这种变化在20系显卡中就已经初显端倪,英伟达在20系显卡中除了传统的FP32计算单元之外也额外加入了RT计算单元以及Tensor Core计算单元,其中RT计算单元用于光追的计算,而Tensor Core则是降低实际图形的渲染分辨率,降低GPU的运算压力,让光追游戏更加流畅。

而到了30系显卡,英伟达又对安培架构进行了更新和改良,其中最大的改动便是更改了每个SM单元中的FP32单元。图灵架构中一个SM单元拥有一个FP32计算单元,此外还包括RT Core,Tensor Core与INT32计算单元。而到了安培架构,英伟达在一个SM单元中除了设立了独立的FP32计算单元外,还额外让INT 32与FP32共享一个计算单元,也就是说在安培架构显卡中,每一个SM单元的构成为独立的FP32和INT 32与FP32的组合单元与Tensor Core计算单元。

QQ截图20200905064833.jpg

和图灵显卡相比,安培架构单个用于负责FP32计算的单元翻倍,因此消费者看到的是30系显卡相当夸张的单精度性能以及CUDA数量。其中RTX 3070拥有5888个CUDA,RTX 3080拥有8704个CUDA,RTX 3090拥有10496个CUDA,让性能也能得到极大的提升,RTX 3080的单精度浮点可以达到30T之多。和图灵显卡相比,安培显卡除了能够提供2倍的FP32性能之外,在L1的带宽速度也提升了2倍,容量提升了33%,而第二代的光追计算单元和第三代Tensor Core能够拥有2倍的多边形渲染与稀疏矩阵的性能。

QQ截图20200905064854.jpg

并且为了能够与30系显卡暴增的CUDA相搭配,全新一代的显卡也采用了美光最新的GDDR6X显存,全新的GDDR6X显存采用了四级脉冲幅度调制(PAM4)信令,可在不增加SGRAM功耗的情况下显着提高性能,让显卡拥有更高的显存带宽,其中旗舰版的RTX 3090甚至拥有1TB/S的显存带宽,从而也能极大程度地提升游戏性能。30系显卡最高能够拥有1.9倍的RTX 20系显卡的能耗比。

三星8nm制程:更多晶体管带来性能飞跃

从上述架构描述便可以看到,和图灵显卡相比,安培显卡在规模上得到了极大的提升,这就需要更多的晶体管以及计算单元才可以实现。而图灵显卡所采用的12nm FNN工艺已经达到了极限,而显卡的GPU面积又不能无限扩大,因此更换制程工艺成为了提升显卡晶体管的不二法门了。

QQ截图20200905064619.jpg

英伟达在Tesla A100计算卡上选择的是台积电的7nm制程工艺,不过在安培显卡上使用的是深度定制的三星的8nm制程工艺,英伟达将其称之为三星8N。和12nm FNN制程相比,三星8nm工艺可以带来更高的晶体管密度,从而在相同Die面积下塞入更多的晶体管。英伟达称面积最大的GA 102可以拥有280亿个晶体管,这个数量是图灵显卡的1.5倍,不过与A100计算卡的542亿个晶体管相比,还是少了很多,这额外增加的140亿个晶体管自然是增加到了Tensor、RT以及FP32计算单元中,从而确保30系显卡能够拥有如同怪兽般的规格与性能。

QQ截图20200905064917.jpg

很多消费者会疑问,为什么新一代安培显卡在光追以及深度学习性能上比图灵显卡强这么多,在这一次的技术讲解会上,英伟达也详细地为大家介绍了在安培架构下的帧生成时间。

首先是帕斯卡架构,这个架构采用的是传统的FP32计算单元,没有光追架构和深度学习架构,在进行传统游戏的帧生成时间为12ms,但是如果遇到拥有光线追踪的游戏,那么帕斯卡架构只能依靠SM单元强行运算,极大地降低了游戏的速率,帧生成时间也提升至92ms。

而到了图灵显卡,由于对SM单元进行了优化,此外也加入了RT单元和Tensor Core单元,因此纯SM单元计算光追的帧生成时间为51ms,已经比帕斯卡要快得多,而独立的RT单元让帧生成时间降低至19ms,而如果加入DLSS,那么帧生成时间则缩减至13ms,已经与传统游戏无异。

QQ截图20200905064936.jpg

至于安培架构,英伟达对SM单元的光追性能进行了再一次的改良和强化,如今使用安培架构的显卡纯RT运算的帧生成时间为11ms,而加入了DLSS则降低至7.5ms,要是游戏支持第二代的RT以及DLSS,那么帧生成时间甚至可以降低至6.7ms,已经是帕斯卡渲染传统游戏的一半时间,自然在性能上更加出色。

RTX IO:游戏瞬间完成加载

2020年是游戏设备更新换代的一年,目前在游戏机领域, 包括索尼和微软都表示通过最先进的技术让游戏的加载时间成倍降低,其中索尼表示PS5所集成的超高速SSD让游戏加载时间降低到一个相当喜人的成绩。而这一次英伟达也推出了全新的RTX IO技术,通过GPU与SSD之间进行数据交换,从而降低游戏的加载时间,提升玩家们的游戏体验。

QQ截图20200905064958.jpg

英伟达称,传统的数据交换是由硬盘中的文件先与CPU和内存进行数据交换,随后CPU将这些数据与显卡进行交换,也就是说以CPU为数据中心进行传输,这样子在运行游戏的时候,考验的是CPU的性能。过去由于硬盘的速度没有达到一个很高的水平,因此CPU的性能尚且可以应付数据流。

而如今随着SSD的速度越来越大,CPU处理数据流的压力也越来越多,所需要的CPU处理单元也日益增高,尤其是PCIe 4.0的数据量,更是让CPU压力巨大,自然处理其他方面的单元就少了很多。英伟达以HDD所需的CPU性能为1,如果让CPU处理基于PCIe 4.0通道传输的压缩数据流,那么需要24的CPU性能,显然极其影响CPU发挥其作用。

QQ截图20200905065012.jpg

RTX IO的出现则让显卡率先实现与存储设备的数据交换,而显卡与CPU之间再进行数据交换,从而解放CPU的算力,英伟达表示使用RTX IO之后,如果是PCIe 4.0SSD,那么原本24的性能需求如今只需0.5的相对性能就可以实现相同的功效,极大程度地提升了CPU的使用效率,具体而言就是大幅地提升游戏的加载时间。

英伟达也拿视频进行了对比,同样加载实机画面,HDD的加载速度为4.87秒,而NVMe的加载速度为4.87秒,如果基于RTX IO,那么加载时间仅为1.62秒,可以说基本上实现了游戏的秒加载。

英伟达还表示微软计划明年为游戏开发者推出面向 Windows 的 DirectStorage 开发者预览版,届时拥有NVIDIA RTX显卡的玩家便可享受到这种技术。

8K DLSS:为8K分辨率而生

英伟达的DLSS已经升级至了2.0版本,相比较初代DLSS,DLSS 2.0拥有更高的图形显示效率以及画面素质,在部分场景中画质甚至超过了传统的抗锯齿,获得了玩家们的好评。而到了30系显卡中,英伟达表示旗舰卡皇RTX 3090的目标便是8K 60帧,于是DLSS也理应推出了8K DLSS,让显卡流畅运行8K游戏不再是梦想。

QQ截图20200905064530.jpg

在目前的几个DLSS中,1080P的DLSS原生渲染分辨率为1280*720,1440P的原生渲染分辨率为2560*1440,4K的渲染为1920*1080,而到了8K则提升至2560*1400。考虑到8K所需的渲染能力十分地苛刻,英伟达的AI需要处理高达9倍的像素,从而对于显卡的AI性能也是一个极大的考验。

QQ截图20200905064542.jpg

当然高像素填充率带来的是图形画质的质的飞跃,英伟达放出了8K DLSS,原生4K与原生1080P之间的画质,显然8K DLSS能够拥有更强的画质,甚至已经不是一个时代了,另外英伟达也放出了众多游戏在8K分辨率下的性能表现。其中《Control》的8K DLSS支持得最为完美,通过8K DLSS,原本仅有十几帧的速度可以达到57帧,基本上实现了流畅运行。而未来随着支持DLSS的3A大作日益增多,8K DLSS也将拥有更多的用武之地。

RTX GI:光照更加自然

目前的光线追踪已经能够让游戏画面的光照接近真实世界,但是和真实世界相比,由于性能的限制,有很多的光照特性并没有体现在游戏之中,因此各大游戏厂商与显卡厂商通力合作,通过更新的开发工具来提升光线追踪的品质,从而让游戏画面愈发接近于真实画面。

QQ截图20200905064555.jpg

RTX全局照明(RTXGI)SDK为开发者提供了在多重反射下的非直射光线可扩展的解决方案,无需预烘焙、不漏光、无需繁重的每帧负载。所有支持DXR API的显卡均支持RTXGI,RTXGI是现有工具、认知和能力下引入光线追踪的理想起点。可以说通过更新一代的显卡开发工具,开发者可以更好地进行游戏的开发,从而实现更加出色的光线追踪效果。

新一代散热器:更高风量,更低温度与噪音

英伟达在新一代显卡上采用了如此多的黑科技,而消费者最终拿到则是RTX 3090、RTX 3080以及RTX 3070这三款显卡成品,由于这一代塞入了更多的晶体管,因此显卡在发热和功耗上自然也水涨船高,从而对显卡的散热能力提出了挑战。

QQ截图20200905064703.jpg

为此,英伟达在三款显卡上均重新设计了散热器的规格,同时PCB版也进行了重新设计,以RTX 3080为例,全新的PCB为V字型异形板,和RTX 2080相比体积大幅减少,同时拥有12Pin的供电与18相的供电,可以说十分地豪华,从而确保显卡在满载时候的稳定运行。

QQ截图20200905064718.jpg

而在散热器的设计上,RTX 3080不计成本地采用了匀热板的设计,最大程度地提升了GPU的散热范围,而且前后双风扇设计能够最大程度地排尽GPU所散发的热量,确保显卡的稳定运行,并且配合机箱的风道让散热效率最大化。

QQ截图20200905064440.jpg

英伟达以RTX 3080和RTX 2080为例,在相同风速下,RTX 3080的温度可以降低20摄氏度,而相同温度下,RTX 3080的噪音又可以降低10分贝。而RTX 3090则和Titan RTX相对度,其余条件相同的前提下,RTX 3090最高获得30摄氏度的温度下降以及20分贝的噪音降低,十分地给力。

当然也有用户担心由于全新的散热方式会将热量散发至内存以及CPU的风冷,从而影响它们的散热效果,对于英伟达表示他们经过了多次的测试,发现并没有特别的影响,玩家完全可以不用担心自己的内存和CPU受到损坏。

总结:为玩家打造的新一代王牌

9月2日的凌晨,当老黄拿出新一代显卡的时候,整个DIY行业欢呼雀跃,毕竟和20系显卡相比,全新的30系显卡可以说是真正的革命性的进步,无论是性能还是新特征,RTX 30系显卡的出现让玩家纷纷表示过瘾,更为重要的是这一次老黄是加量不加价,更是让玩家们舍得为这些性能出色的显卡买单。

QQ截图20200905070509.jpg

随着光追性能的大幅提升无疑将促进相关游戏的普及,推动游戏行业的发展,除了为8K而生的旗舰级显卡,未来即使入门级显卡也有可能实现更为优秀的光追体验,越来越多的玩家将有机会体验到更高的游戏画质,至于RTX30系列显卡的实际表现如何?就让我们拭目以待吧。


发表评论