在北京时间2025年1月7日的CES大会上,大家期盼已久的RTX 50系显卡如期而至。与此前预料的一样,最为旗舰的RTX 5090显卡处于某种原因无法与国内玩家见面。所以此次我们为大家带来的则是iGame GeForce RTX 5090 D Vulcan OC 32GB的评测。
1月30日这款显卡将在七彩虹官网商城、京东、天猫、拼多多、抖音等电商平台及全国授权零售经销渠道开售。除了本次评测款,七彩虹还同时准备了iGame Neptune、Advanced等多个不同系列的GeForce RTX 5090 D显卡供用户选购,售价16499元起。
本次CES上共公布了4张显卡,除了今天解禁的RTX 5090 D和即将解禁的RTX 5080,还有两张70级产品也一同与大家见面,并且黄仁勋还强调了此次RTX 5070的性能与RTX 4090几乎相同。
虽然目前两张5070级显卡尚未有具体的解禁日期,但根据目前市面上4070级显卡价格的涨幅来看,多半也会在近期与大家见面。
在RTX 50系显卡中,AI的比重有着明显提升,不管在架构层面、游戏领域,还是内容创作,AI已经渗透到各个实际应用领域,不再是简单的文生图和语言问答那么简单。
如果说RTX 40系显卡是靠硬件算力来推动AI工作,那么RTX 50系显卡的硬件算力则成为了AI应用的“保障性”条件,一切的改变都是为了让AI有更充足的“后盾”。而相辅相成的,AI技术的应用,也让计算有了更低的成本。正如NVIDIA所展示的那样——神经渲染的时代已经到来。
RTX 50系显卡在架构层面有着非常大的改变,下面我们先来简单了解一下。
1 NVIDIA RTX BlackWell架构
本次发布的GeForce RTX 50系显卡由全新的NVIDIA BlackWell架构打造,完整的GB202核心包括12个图形处理集群(GPCs);96个纹理处理集群(TPCs);192个流式多处理器(SMs),和一个512bit总位宽,包含16个32bit内存控制器的内存接口。
对应到我们熟悉的数字,则是24576个CUDA,192个RT Cores;768个Tensor Cores以及768个纹理单元。由于第5代Tensor Cores采用了更高速的FP4运算,完整的GB202可达到恐怖的4000 AI TOPS;而第4代RT Cores采用的新的几何运算模型,也让它可以达到360 RT TFLOPS。
另外,每个SM单元中还包含两个FP64内核,总共384个。FP64内核主要目的是确保带有FP64代码的程序可正常运行,并确保准其确性。这对于某些专业领域来说至关重要,比如医学或专业计算领域。
GPC是GPU中占据主导地位的高级模块,所有关键的图形处理单元都位于GPC中。在RTX 50系中,GPC整体的布局变化不大。
每个GPC包含一个专用的光栅引擎,两个ROP分区。每个分区包含8个单独的ROP单元和8个TPC,每个TPC包含1个变形引擎和两个SM单元。
完整的GB202核心还包含128MB的L2缓存,而RTX 5090则包含96MB的L2缓存。大缓存的变更自RTX 40系显卡便已开始,所有程序都可以受益于这个高速大容量的缓存池,而光线跟踪(特别是路径跟踪)等复杂操作将产生巨大的好处。
SM单元是GPU架构中的核心组件,在GPU并行处理中发挥着关键作用,它通过其各种核心(CUDA,Tensor,RT),高效的warp调度,内存管理以及对AI等现代工作负载的支持实现大规模并行。本代RTX 50系显卡中SM单元的变化非常大,下面我们详细来了解一下。
完整的GB202核心包含192个SM单元,每个SM包含128个CUDA核心;1个第4代RT Core;4个第5代Tensor Core;4个纹理单元。1个256KB的寄存器文件和128KB的L1共享缓存,它可以根据图形和计算工作负载的需要配置不同的大小。
在BlackWell架构的SM单元中,INT32整数运算的数量增加了一倍。与Ada架构的SM单元相比,实现了INT32与FP32内核的完全统一。不过在时钟周期内,统一内核只能作为FP32或INT32内核运行。
与BlackWell架构一同推出的还有GDDR7显存,采用pam3信号技术,它有着更高频率与更低电压的特点。
本代RTX 5090配备28 Gbps GDDR7显存,峰值显存带宽可达1792GB/s/秒,而RTX 5080配备更高的30 Gbps时钟频率的GDDR7显存,峰值内存带宽可达960 GB/秒。结合新的引脚编码方案,GDDR7实现了显著增强的信噪比(SNR)。
通过增加信道密度、改进的pam3信噪比、先进的均衡方案、重新设计的时钟架构和增强的I/O训练,GDDR7提供了更高的带宽。这些进步还显著提高了能源效率,提供了更好的性能和延长电池寿命,特别是在移动端,或功率受限的系统中。
BlackWell 第4代RT Core
在第4代RT Core中,简单来说它相比Ada架构,在渲染光线追踪场景时,提供了两倍光线三角形相交测试吞吐量,并引入了Mega Geometry的结构算法。
Opacity Micromap Engine
不透明微引擎在Ada架构中已经引入,这里不再过多讲述,它主要的作用是优化光线追踪渲染,可大幅减轻着色器的工作负担。
比如树叶之类的复杂物体,不同的光线都会影响它的表现状态,以及树叶之间的光线反弹,所以对于光线追踪的计算量是巨大的。
不过Opacity Micromap Engine可以将光线追踪特性烘焙到不透明蒙版中,所以那些不规则形状和半透明的对象,也就能够更快更精准的渲染出来,从而极大减轻着色器的工作负担。
Mega Geometry
除了上面提到的Opacity Micromap Engine,在BlackWell架构中,还引入了Mega Geometry(大型几何)的运算概念。其中包含了Triangle ClusterIntersection Engine、Linear Swept Spheres等新硬件。
新的BlackWell RT核心包含一个Triangle ClusterIntersection Engine三角形群集交集引擎,它能够进一步加速大型几何的光线追踪,同时它的工作还包含标准的光线三角形交集测试。Linear Swept Spheres则主要用于光线追踪中精细的几何形状,比如发丝。
Mega Geometry的理念与虚幻5引擎的Nanite虚拟微多边形几何体系统相同,在现代游戏中,模型更加细致,需要渲染的工作量大幅增加,如果全部按照最精细的级别处理,将会耗费极大的计算资源,所以将LOD分级便应运而生。
简单来说,就是根据一个物体距离摄像机的远近,来调节物体的细节水平。此前《黑神话:悟空》便应用了这样的技术,它消除了LOD的繁琐任务,可以扫描并导入极高精细程度的模型。并且,这不会影响性能。仍然可以获得实时帧速率。
在Mega Geometry中提供了新的BVH构建功能,它采用三角形集群作为一级基元。新的集群加速结构Cluster-level Acceleration Structures(CLAS)可以从256个三角形空间紧凑批次中生成,然后使用CLAS集合作为输入来构建最终的BVH。
不过虚幻5引擎并非专为BlackWell而设计,Mega Geometry的工作只是更高效的让游戏引擎调用API。由于其输入参数完全由GPU内存驱动,游戏引擎可以在GPU上更高效的运行LOD选择、动画、剔除等逻辑。同时最大限度减少对CPU的往返,进而减少与BVH管理相关的CPU开销。
然而在更加精细化的游戏引擎中,按照传统的流程,应用程序必须从场景中的每一帧的所有对象中构建一个顶层加速结构。而随着更大的世界规模以及繁杂的场景物体,仅靠LOD分级仍然难以实现质的变化。
为了解决这个问题,Mega Geometry引入了一种新型的顶层加速结构(TLAS),称为分区顶层加速结构(PTLAS)。
它无需在每一帧都从头开始构建一个新的TLAS,PTLAS能够辨别从一帧到另一帧,哪些对象是静态的。
应用程序通过将对象聚合到分区中,并仅更新那些已更改的对象来节省开销。
例如,游戏可以将静态游戏世界的各个部分放入所属的分区中,同时将动态对象分离到每帧重建的“全局分区”中。与传统的TLAS相比,请求的分区更新越少,节省的运行时开销就越大。
另外好消息是,Mega Geometry可通过底层API进行扩展支持,适用于所有支持光线追踪的NVIDIA GPU,也就是从图灵架构(Turing)开始。
不过BlackWell的第4代RT Core是专门为Mega Geometry而设计的,硬件中的特殊集群引擎实现了几何和BVH数据的新压缩方案,同时是第3代RT Core光线三角形相交率的2倍。因此,BlackWell架构可以实现用更小的显存,更高效的处理这些内容。
Linear Swept Spheres (LSS)
LSS(线性扫描球体)是BlackWell架构中新增的图形语言,它极大地简化了复杂头发和毛发的渲染开销,并能提升质量。
此前渲染头发仍然需要最基础的三角形来表达物体,如图所示,发丝中的一个线段需要6个三角形,而一根头发便需要无数个三角形来确保其精度。比如我们的头发则需要600万个三角形来表达。
Blackwell架构的RT Core引入了LSS新语言的支持,它类似于镶嵌曲线,允许灵活地近似各种链型。并且球体也更适合发行构建。
LSS的引入可以让发型构建,减少3倍的数据量,速度大约快了2倍,并可以使用更少的显存,获得更高的帧数。
BlackWell 第5代Tensor Core
本代架构除了RT Core进行了改进升级,专门负责AI及高性能计算的Tensor Core也迎来了重大升级。
与NVIDIA Ada Tensor Cores一样,Blackwell架构的Tensor Cores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。
Blackwell还增加了对FP4和FP6 Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。
FP4精度支持
FP4提供了一种较低的量化方法,类似于文件压缩,可以减小模型大小,提升生成速度。与FP16精度(大多数型号发布的默认方法)相比,FP4只需要不到一半的显存。FP4使用NVIDIA TensorRT提供的量化方法,几乎没有质量损失。
例如,目前最强的AI绘画模型FLUX.dev ,在FP16上需要超过23GB的显存,而这意味着它只能由每一代的期间产品RTX 4090,RTX 5090和专业GPU来支持。
而对于FP4,FLUX.dev测试对显存的需求将少于10GB,让更多80级和70级的显卡均能在本地运行。
在性能和效果对比上,使用带有FP16的RTX 4090,FLUX.dev模型可以通过30个步骤在15秒内生成图像。使用带有FP4的RTX 5090,只需5秒多一点就可以生成图像。
DLSS 4
DLSS 4是本代RTX 50系显卡带来的重大更新,对于玩家来说它也是最能实际感受到的。最新版本DLSS 4带来了新的多帧生成(MFG),具有更快的性能和更低的显存使用等特性。包含超分辨率(SR),光线重建(RR)和深度学习抗锯齿(DLAA)模型,可进一步增强图像质量和稳定性。
这些新技术由RTX 50系GPU和第5代Tensor Cores支持,并由云端的NVIDIA Al超级计算机提供支持。不过对于手持RTX 40系或更早期显卡的玩家还无缘体会。DLSS 4新增的多帧生成,目前仅支持RTX 50系显卡。
Multi Frame Generation(多帧生成)
DLSS多帧生成能够通过每个传统渲染帧,生成多达三帧的额外帧来提高FPS。新的帧生成AI模型相比之前的帧生成方法快40%,使用的显存减少30%,并且每个渲染帧只需要运行一次就可以生成多个帧。高效的AI模型代替了上一代的硬件光流模型,从而加快了光流场的生成速度,并显著降低了生成额外帧的计算成本。
从生成帧的层面来说,上一代DLSS 3帧生成基于CPU的帧节奏,而这种方式可能会让生成的帧与额外的帧混合在一起,导致每帧之间的帧节奏不太一致,影响平滑性。
为了解决生成多帧的复杂性,Blackwell架构将帧节奏逻辑转移到显示引擎,使GPU能够更精确地管理显示时序,从而避免与额外帧混合的情况,进而提升帧生成的准确性及稳定性。
而第5代Tensor Cores拥有更高的计算能力,这使得它们能够更快地执行计算光流和生成多帧的一系列AI模型。并更好地调度DLSS AI处理、图形渲染和帧速度算法。
Transformer模型
此前DLSS所用的模型为Convolutional Neural Network,即我们熟悉的卷积神经网络(CNN),CNN的工作原理是将像素局部聚集在一起,并以树的形式从低到高地进行分析数据。这种结构的计算效率很高,这也是为什么它被称为卷积神经网络。
而DLSS 4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光线重建和深度学习抗锯齿(DLAA),从而提高图像质量和渲染平滑度。基于Transformer模型体系结构的神经网络,擅长处理涉及顺序和结构化数据的任务。简单来说,就是Transformer能够抓住“重点”,可以更好地理解和渲染复杂场景。
与CNN模型相比,Transformer更容易在更大的像素窗口中识别更远距离的模式,具有一定的学习能力和“前瞻性”。
本代DLSS 4将基于CNN的神经网络结构,转变为基于Transformer的神经网络结构,在许多场景下图像质量都有着显著提升。
Shader Execution Reordering (SER) 2.0
Shader Execution Reordering(着色器重排序)是在RTX 40系架构中引入的一项技术,它可以使带有光追的程序有效地重组GPU上的大量并行线程,以最大限度地利用硬件。
因为连贯执行神经工作负载的线程可以直接发送到Tensor Core,所以SER也显著加速了神经着色。在Blackwell架构中,SER的核心重排序逻辑效率是原来的两倍,减少了重排序开销并提高了精度。从而进一步提高了该功能的有效性。这项功能更多地是为应用程序开发者而设计,它仅需一个小的API改动,即可执行重排序操作,进而提升总体项目的负载性能。
2 iGame GeForce RTX 5090 D Vulcan OC 32GB概览
Vulcan火神系列是iGame每一代的旗舰产品,而从RTX 30系开始,设计风格有了明显变化,采用赛博朋克元素,将极具未来科技感的风格融入到了显卡中,外甲线条张力十足,棱角分明。
iGame RTX 30系 Vulcan显卡
而在RTX 40系显卡中,iGame Vulcan系列虽然延续了赛博朋克风格,但整体设计给人一种现实与幻想碰撞的感觉,即后赛博时代。
iGame RTX 40系 Vulcan显卡
后赛博时代最明显的特征便是被磨平的棱角,以及少了许多强烈碰撞的色彩,取而代之的是以黑白灰为主,少量彩色光源点缀的躺平生活。
iGame RTX 50系 Vulcan显卡
与iGame RTX 40系Vulcan显卡相反,iGame RTX 50系Vulcan重新拾起了锋利的棱角,然而它并不像RTX 30系那样张扬,且从RTX 40系中继承了“赛博堡垒”的厚重感和积淀。纯黑的雾面金属,搭配银色锐利三角“外骨骼”,让Vulcan系列犹如从后赛博时代觉醒的赛博利刃。
单从设计灵感来讲,RTX 50系Vulcan从后赛博的时代反思,到沉寂数百年的武装觉醒,给人一种沉稳干练,但又锋芒毕露的感觉。出世的高手或少林扫地僧,都是将Vulcan拟人后最直观的第一印象。甚至有点孩童们口中“黑化”的意味。
本代RTX 50系显卡除了性能暴增之外,最显著的特点就是大和沉。尤其以Vulcan这种双料旗舰产品来说,“抱”在手中,似乎真的能让人感受到觉醒年代的建筑和时代缩影。我想这也是为什么初见Vulcan便给人一种独特的“巨物威压”感。而显卡棱角处均有锐利的“光刃”灯效点缀,也正如未来科技内敛又刻意的感觉。
时至今日,不可否认的是,我们正在被动地朝着赛博时代不断缩短距离,但觉醒的人们早已预见了赛博时代的“低生活”。人们渴望又害怕光,渴望它照亮周身,却又害怕把自己暴露在光线里,两者不断妥协,最终小心翼翼地使用光,描绘出自己的轮廓来警示他人。
从《头号玩家》开始,近未来社会是人们一直向往的生活。AI会将现实中人们的思想以及行为等意识数据化,从而挑选自己中意的“绿洲”。强大且逼真的图形技术能够让我们在各个游戏世界当中畅游,拥有各式各样的超能力,且随心所欲,达成“我游自在”的身心合一的境界。
谈到赛博,就不可避免地让人联想到各种科幻元素,耸立的高塔、多彩的屏幕、金属利刃等等。恰如iGame RTX 50系的Vulcan设计语言,在充满奇幻色彩的同时,又拥有力量感。
这张iGame GeForce RTX 5090 D Vulcan OC 32GB初看给人一种似曾相识的感觉,毕竟以赛博为主题万变不离其宗,但细品又能发现其返璞归真的质感和恰到好处的简化,下面我们便来看看它的整体设计。
首先来看一下本次iGame GeForce RTX 5090 D Vulcan OC 32GB的配件,作为Vulcan系列的标志性LCD智屏以及灯光组件均得到了升级。另外则是必不可少16pin转8pin*4的电源转接线、灯光同步线&素材上传线以及智屏的可磁吸底座,还有这张RTX 5090 D必装的显卡支架。
这张iGame GeForce RTX 5090 D Vulcan OC 32GB整卡的尺寸为360×148.9×71mm(不含挡板),相比上一代Vulcan增加了不少,尤其是长度,而且重量也是前所未有的。
iGame GeForce RTX 5090 D Vulcan OC 32GB的外甲由全金属压铸工艺打造,刚性十足,在质感上实现了质的飞跃。纯黑的雾面金属设计,与更加锋利的银色“金属外骨骼”相得益彰。造型继承经典三角元素,配合以45°的斜线切割设计,赋予显卡更加鲜明的结构轮廓。更为锐利的金属外骨骼,进一步彰显了VULCAN系列的“暴力美学”。
散热方面,本次iGame GeForceRTX 5090 D Vulcan OC 32GB整体采用了旋涡(Vortex)散热器,三个107mm的大直径风扇作为主动散热,升级加固的“风镰”扇叶叶片环环相连,使空气形成漩涡聚风吸入,提升风压,增加进风量。
并且每个风扇的旋转方向与相邻风扇不同,可减少空气乱流并提升风量。内部的双滚珠轴承柔滑顺畅,结实耐用,并且让风扇工作起来更静音,延长使用寿命。
在内部散热模组上,iGame GeForce RTX 5090 D Vulcan OC 32GB使用导流型鳍片,最初应用于高价值的服务器当中。它拥有更大的间隙,利于风流进入,加速内部气流循环,从而提升散热效率。
7根8mm+2根6mm的热管配置堪称豪华,“回流焊”工艺使热管与鳍片贴合更紧密,进一步优化散热效能。
真空冰片技术
而内部采用了真空冰片技术,该项技术通过超扁平的密闭腔体内充冷凝液,利用相变原理高效散发热量。当冷凝液吸收热量后便会蒸发沿着腔体内的微结构迅速传导至冷端,通过毛细作用回流至热源处,形成高效的热循环。
视频输出接口上,iGame GeForceRTX 5090 D Vulcan OC 32GB采用了HDMI 2.1b*2 + DP2.1b*3的五接口设计。
其中DP 2.1b接口为UHBR20规格,可达 80Gbps 带宽,最高支持8K (7680x4320) @165Hz(DSC);4K (3840x2160) @480Hz(DSC)。另外需要注意的是,要达到 80Gbps 带宽需要DP80LL认证的线材。
作为七彩虹iGame标志性的一键超频按钮,在RTX 50系中自然也得到了传承,良好的机械反馈手感加上点亮后的冰蓝色灯光,仪式感十足。
16pin辅助供电左侧为素材上传&灯光同步接口
本次iGame GeForce RTX 5090 D Vulcan OC 32GB的TDP官方给出的为575W/600W,搭载单16pin(12+4)辅助供电。这张显卡内部采用18+7+6相供电,频率也要更高,建议1000W电源起步。
再来看一下背板,iGame GeForce RTX 5090 D Vulcan OC 32GB采用了全铝骨架,一定程度上降低了整卡的重量,并保证了刚性。右侧镂空背板能看到大量散热鳍片以及热管,虽为旗舰产品,但这款显卡同样采用了较短的PCB板,以满足散热鳍片的整体散热效果。
3 智屏及iGame Center软件
本次随着RTX 50系显卡的发布,iGame Center软件也迎来了升级。
软件首页可显示当前系统状态以及各种硬件信息。
在硬件控制中,主要可以调节灯光系统,可全局调控也可单独调控。选择上边的单独调控是我们本次设置智屏的重点。
本次中默认的灯光效果其实都非常好看,尤其是GPU和CPU专注的参数显示,非常具有赛博朋克的感觉。
在自定义图片中,玩家可以手动上传自制图片。分辨率为 800×216px,按照尺寸自行剪裁,或制作GIF图均可显示。
LCD智屏延续了可拆卸磁吸式设计,与上代产品不同之处在于新增的机械旋转结构,可实现屏幕的翻转及角度调节。显卡在机箱当中无论处于横装或竖装的状态,均能够通过旋转结构进行角度调节。
全新LCD智屏以内嵌式屏幕设计,可显著降低因跌落等意外造成的碎屏风险。磁吸金属触点置于屏幕的旋转结构处,该设计将更加便于后期的更换及维护。
RTX 50系iGame Vulcan LCD智屏的旋转结构,可实现90°范围内的角度调整,并可实现一定角度的悬停。由于底座采用USB连接的方式,与LCD智屏接通后,可放置于机箱内或桌面上当作摆件,同时还能更方便地监控硬件使用情况,方便实用。
由于智屏的升级,可搭载底座放置于机箱外部,这个位置空着当然不行,所以当智屏不在显卡上时,这个iGame Vulcan的灯控组件可以直接吸附在上面。不过有一点,这个灯控组件不兼容底座。
iGame Vulcan智屏的底部及背部都拥有磁吸触点,并且“即吸即用”非常方便。
外接底座的好处就是可以放在任何桌面摆件上,并且升级后高清的分辨率显示效果也更好。常规的图片上传没什么冲击力,下面笔者上传了一段NVIDIA Racer RTX的视频。
不过需要注意的是,上传素材过大最好使用显卡内附带的素材上传线,否则等待时间会比较长。
4 测试平台简介
首先介绍一下测试平台,为了保障iGame GeForce RTX 5090 D Vulcan OC 32GB这张怪兽的性能发挥,我们的平台也再次进行了全面更新。
除了iGame GeForce RTX 5090 D Vulcan OC 32GB这张卡,处理器选择了AMD R7 9800X3D游戏神U。而为了搭配90级别的的生产力工作需求,内存升级到了64GB。
同时为了方便观察DLSS 4在画质上的提升和4K高帧率带来的游戏变化。我们选择了EVNIA 32M2N8800 OLED显示器,这款显示器采用了4K@240Hz的高分高刷规格,可完美适配RTX 5090 D的爆炸性能。而99%的DCI-P3色欲覆盖,更可细致入微地观察Transformer模型带来的细节提升。
电源选择了昆仑九重 KE-1300P,它拥有独到的数字电源技术,在实现 1300W 满火力输出的同时,更有着超越白金牌的效率表现,成为高端攒机的理想之选。
首先看一下GPU-Z的参数,截至目前发稿时,部分参数尚无法识别。iGame GeForce RTX 5090 D Vulcan OC 32GB采用GB202核心,采用与上一代相同的TSMC 4nm定制工艺(TSMC 4nm 4N NVIDIA CustomProcess),芯片面积750mm2。值得注意的是,在RTX 50系显卡中,使用了PCIE×16 5.0带宽。
拥有21760个CUDA,相比RTX 4090多33%,Boost频率达到了2527MHz,相比标频的2407MHz提升非常大。
采用32GB GDDR7显存,位宽为512bit,目前由于GPUZ无法识别显存类型,所以仍然按照上一代来计算,所以显示有误,实际的显存带宽达到了1792 GB/s,光栅单元和纹理单元为176和680。
5 理论性能测试
下面先进行的是用来衡量显卡DX11理论性能的3DMARKFS套装:FS,FSE,FSU三者分别对应显卡在1080P、2K、4K的理论性能,取显卡分数实际测试结果如下:
在针对显卡DX11性能的3DMARK FS套装测试中,iGame GeForce RTX 5090 D Vulcan OC 32GB的提升对比RTX 4090,在三档分辨率中的提升分别为,22%/33%/35%,综合提升约为30%。
而在针对DX12环境下的Time Spy和Time Spy Extreme测试中,iGame GeForce RTX 5090 D Vulcan OC 32GB相较RTX 4090的提升分别为:TS提升34%;TSE提升34%,综合提升约为34%。
PortRoyal是3DMARK中专门针对光追性能的测试项,iGame GeForce RTX 5090 D Vulcan OC 32GB相较RTX 4090的提升约为46%。
综合来看,iGame GeForce RTX 5090 D Vulcan OC 32GB的理论性能相较RTX 4090的提升约为37%。
下面我们再来看看3DMARK中新增的一些具体应用场景的测试。
Speed Way这项测试结合了实时光线追踪和传统渲染技术来测量显卡性能。场景含有光线追踪反射、实时全局光照、网格着色器、体积照明、粒子和后处理效果。所以SW的测试基本可以看做次世代3A游戏基准。
iGame GeForce RTX 5090 D Vulcan OC 32GB对比RTX 4090,提升为49%。
在DLSS的理论测试中,有着较大变化,共分为两种模型。DLSS 3采用上一代的CNN模型,而最新的多帧生成,则采用了Transformer模型,并且多帧生成可调节生成帧的数量。
从测试结果来看,DLSS 4 2X基本可以看作是DLSS 3的帧生成,但由于使用的模型不同,在帧数上还是有一定提升的,尤其在1080p分辨率下。
而相比上一代DLSS 3,DLSS 4 4X模式下,帧数提升在75-80%之间,即便是8K分辨率,也能达到246帧的成绩。
通过DLSS的理论测试,不难发现8K@240帧对于这张iGame GeForce RTX 5090 D Vulcan OC 32GB显卡来说早已不是触不可及的目标,而在4K分辨率下,更是能达到恐怖的450帧。
下面我们先实际测试DLSS 4在游戏中的表现如何,能否达到理论测试的提升效果。
6DLSS 4性能测试
本次DLSS 4在解禁首日,便可支持75款游戏或应用。除了游戏中首发支持外,对于尚未集成的游戏,可在NVIDIA APP中进行直接调节非常方便。
在DLSS 4的测试中,首先来看《赛博朋克2077》,我们会进行多角度对比,来看看不同DLSS的设置下,三档画质的帧数表现。
在所有测试中,为保证缩放比例固定,我们均选择在质量模式下进行。
传统DLSS 2的测试中,使用CNN模型DLSS,可以看到即便是iGame GeForce RTX 5090 D Vulcan OC 32GB在4K分辨率下,光追超级画质也仅有100帧,而在光追超速模式下为68帧。
DLSS 3的测试依然为CNN模型,增加帧生成。可以看到DLSS 3已经可以大幅提升帧数,相较DLSS 2,在4K超级画质/光追超级/光追加速 的提升分别为42%/55%/68%,已经是非常惊人的成绩了。
在DLSS 4的测试中,模型更改为Transformer,开启多帧生成,首先测试3X下的表现。
iGame GeForce RTX 5090 D Vulcan OC 32GB在4K超级画质/光追超级/光追加速中,相较DLSS 3帧生成的提升分别为44%/48%/49%,将帧率再次拉至新高度,即便在光追超级画质下,依然能达到240帧左右的成绩。
另外注意,在1080p分辨率的超级画质中,已经达到了惊人的612帧!虽然仅仅是超级画质,但这依然是标准的3A游戏《赛博朋克2077》。
DLSS 4最后的测试为Transformer模型4X帧生成模式,在4K超级画质/光追超级/光追加速中,相较DLSS 4的3X帧生成的提升分别为27%/26%/28%,即便在光追加速画质中,依然能稳定在200帧以上。
并且你没有看错,在4K超级画质中,达到了362帧的成绩,已经突破了目前显示器的极限。而对比DLSS 3帧生成,DLSS 4 4X分别提升为83%/86%/91%。
除了帧数上的提升,DLSS 4对于画质表现如何,下面我们来看看实机截图对比。
可以看到在采用Transformer模型的DLSS 4中,物体表面的纹理细节更清晰。即便是没有模型面覆盖的锈迹,DLSS 4依然能精准还原。
同理,墙上的裂纹在DLSS 4中有更明显的痕迹。并且整体画面相较于DLSS 3,更通透明亮。大家也可下载4K图片自行比对。
《漫威争锋》是近期大火的FPS+MOBA类网游,最初被看作《守望先锋》的替代品,但实际游玩效果,无论画面还是玩法,都更胜一筹。
截至目前,Steam已经有超过18万评价,整体为特别好评。而且《漫威争锋》是免费网游,大家下载尝鲜DLSS 4。
首测发布前《漫威争锋》尚未在游戏中集成DLSS 4,这里也举例说明在NVIDIA APP中如何开启DLSS 4。
打开NVIDIA APP后,切换至图形选项卡,找到对应的游戏,拉至最下方【驱动程序设置】,找到DLSS模型预设,将内部选项全部调节至最新后,开启DLSS帧生成4X,即可享受帧数的暴力加成。
注意在调节后需重启游戏,且游戏中的DLSS设置不会发生变化,仍然可调节质量、平衡、性能等挡位。
对于一款竞技网游来说,高帧率比画面更重要,使用iGame GeForce RTX 5090 D Vulcan OC 32GB在4K分辨率下,DLSS 2质量模式已经能够达到165帧的电竞级帧率,不过这绝大部分归功于显卡本身强悍的性能。
在4K分辨率下的DLSS 3帧生成模式中,相比DLSS 2在质量模式中提升了36%,并突破200帧。
而在DLSS 4 4X多帧生成中,4K分辨率相比DLSS 3质量模式再提升85%,一举突破400帧,堪称奇迹。
在画面对比中,DLSS 4 4X的四档画质也很难看出区别,角色的头发、衣服,远处的建筑涂绘,基本都和原生画质分毫不差。
从目前两款支持DLSS 4游戏的测试中可以明显看出,DLSS 4确实有着质的飞跃,在帧数大幅提升的同时,画质相比DLSS 3也更好。
这里不禁让人感叹:这真是没见过的科技啊!其实放在以前,多帧生成是大家想都不敢想的方向,甚至是想不到的方向,然而NVIDIA不仅做出来了,并且效果绝不含糊。只能说NVIDIA再次领先了友商一个时代。
7 常规游戏性能测试
除了支持DLSS 4的游戏,我们同样测试了一些主流的3A大作和支持DLSS 3的游戏,为更多玩家提供参考方向。
《黑神话:悟空》是一款妇孺皆知的国产虚幻5巨制,自带DLSS 3帧生成。我们的两项测试也全部开启帧生成,均为影视级画质。
从上下两张图的对比,很难不让人怀疑是我们的成绩放反了。但在《黑神话:悟空》中,至少使用NVIDIA显卡,开启全景光追后,部分帧数反而更高。
从iGame GeForce RTX 5090 D Vulcan OC 32GB这张卡的实测结果来看,4K分辨率下质量挡位便能达到百帧的流畅水准,对于很多风景党来说,可以既享受高帧率的同时,又不损失画质。
《燕云十六声》是网易开发的一款国产武侠大作,在DLSS 2的测试中,除了DLSS质量挡位与原生画质拉开差距,其他DLSS挡位出现了明显的则出现了明显的帧数瓶颈。至少从图形显示来看,低分辨率下的分数应该更高,似乎是与9800X3D的适配和优化出现了问题。
不过在DLSS 3的测试中,iGame GeForce RTX 5090 D Vulcan OC 32GB依然跑出了最高4K 300帧的绝佳成绩,并且帧数分布呈现较为正常的趋势。
在画面对比中,我们固定4K分辨率、DLSS 3质量挡位,来看看游戏中不同画质下的差距。
其中质量与极致的差别在于远景处石头的外观细节缺失,但近景并无影响。
平衡与质量画质的差别则在于远景处体积雾的消失,同时远处房顶上的植被消失。
性能画质的差别则比较明显,除了上述变化,整体的渲染效果也发生了变化,并且天空中的体积云也更为模糊。不过4档画质的差别均不影响游戏视距,及角色本身的模型和纹理。
近来同样大火的《三角洲行动》测试中,DLSS 2的结果同样有些意想不到。不过iGame GeForce RTX 5090 D Vulcan OC 32GB在4K分辨率DLSS质量模式下,依然有着240帧的出色成绩,基本是目前显示器的顶配规格。
而在加入帧生成的测试后,iGame GeForce RTX 5090 D Vulcan OC 32GB在4K分辨率下的成绩,一跃达到了300帧。不管是大战场还是战役,都无足为惧。
《地平线5》也是显卡测试的常驻游戏,其凭借出色的优化,在原生效果下即可跑出优秀的成绩。iGame GeForce RTX 5090 D Vulcan OC 32GB在DLSS 3 4K分辨率下再创新高,达到262帧的成绩。
在《刺客信条:幻景》中,我们关闭游戏的自适应帧率,分别测试DLSS不同挡位与原生画质下的差异。
iGame GeForce RTX 5090 D Vulcan OC 32GB在4K分辨率原生画质下即可达到141的电竞级帧率,而在DLSS性能挡位中,突破200帧。对于几年前大家一直戏称的“众生平等”游戏,现在4K分辨率下已经突破200帧,实在令人唏嘘。
在《无主之地3》中,iGame GeForce RTX 5090 D Vulcan OC 32GB相比RTX 4090的提升分别为:1080p提升28%;2K提升33%;4K提升44%,综合提升35%。在纯光栅化游戏帧数对比中,《无主之地3》比较能概括RTX 5090与RTX 4090的光栅化性能的综合差距。
《光明记忆:无限》的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多,测试条件为“RTX最高/DLSS质量”。
性能方面,iGame GeForce RTX 5090 D Vulcan OC 32GB相比RTX 4090的提升分别为:1080p提升39%;2K提升38%;4K提升42%,综合提升40%。
8 专业软件测试
作为90级别的显卡,本代RTX 5090 D拥有32GB的超大显存,内容创作者领域的应用是必不可少的。我们分别测试了不同类别的创作软件。
V-Ray6
V-Ray6对于GPU的测试分为RTX与CUDA,其中RTX测试相比RTX 4090(5852)首测时提升154%左右。足以证明新架构在光线追踪中的显著效果。
UL Procyon
本次测试UL提供了FLUX.1 Dev绘画模型的FP4测试。BlackWell架构新的Tensor Core特性不仅让生成所需的显存显著减少,在生成时间也有大幅降低,平均4张图片即可节省10秒时间。
在结果对比中,FP8和FP4所生成的图片效果是相同的,在细节和图片精度上均有着良好表现。
Keyshot 2024
Keyshot是一款专注于模拟光线追踪的渲染软件,并可分别调用CPU或GPU进行渲染,下面我们看下最终的渲染时间和结果。
使用iGame GeForce RTX 5090 D Vulcan OC 32GB渲染一张4K分辨率,采样率为1000的图片,最终用时66秒左右。
而使用CPU渲染,则需要1小时35分钟左右。并且从图片细节来看,两种渲染方式几乎没有不同。所以GPU对于内容创作者来说,效率的提升是不言而喻的。
9 NVIDIA Broadcast
NVIDIA Broadcast是一款用于直播或会议的AI软件,目前随着RTX 50系的发布,也进行了版本更新。
新版NVIDIA Broadcast界面更小巧,纵向布局也更方便视频直播中调节选项。
NVIDIA Broadcast一些经典效果更方便开启,其中目光接触功能非常适合远程会议,即便眼睛盯着屏幕,也能让参与人员时刻注意到你的眼睛,并且还有一定“大眼”效果。
虚拟补光仍是测试版功能,它可以在光线较暗的情况下进行面部的AI补光,看你看起来仍然处于光线较好的环境中。
在新的NVIDIA Broadcast中,还增加了GPU利用率的显示,当软件中功能全部打开时,对于GPU的占用率还是非常高的,比较适合会议等不需要过多GPU参与的场景。而如果是游戏直播,则可适当关闭AI效果,以降低GPU利用率。
10 NVIDIA APP
新版的NVIDIA APP代替了原来的GFE软件,并且功能更强大,使用起来也更方便。最主要的是,它不用登陆了,即下即用。
在APP首页除了显示最新的驱动信息,还新增了NVIDIA周边软件的下载,比如AI绘画Canvas;图像视频对比工具ICAT;性能测试工具FrameView等等,不用再去NVIDIA官网寻找。
从APP中强制开启DLSS 4的功能上面已有介绍,不过目前并不是所有游戏和软件均支持此功能。
系统界面中则更多的是调试类功能,如显示器、视频、超频等。
其中性能界面提供了较为详细的监控和超频选项,需要注意的是新手如果想尝试超频,尽量不要改变电压,这个选项轻则掉驱动,重则烧毁显卡。
NVIDIA信息浮窗是游戏中很好的辅助工具,要开启此功能,需要在APP主界面的设置一栏中,开启按钮,之后按【ALT+Z】即可呼出边栏。
按【ALT+R】可呼出统计数据的浮窗,功能设置和自由度的调节也非常丰富,最主要的是相当简便。
11 功耗及温度测试
功耗测试中,我们选择FurMark2软件进行拷机测试,并采用AIDA64检测信息。
FurMark软件截至首测时,尚无法检测到GPU信息,部分温度识别有误。我们主要看蓝色的AIDA64信息。iGame GeForce RTX 5090 D Vulcan OC 32GB在40分钟左右的烤机测试中GPU温度为67℃;显存温度为74℃。另外可以看到在TDP 100%的满载情况下,整卡功耗为600W。
除了满载烤机,我们也实测了游戏中显卡的真实数据表现。测试选择《赛博朋克2077》benchmark,4K分辨率下光追加速画质,并开启DLSS 4 4X多帧生成,将显卡性能拉满。
可以看到iGame GeForce RTX 5090 D Vulcan OC 32GB的平均功耗为518W,相比FurMark烤机低了80W左右。
进行功耗检测的同时,我们也调出了延迟数据,在DLSS 4 4X多帧生成的环境下,游戏平均延迟为47ms。证明即便有多张AI生成帧参与到游戏中,我们依然能获得比较“跟手”的操作体验。
12 DLSS 4让帧率暴涨至4倍!
本次iGame GeForce RTX 5090 D Vulcan OC 32GB显卡首测,依然是围绕AI展开,不过相比此前常规的软件测试、生图速度等内容,RTX 50系的Blackwell架构将AI融入到了方方面面。
最显著的就是DLSS 4的多帧生成功能,它对于玩家的影响和感知也是最大的。从CNN替换到Transformer模型,让AI从中发挥更多作用,不再只是单纯的计算,更利用AI的长处,做到宏观把控,进一步增强生成帧的稳定性和质量。相比早先的DLSS 2来说,DLSS 4的多帧生成在画质更好的前提下,能够让帧率暴涨4倍!目前我们能想到的,似乎也只有AI能“承接”这个重任了。
除此之外,FP4运算对于内容创作者来说,更是如虎添翼。更少的显存需求、更快的运算速度,以及无可挑剔的生成质量,可以让过去常规的任务,提速增量。而对于规模更大的项目,也让不可能变为可能。
正如文章开篇所讲,如果说RTX 40系显卡是靠硬件算力来推动AI工作,那么RTX 50系显卡的硬件算力则成为了AI应用的“保障性”条件,一切的改变都是为了让AI有更充足的“后盾”。而相辅相成的,AI技术的应用,也让计算有了更低的成本。
抛开AI性能,RTX 5090 D光栅化性能相比RTX 4090的提升就相形见绌,相信成绩发布后也一定会有用户以光栅化性能来分析。不过坦白讲,让光栅化性能提升到与AI相同的水平,至少需要10年。在芯片规模有限,不大幅增加成本的前提下,AI绝对是最优解。我们为何不拥抱变化,接受新的事物呢。正如iGame RTX 50 Vulcan系列的设计语言,让利刃觉醒,才能披荆斩棘迈向新的时代。
况且目前NVIDIA对于DLSS 4的普及也是势在必行的,首发支持75款游戏和软件。而通过DLSS近几年的普及程度,相信用不了多久,多帧生成也不再是什么黑科技,而是人人都能用上的便捷工具。
最后,Vulcan系列的整体设计,相比其他系列来说,风格逐渐偏向沉稳,而锐利的三角切割装饰,也不时向外展示出绝对的力量感。精于型而修于芯也是对RTX 50 Vulcan显卡的最好诠释。
本次评测的iGame GeForce RTX 5090 D Vulcan OC 32GB以及其他iGame系列显卡,后续都将陆续上架开售,有兴趣的朋友可以关注一下。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有