NVIDIA GeForce RTX 4070 SUPER评测：游戏创作两手抓，性能升级不涨价

更新时间：2024-01-17 09:31:59作者：kzmyhome

2024年1月8日，在CES电子消费展上。NVIDIA发布了具有高性能生成式AI功能的GeForce RTX 40 SUPER桌面端显卡，包括有RTX 4080 SUPER，RTX 4070Ti SUPER，RTX 4070 SUPER。

GeForce RTX 40 SUPER GPU是AI PC核心，可以为游戏提供超强的动力，也是目前在PC上体验AI的最佳方式。用AI Tensor Core可提供高达836 AI TOPS，以及高达52 SHADER TFLOPS、121 RT TFLOPS和836 AI TOPS，无论是游戏、创作亦或是日常生活都能拥有革命性进步。

知道大家都很好奇，但是我们先来看一下外观。

NVIDIA GeForce RTX 4070 SUPER评测：游戏创作两手抓，性能升级不涨价

外观：

NVIDIA GeForce RTX 4070 SUPER的包装依旧是一个长方体，将其展开后，里面是显卡本体，还是那么的酷炫。外观延续了FE卡的常规风格，纯黑的颜色配合包装上散射的线条，却十分耀眼。

正反面双风扇设计，每一面只能看到一个外露的风扇，散热鳍片上都有哑光涂层，所以触感有些不同。而显卡的外壳部分，采用了大面积的金属包裹，与RTX 4070相比，这次的标识并没有做颜色区分，而是进行雕刻，显得更加高级。

显卡背面有着大面积哑光涂层的散热鳍片。为了更好的散热采用双风扇双轴流式设计，风扇为一前一后。这样设计可以吸入外部的冷空气，流经GPU，并将热空气直接从机箱背部排出。另一个背面拉动式风扇同样吸入冷空气，但流经热管上的散热鳍片，并通过机箱整体的散热系统引导至机箱背部排出，更为重要的是非常安静。

测试环境：

我们搭建了如下测试环境。

性能：

从参数上来看，NVIDIA GeForceRTX 4070 SUPER，7168个流处理器，光栅单元224颗，纹理单元80颗，位宽192bit、带宽504GB/s，基础频率1313MHz，加速频率2475MHz，TGP220W。与RTX4070 12GB相比，5888个流处理器，光栅单元184颗，纹理单元64颗，TGP功耗200W。RTX 4070 SUPER增加了1280个CUDA核心，功耗上涨了20W，整体规格涨幅21.7%。

GeForceRTX 4070 SUPER使用NVIDIA Ada Lovelace架构，它涵盖了如下创新技术：

（1）全新流式单元处理器（SM）可以提供高达2倍的性能和功耗效率。

（2）第四代张量核心（Tensor Core）能实现和加速变革性AI技术，我们熟知的DLSS 3的帧生成技术就得益于它。

（3）第三代光线追踪核心（RT Core），有着高达2倍的光线追踪性能，提供令人难以置信的细节，带玩家前往前所未有的虚拟世界。

（4）着色器执行重新排序（SER）将光线追踪操作提高了2倍。

（5）拥有48MB的 L2缓存，提供更好的性能、减少内存总线流量和更高的能效。相比RTX 4070多了12MB的L2缓存

（6）DLSS 3.5，AI驱动图形的革命性突破，可大幅提升性能，并通过神经渲染提升光线追踪质量，带来极为逼真的画面。

（7）全新的第八代NVENC编码器，支持AV1，有效提升了生产力方面的表现，对于创作型用户、游戏主播等群体来说更是如虎添翼。

我们使用3DMark进行了几项常规测试，并与RTX 3070来进行对比。

在与RTX 3070的对比中，不难发现每一项测试RTX 4070 SUPER都碾压，在整体数据上，平均提升有40%。仅仅是数据上就有如此大的差距，如果在游戏中进行实测，开启DLSS 3等黑科技后，恐怕要甩开3070好几条街。

我们使用Furmark进行十五分钟左右的烤机，显卡平均温度在61度，功率保持在220W。又强大又节能。

待机时，显卡温度30度左右，待机功耗约为11W。

NVIDIA的DLSS技术本质是通过深度学习算法将单帧的低分辨率提升成高分辨率，让游戏帧率获得大幅度提升。DLSS 3在超分辨率、DLAA的基础上增加了帧生成技术：利用AI技术生成更多的帧，以进一步提高性能。当我们在游戏中开启DLSS 3后，游戏渲染分辨率降低，运算压力也就变小了，AI就会智能的根据当前的图像以及之前渲染好的图像，自动运算构建出在高分辨率下的画面。

目前已经有超过500款游戏和应用支持NVIDIA RTX技术，RTX游戏玩家每周花费8700万小时玩光追游戏，其中97%的时间都是在玩《赛博朋克2077》.我们也期待未来有越来越多的游戏支持这项技术。

我们挑选了一些游戏在1440p2k分辨率下进行测试，即使是在最高画质下，也有众多游戏超过了超过了100帧。在开启DLSS3后与RTX 3070相比，涨幅翻了一倍，有些游戏甚至更多。

目前DLSS已经升级到了3.5，主要是针对光追游戏，增加了光线重建技术，这个AI模型可以进一步提升密集型光追游戏和应用的光线追踪图像。光线重建将此前人工设计的图形降噪器替换成了经过NVIDIA超级计算器训练的AI网络。光线重建可以从训练数据中识别光照模式，例如全局光照或环境光遮蔽的光照模式，其最终效果比需要人工设计的降噪器更出色。

《赛博朋克2077》就是一款支持DLSS 3.5的游戏，我们开启和关闭光线重建来进行对比。这是一处水塘，正好反射出了一块霓虹广告牌，在没有开启DLSS3.5时，水面上非常模糊，几乎看不清楚广告上面的字。而开启后，则是非常清晰，游戏体验拉满。

《心灵杀手2》也支持DLSS3.5，地面上阳光照射在建筑物上的倒影，通过肉眼我们能明显的看出光线重建开关的区别。没开时，地上的阴影就是一团黑，而开启后建筑的轮廓和边缘能清晰的分辨。

NVIDIA Reflex技术普遍运用在FPS游戏上，这一技术主要是同步GPU和CPU，通过删除CPU到GPU之间的渲染队列，优化响应速度并降低系统延迟。它包含两项技术：一项是Reflex低延迟模式，用于缩短游戏中的系统延迟，以帮助玩家提升竞技表现；另一项是 Reflex分析器，用于轻松快速地测量系统延迟。

我们可以在FPS游戏内将NVIDIA Reflex设置为开启+增强，我们也是选择了几款热门FPS游戏如《Apex英雄》,《无畏契约》进行测试。

1%low帧是将帧数进行从大到小排序，取最后1%范围内的平均。可以发现它还是比较接近平均帧的，说明跳帧幅度很小。PC性能延迟也都都在20ms左右，在竞技游戏中能更好的展现水准。

除了游戏方面，在STUDIO创作，SUPER系列也迎来了重大提升。包括视频剪辑，3D渲染和AIGC等多方面多领域都受益匪浅。

使用Blender Open Data benchmark进行测试，它会自动渲染官方支持的Blender基准测试场景，并显示其渲染时间。他有三项测试，monster，junkshop和classroom，成绩分别为3159，1520，1590个样本每分钟。

OctaneRender是一个公正且准确的GPU渲染引擎，能够利用NVIDIA的CUDA和RTX系列GPU为创作者提供快速、高质量的渲染输出。OctaneRender可用于所有创作3D软件。该基准测试将测量4个单独场景的渲染性能，每个场景使用3个不同的OctaneRender、Info Channels、Direct Lighting和Path Tracing中的渲染选项。

GeForce RTX 40系列GPU使用第八代NVENC为AV1视频编码器提供硬件加速编码功能。AV1与H.265/H.264在相同的比特率下可以提供更好的视觉质量，在画面质量相同的情况下使用AV1，比特率会更低，文件大小更小，视频上传更快。除了添加AV1编码支持外，40系列GPU还具有生成改进功能用于H.265（HEVC）编码的NVENC。

在达芬奇18.6版本上就可以选择AV1作为编解码器。我们尝试渲染导出了8k30帧和4k30帧，时长为44秒的视频，来对比AV1和H.265两个编码器的速度。在4k30fps下，AV1比H.265快7秒，8k30fps下则快了10s。

在斗鱼上观看直播也有AV1和H.264两种编解码器，在4k 60fps、10 Mbps体验一下两者的视觉质量。不难看出AV1下观看直播，视频会高清非常多，H.264则模糊不清。

ON1 Resize A是图片无损放大软件软件，搭载最先进的神经网络和领先的AI人工智能技术以及全新的超分辨率技术。原本一张6M的照片在放大后变成了30M，下图是我们将两张图片放大3倍，可以直观的图像并没有任何失真，色彩过渡自然，根本看不出这是经过放大过后的图片。

D5渲染器是一款基于实时光线追踪技术的3D渲染软件，支持多种模型、材质和光源。它也融合了最新的NVIDIA DLSS 3.5技术，例如DLSS光线重建以及现有的DLSS技术，例如DLSS超分辨率，以及DLSS帧生成。

我们渲染了一段视频并通过开启或关闭DLSS来观察帧率的变化。在开启DLSS后平均帧率翻了3倍，1%low帧与平均帧的差值也减少了。

接下来我们再来看一下开启或者关闭光线重建画面会有什么样的变化。第一张椅子脚的照片，可以看到关闭光线重建，噪点肉眼可见。第二张是桌子对窗外景色的反射，光线重建未开启时噪点依旧非常明显，而且画面比较模糊。反观两幅图在开启光线重建后噪点大幅度减少了画面也清晰了。

RTX VSR是一种AI技术用于提升视频播放质量上，在NVIDIA控制面板中，我们可以打开RTX视频增强，同时也有1、2、3、4四个挡位可以调节。1是最低，4是最高。

我们也是打开斗鱼观看了一段视频，开启RTX VSR后画面的变化还是比较明显的，清晰度有了质的变化。

Stable diffusion一种潜在扩散模型，能够从文本描述中生成详细的图像。它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。首先我们测试了在标准Automatic1111中Tensor RT SDXL，来生成大小为1024×1024的图片。耗时2分钟，经计算每分钟5张图片。

测试在标准Automatic1111中TensorRT图片大小为512x512使用Stable Diffusion SDv1.5，耗时23秒，经过计算每分钟26张图片。

在标准Automatic1111进行比较1024×1024的SDXL，耗时4分6秒，每分钟2.43张图片，512×512的SDv1.5，耗时43.8秒，每分钟13.69张图片。

仅限SD v1.5使用更高的批量大小测试TensorRT性能，512×512大小但是批量大小从1改为2，耗时1分20秒，每分钟12张图片。

仅限SD v1.5在标准Automatic1111中测试TensorRT的性能，图片大小为768x768，其他同上，耗时4分13秒，每分钟4.74张图片。

在SD测试上，我们在使用和关闭TensorRT加速时进行对比，无论是1024×1024还是512×512大小的照片，每分钟生成的照片都翻了一倍。NVIDIA为RTX 4070 SUPER带来了全新的生成式AI，将AI应用的浪潮推向了PC，也将这张显卡的受众拓展到了更加广泛的领域，建模师，剪辑等等职业都非常适合。

总结：

这也是第一次出现以SUPER结尾的显卡，RTX 4070 SUPER也成为了第一个吃螃蟹的。一开始或许有些疑惑和费解，是非对得起“SUPER”超级这个词。不过不论是从游戏上，还是大量创作，生产力上的测试，不难发现RTX 4070 SUPER在生成式AI的帮助下，有着很大成就。面对游戏发烧友、主播、艺术创作者、视频剪辑、美工渲染等行业用户，去使用70s一定会带来事半功倍的效果。关键是加量不加价，价格和RTX 4070相一致，性价比极高。

英伟达GeForce RTX 40 Super系列现已上市，请到京东DIY Super超能年货节上选购GeForce RTX 4070 Super/80 Super 公版和合作伙伴显卡。