2 月 9 日消息,YouTube 频道 Compusemble 对英伟达的 RTX 神经纹理压缩(NTC)技术进行了基准测试,展示了该技术在实际 3D 工作负载中的强大能力。测试结果显示,与传统纹理压缩技术相比,RTX NTC 技术能够将纹理内存大小大幅降低 96%。
注意到,Compusemble 在 RTX 4090 显卡上分别以 1440p 和 4K 分辨率对 NTC 技术进行了测试。测试分为两种模式:“NTC 转码为 BCn”和“样本推理”。其中,“NTC 转码为 BCn”模式会在加载时将纹理转码为 BCn 格式;而“样本推理”模式则仅对渲染特定视图所需的单个 texel 进行解压缩,从而进一步减少纹理内存大小。
在 1440p 分辨率下,当启用 DLSS 超分功能时,“NTC 转码为 BCn”模式将测试应用的纹理内存占用从 272MB 降低至 98MB,减少了 64%。而“样本推理”模式则将纹理大小降至仅 11.37MB,与非神经压缩技术相比,内存占用减少了 95.8%,与之前的神经压缩模式相比减少了 88%。
不过,启用 RTX 神经纹理压缩技术后,性能会受到一定影响。尽管如此,由于测试使用的是上一代 RTX 4090 显卡,而非最新的 RTX 5090 显卡,因此随着新一代架构的推出,性能损失可能会有所减少。
在“NTC 转码为 BCn”模式下,平均 FPS 与未启用 NTC 时相比几乎没有变化。而“样本推理”模式的性能下降最为明显,FPS 从 1600 多帧的中等水平降至 1500 多帧的中等水平,1% 的低值更是大幅降至 840 帧左右。
当使用 TAA 抗锯齿而非 DLSS 超分时,内存容量的减少情况与 DLSS 相同,但 GPU 的性能表现有所不同。三种模式的运行速度都明显快于 DLSS,FPS 接近 2000 帧。在“样本推理”模式下,1% 的低值达到 1300 多帧,比 840 帧有了显著提升。
将分辨率提升至 4K 后,性能显著下降。启用 DLSS 超分功能时,“NTC 转码为 BCn”模式的平均 FPS 在 1100 帧左右,“样本推理”模式的平均 FPS 则略低于 1000 帧,两种模式的 1% 低值都在 500 帧左右。
而关闭 DLSS,改用原生分辨率搭配 TAA 抗锯齿时,“NTC 转码为 BCn”模式的平均 FPS 提升至 1700 帧左右,“样本推理”模式的平均 FPS 在 1500 帧左右。前者的 1% 低值略低于 1100 帧,后者的 1% 低值略低于 800 帧。
此外,Compusemble 还在 4K 分辨率下,针对“样本推理”模式测试了协同向量功能。启用协同向量时,平均帧率在 1500 帧左右;关闭协同向量时,平均 FPS 急剧下降至略低于 650 帧。1% 的低值在启用协同向量时略低于 750 帧,关闭时略高于 400 帧。
Compusemble 的基准测试表明,英伟达的神经压缩技术能够在大幅减少 3D 应用纹理内存占用的同时,以牺牲一定性能为代价,尤其是在“样本推理”模式下。
RTX 神经纹理压缩技术已经开发了至少几年时间。这项新技术利用现代英伟达 GPU 中的张量核心来压缩 3D 应用和游戏纹理,而非传统的块截断编码。RTX NTC 是自 1990 年代以来纹理压缩技术的首次重大升级,能够支持比当前 GPU 运行的纹理分辨率高出四倍的纹理。
目前,RTX NTC 技术仍处于测试阶段,尚未确定发布日期。有趣的是,其最低硬件要求似乎并不高。英伟达在 GitHub 上的 RTX NTC 页面确认,最低 GPU 要求是 RTX 20 系列显卡。此外,该技术还已在 GTX 10 系列显卡、AMD Radeon RX 6000 系列显卡以及 Arc A 系列显卡上得到验证,这意味着未来该技术有望在非 RTX 显卡甚至游戏主机上得到广泛应用。