论文部分内容阅读
2020年10月29日,NVIDIA在Ampere架构显卡全球发布会上首先公布的三款新一代GeForceRTX 30系显卡的最后一位成员-GeForce RTX 3070(后文简称RTX 3070,RTX 3080、RTX 3090同)如期而至。相对于先推出的RTX 3080-卡难求、玩家持币待购的高冷和高高在上“俯视众生”的RTX 3090,首发价格499美金、国内上市酋发价格为3899元起的GeForce RTX 3070显然更接地气。仅比RT×2070SUPER稍高一点的价格,是否真有超越RTX 2080 Ti的表现?这样的RTX 3070,会不会成为新一代的中高端游戏神卡?本期,我们就将用RTX 3070公版及6款非公版产品来一探究竟!
全面超越RTX 2080 Ti
GeForce RTX 3070 FounderSEdition评测解析
复习:NVIIDIA Ampere架构特色
在进行RTX 3080显卡的首发评测时,我们就已经对NIVIDIA新一代的Ampere核心进了详细的解析。作为Ampere架构GPU家族第三名亮相的成员,RTX 3070自然也继承了Ampere架构的所有特色技术,在这里我们来简单地复习—下。我们可以将Ampere架构的核心技术归结为三点(更详细的关于Ampere架构的技术解析,请参考本刊RTX 3080首发评测文章)。
全新的SM模块,CUDA翻倍
SM (Streaming Multi-processer,流式多处理器模块)模块—直是NIVIDIA GPU的计算核心,在新的GA10X核心的Ampere架构上,由于计算任务的变化,GA10X的SM模块也有了巨大的变化。
在之前的图灵SM模块的单个计算单元配置上(4个SM计算单元组成一个SM模块),每个SM模块中的计算单元拥有1个warp调度单元和1个派遣单元,16384 x32bit寄存器、1 6个FP32內核和16个INIT32内核,2个张量核心以及后端的LD/ST单元、特殊功能单元(Special Function Unit,简称SFU)等。
在新的GA10X Ampere SM的计算单元内部,依1日配置了1个warp调度单元和1个派遣单元、16384x32bit寄存器和后端LD/ST、SFU单元,但是在计算的部分却包含了1组16个可自由执行FP32和INIT32计算的双功能计算单元(ALU)-它们既可以完成FP32计算,又可以完成INIT32计算,另外还包含了1组16个FP32计算单元和1个新的第三代张量核心。这样,同为4个SM计算单元组成的SM模块,GA10XAmpere架构拥有等效128个CUDA核心(极致情况下),相当于图灵核心的两倍。
这对游戏性能有什么影响?是的,影响很大。我们知道,图形计算、现代着色器工作负载通常使用FP32算术指令,同时FP32加速也有助于光线追踪降噪着色器。光线追踪渲染工作负载越大,Ampere核心GPU相对于上一代产品的性能提升越大。
第二代RT Core光追核心
图灵架构为游戏引入实时光线追踪,轰动一时,为游戏带来了逼真的光照、图像质量、游戏玩法和沉浸感、阴影和特效,并带来超出想象的游戏画质表现。
Ampere架构的第二代RT Core的性能提升一倍,带来2倍于Turing第一代RT Core的吞吐量,同时支持光线追踪和着色,使光线追踪性能达到全新高度。换而言之,光线追踪使用率越高,速度提升越大!同时第二代RT Core还引入了动态模糊等重要特性。
NVIDIA Ampere架构的RT Core将光线交汇处理速度提高一倍,同时支持光线追踪与着色。光线三角形吞吐量增加一倍,Ampere架构的RT Core可达39.7 RT TFLOPS,Turing架构为23.8 RT TFLOPS,提升巨大。
第三代Tensor Core张量核心
Tensor Core可加速用于深度神经网络处理功能的线性代数,这是现代Al的基础。全新第三代Tensor Core加速AI功能,例如用于Al超分辨率的NIVIDIA DLSS和用于Al增强的声画处理技术NVIDIA Broadcast应用。
从本质上讲,Tensor Core让DLSS能够加快游戏速度,同时带来高画质图像,甚至更细致的图像。借助第三代Tensor Cores的性能,NIVIDIA Ampere架构GPU上的DLSS性能得到进一步增强。伴随Ampere显卡的发售,目前DLSS已经进化到了2.1版本,支持最高9X的游戏帧速率加速,这对于防止在高分辨率下开启光追效果后的游戏帧率下跌有着非常重要的意义。
从规格上来看,RTX 3070完全就是RT×3080的简化版,SM模组降低到了46组,比RTX 3080少了22组,按照NIVIDIA对Ampere核心的CUDA数量定义,每一个SM模组中包含128个CUDA核心(含64个FP32/INT32混合核心)来看,RTX 3070就刚好比RTX 3080少281 6个CUDA核心,也就是为5888个。同样,SM模组少了22个也直接导致RTX 3070在RT Core上也比RT×3080少了22个(22xl),为46个。而在Tensor Core张量核心上,RTX 3070相比RTX 3080则少了88个(22×4),为1 84个。而在显存的配置上,或许是出于对性价比的追求,RTX 3070并没有配置RTX 3090和RTX 3080上使用的高速GDDR6X显存,而仍然为8GB GDDR6,显存速率为14Gbps(等效显存频率7000MHz),相比RTX 3080配置的19Gbps的10GB GDDR6X有一定差距。所以,综合RTX 3070和RTX 3080的规格参数差异来看,初步估计RTX 3070与RTX 3080之间的性能差异大致应该在平均30%上下。 再从命名上看RTX 3070相对于上一代同定位产品的对比。相对于RTX 2070仅有2304个CUDA核心而言,RTX 3070的5888个CUDA核心近乎带来了2.5倍的数量提升,此外在纹理单元、ROPs、RT Gore等参数上也有不小的增幅(详见附表)。不过在显存类型和容量上,RTX 3070则与RTX 2070完全一样。我们知道,对NIVIDIA GeForce GPU来说,CUDA核心数量一直以来都是最为核心与关键的参数,也会对GPU的3D图形性能带来最直接的影响。但同时又必须要指出,对Ampere核心的GPU来说,无论是RTX 3090、RTX 3080还是今天的主角RTX 3070,其CUDA核心数量都是在极限情况下的理论值(也就是SM中的FP32/INIT32混合运算单元全部用于FP32计算时),而在实际应用中几乎不会出现。因此必须要考虑实际应用中CUDA核心数量会在标称值的50%—100%可用的范围内波动,结合之前我们测试的RTX 3080相對于RTX 2080的性能增幅,我们可以保守地估计RTX 3070的性能相对RTX 2070应该会有50%以上的超越或更高。
NIVIDIA在Ampere架构显卡全球首发的时候曾提及RTX 3070的游戏性能将超过RTX 2080 Ti,这到底是不是噱头?其实从规格参数上来看,RTX 3070仅在理论CUDA核心数量上相对于RTX 2080 Ti有明显优势。而在显存、纹理单元、RT Core数量、Tensor Core数量等众多参数上,RTX 3070都不如RTX 2080 Ti。不过考虑到RTX 3070配置的是更先进、执行效率更高的第二代RT Core光追核心和第三代Tensor Core张量核心,因此数量上的损失也未必不能用效率来弥补。同时,理论CUDA核心数量的增幅也有效地弥补了一部分显存等的弱势带来的性能损失。因此,综合来看,RTX 3070的性能超越RTX 2080 Ti是很有可能的,但这个幅度应该不会太大。
RTX 3070赏析,这一代公版Ampere显卡真美
首先来看—下RTX 3070 Founders Edition的真容!在我们看来,无论是RTX 3090、RTX 3080还是这次的RTX 3070,在工艺和外观上设计上,真的是做得太棒了(参考左侧图)!
在风格上,RTX 3070仍然沿袭了RTX 3080与RTX 3090冷酷与时尚并重的浓郁“全金属”风格。金属质感的香槟银配色外框搭配黑色硕大的散热片非常优雅。与RTX 3080和RTX 3090不同的是,RTX 3070采用了正面双风扇的散热设计而不是此前那种前吸后吹的正反双风扇的散热结构。这应该与RTX 3070本身功耗相对较低有直接关系。
到底RTX 3070的性能表现如何?在游戏、创作等各个不同的领域内是否能如NVIDIA所说超越上一代的旗舰RTX 2080 Ti?相对于上一代的对位产品RTX 2070来说,它的性能提升到底有多大?我知道你们都等急了,下面让我们马上进入实际测试。
NVIDIA GeForce RTX 3070产品资料
GPU: NVIDIA GA104-300(GeForce RTX 3070)
CUDA数量:5888个(理论最大值)
Tensor Core:184(第三代)
RT Core: 46(第二代)
显存:8GB GDDR6@14Gbps
TGP功耗:220W
参考价格:3899元
性能实测,意外惊喜超越RTX 2080 Ti
从RT×3070的定位来看,它应该是NIVIDIA在中高端市场上布局的核心产品,毕竟其首发价格仅为3899元,而目前市场上部分高频版的RTX 2070 SUPER都差不多这个价位,更不要提目前仍然在5000元 价位的RT×2080 SUPER了。
我们准备从两个方面去考察RT×3070的性能表现——游戏和NVIDIA倡导的RT×Studio创作性能。在对比测试的显卡选择上,自然是以上一代的对位产品RT×2070为主,同时为了验证RTX 3070是否已经全面超越了RT×2080 Ti,我们也将RT×2080 Ti列入了对比对象的名单。
测试平台
显卡:NVIDIA GeForce RTX 3070 FE、RTX 2070FE、RTX 2080 Ti FE
处理器:Intel酷睿i9-10900K
主板:Intel 2490
内存:芝奇皇家战戟32GB DDR4 3200(双通道)
硬盘:Intel 750 PCle SSD l.2TB
显示器:DELL VP3218K(7680x4320@60Hz)
电源:Tt ToughPower1200W
注:本次RTX 3070公版及非公版产品评测皆为此平台,后文及专题其余评测文章内不再赘述。
首先用3DMark这个公认的显卡3D性能权威测试软件进行显卡的测试毫无疑问,相信大家已经非常熟悉。而在游戏测试部分,我们选择了9款同时支持光追和DLSS的3A级游戏大作、7款不支持光追和DLSS的大型3D游戏以及一款只支持DLSS不支持光追的3D游戏大作来进行综合的测试。我们希望在各种复杂的游戏场景中,通过光追、DLSS和普通游戏这三种典型场景,来检测RTX 3070的综合游戏性能表现。同时,我们考虑到RTX 3070的中高端市场定位,因此在游戏测试部分我们统一不取1080p分辨率的成绩,而使用2.5K(2560 x1440)以及4K《3840×2160)两个分辨率下的测试成绩来进行对比衡量。 3DMark理论成绩
在3DMark Port Royal测试中,RTX 3070居然小负于RTX2080 Ti或许是由于在RT Gore数量上RTX 3070仍有较小的劣势,或者是3DMark目前的Port Royal测试对于第二代光追核心的优化还不是很到位?
除此之外,RT×3070的表现确实非常亮眼——在几乎所有项目的测试中都相对于RTX 2080 Ti有小幅度的性能提升——平均约5%上下。而在與上一代对位显卡RT×2070的比较上,RT×3070相对于前者则表现出了50%—60%的3DMark理论性能成绩的提升。
光追 DLSS双支持游戏测试
在光追与DLSS的支持下,尤其是在改进的、更高效的第二代RT Gore与第三代Tensor Core的支持下,RT×3070的光追游戏性能有怎样的改变?为此,我们也特别选择了9款同时支持实时光线追踪与DLSS的3D游戏大作进行了测试,它们是:《控制》《德军总部:新血脉》《地铁:离去》《堡垒之夜》《边境》《光明记忆:无限》《战地V》《逆水寒
全面超越RTX 2080 Ti
GeForce RTX 3070 FounderSEdition评测解析
复习:NVIIDIA Ampere架构特色
在进行RTX 3080显卡的首发评测时,我们就已经对NIVIDIA新一代的Ampere核心进了详细的解析。作为Ampere架构GPU家族第三名亮相的成员,RTX 3070自然也继承了Ampere架构的所有特色技术,在这里我们来简单地复习—下。我们可以将Ampere架构的核心技术归结为三点(更详细的关于Ampere架构的技术解析,请参考本刊RTX 3080首发评测文章)。
全新的SM模块,CUDA翻倍
SM (Streaming Multi-processer,流式多处理器模块)模块—直是NIVIDIA GPU的计算核心,在新的GA10X核心的Ampere架构上,由于计算任务的变化,GA10X的SM模块也有了巨大的变化。
在之前的图灵SM模块的单个计算单元配置上(4个SM计算单元组成一个SM模块),每个SM模块中的计算单元拥有1个warp调度单元和1个派遣单元,16384 x32bit寄存器、1 6个FP32內核和16个INIT32内核,2个张量核心以及后端的LD/ST单元、特殊功能单元(Special Function Unit,简称SFU)等。
在新的GA10X Ampere SM的计算单元内部,依1日配置了1个warp调度单元和1个派遣单元、16384x32bit寄存器和后端LD/ST、SFU单元,但是在计算的部分却包含了1组16个可自由执行FP32和INIT32计算的双功能计算单元(ALU)-它们既可以完成FP32计算,又可以完成INIT32计算,另外还包含了1组16个FP32计算单元和1个新的第三代张量核心。这样,同为4个SM计算单元组成的SM模块,GA10XAmpere架构拥有等效128个CUDA核心(极致情况下),相当于图灵核心的两倍。
这对游戏性能有什么影响?是的,影响很大。我们知道,图形计算、现代着色器工作负载通常使用FP32算术指令,同时FP32加速也有助于光线追踪降噪着色器。光线追踪渲染工作负载越大,Ampere核心GPU相对于上一代产品的性能提升越大。
第二代RT Core光追核心
图灵架构为游戏引入实时光线追踪,轰动一时,为游戏带来了逼真的光照、图像质量、游戏玩法和沉浸感、阴影和特效,并带来超出想象的游戏画质表现。
Ampere架构的第二代RT Core的性能提升一倍,带来2倍于Turing第一代RT Core的吞吐量,同时支持光线追踪和着色,使光线追踪性能达到全新高度。换而言之,光线追踪使用率越高,速度提升越大!同时第二代RT Core还引入了动态模糊等重要特性。
NVIDIA Ampere架构的RT Core将光线交汇处理速度提高一倍,同时支持光线追踪与着色。光线三角形吞吐量增加一倍,Ampere架构的RT Core可达39.7 RT TFLOPS,Turing架构为23.8 RT TFLOPS,提升巨大。
第三代Tensor Core张量核心
Tensor Core可加速用于深度神经网络处理功能的线性代数,这是现代Al的基础。全新第三代Tensor Core加速AI功能,例如用于Al超分辨率的NIVIDIA DLSS和用于Al增强的声画处理技术NVIDIA Broadcast应用。
从本质上讲,Tensor Core让DLSS能够加快游戏速度,同时带来高画质图像,甚至更细致的图像。借助第三代Tensor Cores的性能,NIVIDIA Ampere架构GPU上的DLSS性能得到进一步增强。伴随Ampere显卡的发售,目前DLSS已经进化到了2.1版本,支持最高9X的游戏帧速率加速,这对于防止在高分辨率下开启光追效果后的游戏帧率下跌有着非常重要的意义。
从规格上来看,RTX 3070完全就是RT×3080的简化版,SM模组降低到了46组,比RTX 3080少了22组,按照NIVIDIA对Ampere核心的CUDA数量定义,每一个SM模组中包含128个CUDA核心(含64个FP32/INT32混合核心)来看,RTX 3070就刚好比RTX 3080少281 6个CUDA核心,也就是为5888个。同样,SM模组少了22个也直接导致RTX 3070在RT Core上也比RT×3080少了22个(22xl),为46个。而在Tensor Core张量核心上,RTX 3070相比RTX 3080则少了88个(22×4),为1 84个。而在显存的配置上,或许是出于对性价比的追求,RTX 3070并没有配置RTX 3090和RTX 3080上使用的高速GDDR6X显存,而仍然为8GB GDDR6,显存速率为14Gbps(等效显存频率7000MHz),相比RTX 3080配置的19Gbps的10GB GDDR6X有一定差距。所以,综合RTX 3070和RTX 3080的规格参数差异来看,初步估计RTX 3070与RTX 3080之间的性能差异大致应该在平均30%上下。 再从命名上看RTX 3070相对于上一代同定位产品的对比。相对于RTX 2070仅有2304个CUDA核心而言,RTX 3070的5888个CUDA核心近乎带来了2.5倍的数量提升,此外在纹理单元、ROPs、RT Gore等参数上也有不小的增幅(详见附表)。不过在显存类型和容量上,RTX 3070则与RTX 2070完全一样。我们知道,对NIVIDIA GeForce GPU来说,CUDA核心数量一直以来都是最为核心与关键的参数,也会对GPU的3D图形性能带来最直接的影响。但同时又必须要指出,对Ampere核心的GPU来说,无论是RTX 3090、RTX 3080还是今天的主角RTX 3070,其CUDA核心数量都是在极限情况下的理论值(也就是SM中的FP32/INIT32混合运算单元全部用于FP32计算时),而在实际应用中几乎不会出现。因此必须要考虑实际应用中CUDA核心数量会在标称值的50%—100%可用的范围内波动,结合之前我们测试的RTX 3080相對于RTX 2080的性能增幅,我们可以保守地估计RTX 3070的性能相对RTX 2070应该会有50%以上的超越或更高。
NIVIDIA在Ampere架构显卡全球首发的时候曾提及RTX 3070的游戏性能将超过RTX 2080 Ti,这到底是不是噱头?其实从规格参数上来看,RTX 3070仅在理论CUDA核心数量上相对于RTX 2080 Ti有明显优势。而在显存、纹理单元、RT Core数量、Tensor Core数量等众多参数上,RTX 3070都不如RTX 2080 Ti。不过考虑到RTX 3070配置的是更先进、执行效率更高的第二代RT Core光追核心和第三代Tensor Core张量核心,因此数量上的损失也未必不能用效率来弥补。同时,理论CUDA核心数量的增幅也有效地弥补了一部分显存等的弱势带来的性能损失。因此,综合来看,RTX 3070的性能超越RTX 2080 Ti是很有可能的,但这个幅度应该不会太大。
RTX 3070赏析,这一代公版Ampere显卡真美
首先来看—下RTX 3070 Founders Edition的真容!在我们看来,无论是RTX 3090、RTX 3080还是这次的RTX 3070,在工艺和外观上设计上,真的是做得太棒了(参考左侧图)!
在风格上,RTX 3070仍然沿袭了RTX 3080与RTX 3090冷酷与时尚并重的浓郁“全金属”风格。金属质感的香槟银配色外框搭配黑色硕大的散热片非常优雅。与RTX 3080和RTX 3090不同的是,RTX 3070采用了正面双风扇的散热设计而不是此前那种前吸后吹的正反双风扇的散热结构。这应该与RTX 3070本身功耗相对较低有直接关系。
到底RTX 3070的性能表现如何?在游戏、创作等各个不同的领域内是否能如NVIDIA所说超越上一代的旗舰RTX 2080 Ti?相对于上一代的对位产品RTX 2070来说,它的性能提升到底有多大?我知道你们都等急了,下面让我们马上进入实际测试。
NVIDIA GeForce RTX 3070产品资料
GPU: NVIDIA GA104-300(GeForce RTX 3070)
CUDA数量:5888个(理论最大值)
Tensor Core:184(第三代)
RT Core: 46(第二代)
显存:8GB GDDR6@14Gbps
TGP功耗:220W
参考价格:3899元
性能实测,意外惊喜超越RTX 2080 Ti
从RT×3070的定位来看,它应该是NIVIDIA在中高端市场上布局的核心产品,毕竟其首发价格仅为3899元,而目前市场上部分高频版的RTX 2070 SUPER都差不多这个价位,更不要提目前仍然在5000元 价位的RT×2080 SUPER了。
我们准备从两个方面去考察RT×3070的性能表现——游戏和NVIDIA倡导的RT×Studio创作性能。在对比测试的显卡选择上,自然是以上一代的对位产品RT×2070为主,同时为了验证RTX 3070是否已经全面超越了RT×2080 Ti,我们也将RT×2080 Ti列入了对比对象的名单。
测试平台
显卡:NVIDIA GeForce RTX 3070 FE、RTX 2070FE、RTX 2080 Ti FE
处理器:Intel酷睿i9-10900K
主板:Intel 2490
内存:芝奇皇家战戟32GB DDR4 3200(双通道)
硬盘:Intel 750 PCle SSD l.2TB
显示器:DELL VP3218K(7680x4320@60Hz)
电源:Tt ToughPower1200W
注:本次RTX 3070公版及非公版产品评测皆为此平台,后文及专题其余评测文章内不再赘述。
首先用3DMark这个公认的显卡3D性能权威测试软件进行显卡的测试毫无疑问,相信大家已经非常熟悉。而在游戏测试部分,我们选择了9款同时支持光追和DLSS的3A级游戏大作、7款不支持光追和DLSS的大型3D游戏以及一款只支持DLSS不支持光追的3D游戏大作来进行综合的测试。我们希望在各种复杂的游戏场景中,通过光追、DLSS和普通游戏这三种典型场景,来检测RTX 3070的综合游戏性能表现。同时,我们考虑到RTX 3070的中高端市场定位,因此在游戏测试部分我们统一不取1080p分辨率的成绩,而使用2.5K(2560 x1440)以及4K《3840×2160)两个分辨率下的测试成绩来进行对比衡量。 3DMark理论成绩
在3DMark Port Royal测试中,RTX 3070居然小负于RTX2080 Ti或许是由于在RT Gore数量上RTX 3070仍有较小的劣势,或者是3DMark目前的Port Royal测试对于第二代光追核心的优化还不是很到位?
除此之外,RT×3070的表现确实非常亮眼——在几乎所有项目的测试中都相对于RTX 2080 Ti有小幅度的性能提升——平均约5%上下。而在與上一代对位显卡RT×2070的比较上,RT×3070相对于前者则表现出了50%—60%的3DMark理论性能成绩的提升。
光追 DLSS双支持游戏测试
在光追与DLSS的支持下,尤其是在改进的、更高效的第二代RT Gore与第三代Tensor Core的支持下,RT×3070的光追游戏性能有怎样的改变?为此,我们也特别选择了9款同时支持实时光线追踪与DLSS的3D游戏大作进行了测试,它们是:《控制》《德军总部:新血脉》《地铁:离去》《堡垒之夜》《边境》《光明记忆:无限》《战地V》《逆水寒