论文部分内容阅读
NVIDIA产品在2011年的表现可谓顺风顺水,无论在桌面还是移动平台上,市场份额、营收、利润等都有比较不错的表现。不过在2011年底,AMD抢先发布的Radeon HD 7970似乎给NVIDIA当头一棒,抢走了不少风头。经过大约3个月的蛰伏后,NVIDIA也终于开启了自己的28nm时代,全新开普勒架构正式发布,NVIDIA带给了用户一款功耗更低、晶体管更少、核心更小、功能更多、性能更强大的产品——GeForce GTX 680。
提升性能功耗比——开普勒家族首次出击
开普勒架构代号早在2010年就已经曝光,但发布之前外界对这款架构的各种参数基本上一无所知。从实际发布的情况来看,开普勒相对之前的Fermi(费米)架构做出了极大的改进。费米架构在DirectX 11的支持以及通用计算性能、包括双精度性能方面拥有相当优秀的表现。但是费米架构的缺点也比较明显,那就是每瓦特性能不高,功耗较大,这在实际产品中表现也比较明显,大部分N卡的功耗都会比同档次的A卡高出不少,性能功耗比甚至只有对手的70%。
因此,NVIDIA在开普勒架构上的重点在于提升性能功耗比,NVIDIA表示,开普勒的每瓦特双精度浮点性能将比前代产品提升2倍左右。为了达到这个目标,NVIDIA重新设计了开普勒的架构,在内部CUDA核心上作出彻底的重制,放弃了之前的SM核心,改为全新设计的SMX核心。
SM核心是之前的费米架构产品的基本结构。一个SM结构基本囊括了GPU中主要的功能,是NVIDIA设计GPU的最小功能模块。在确定了SM结构后,NVIDIA就可以分别开启或者关闭、添加或者删除SM模块来获得不同性能档次的产品。在开普勒架构中,SM升级到了SMX,但是基本结构依旧没有变化。比如GK104中有8个SMX,与此相对的是GF114中也有8个SM。但是SMX中CUDA Core的数量大幅度增加,之前的GF114每个SM中只有48个CUDA Core,但是新的SMX大幅度增加到了192个,数量是前代产品的4倍。
目前NVIDIA没有具体说明新的CUDA Core内部结构如何,但是从各种消息来看,新的CUDA Core应该完全不同于过去。传统的CUDA Core中每一个都拥有完整的FPU和ALU,也拥有相应的指令分派设计,新的CUDA Core应该很难在晶体管规模增长有限的情况下做到大幅度提升CUDA Core数量的设计,因此肯定内部做出了大幅度精简设计并增加了计算单元的规模。
除此之外,仅从架构图来看,开普勒在宏观架构上相比费米没有做出太大幅度的改善。不过从G80开始直到到GT200,然后到费米,NVIDIA的宏观架构层面已经相当优秀,开普勒予以沿用也是正常的。
目前开普勒家族只有一款产品,也就是GeForce GTX680。这款显卡拥有1536个CUDA核心,GPU基准频率为1006MHz,Boost频率平均值为1058MHz(最大达到1200MHz)。GeForce GTX680的使用GK104芯片,拥有35亿晶体管,核心面积294平方毫米,浮点运算能力为3.09TFLOPS。显存方面,显存位宽256bit,频率高达6008MHz,显存容量则维持比较传统的2GB。TDP满载功耗最高只有195W,供电使用6+6pin接口。外接方面,这款显卡支持三屏输出,单卡可以支持三屏幕同时显示,也支持3D Vision Surround技术,也算是NVIDIA对AMD的Eyefinity的正式回击。
自动频率调节是亮点——GPU性能发展新方向
传统的GPU频率除了分为2D、3D、视频播放等频率外,在最高频率上一般是固定的。也就是说频率无法自动调整上限。实际上GPU在运行的过程中,很难达到TDP上限。GPU作为一颗庞大的芯片,内部并非时时刻刻所有部件都处于满载状态,因此在实际游戏运行中,GPU本身热量功耗要比TDP值低不少。在这种情况下可以考虑略微提升GPU频率来获得更强性能同时又不会超出TDP上限。
这就是开普勒上GPU Boost技术的原理。根据NVIDA说明,开普勒GPU存在基础频率和Boost频率两种。其中GeForce GTX680的基础频率为1006MHz,Boost频率不定,但是基本都会在1058MHz附近浮动。实际上在运行中GeForce GTX680的频率也会超出1058MHz不少,甚至达到1200MHz。目前开普勒的GPU Boost属于第一代智能频率调节技术,性能和频率调节幅度并不大。不过意义非常明显,自动调节频率属于有效使用能源的一种方法,在控制功耗范围内给用户更好的效能。
全新的垂直同步和抗锯齿技术
垂直同步技术用于保证画面稳定性,降低画面撕裂非常有效。不过垂直同步技术在使用时也存在一定缺陷,这就是在游戏帧数低于60帧时,会发生图像顿挫等现象。NVIDIA开发了新的自适应垂直同步技术,在图像帧数低于60帧和高于60帧时,让帧数变动不会大起大落,而是平滑流畅。此外,NVIDIA还添加了30帧作为“半垂直同步”,在一些要求不高的RTS、MMPRPG游戏中,30帧不但可以保证画面流畅稳定,还能在一定程度上节约能耗。
此外,NVIDIA又给出了全新的TXAA技术,号称能在2XMSAA的资源消耗下,达到8XMSAA的效果,或者在4XMSAA的资源消耗下远超8XMSAA的效能。全新的TXAA很快会在大量新的游戏引擎和大作中施展拳脚。
性能和功耗双惊喜——GeForce GTX 680轻取AMD
根据NVIDIA官方资料和部分实测,GeForce GTX680在1080p分辨率下相比AMD Radeon HD7970有大约10%~15%的性能领先幅度,部分游戏中甚至会超过30%,当分辨率进一步提高到2560×1600后,GeForce GTX680依旧保持10%左右的领先。总的来看,GeForce GTX680非常优秀地完成了自己的任务,对AMD的新品形成了有力阻击。和性能提升不同的是,GeForce GTX680在功耗控制方面令人惊讶。整机满载功耗比使用Radeon HD7970的产品还要低10~20W,在温度方面表现虽然没有特别的亮点,但公版噪音控制极好,除了满载时略微有一些风声外,基本不存在噪音吵人的问题。
NVIDIA的野望
没错,这颗芯片拥有太多令人惊喜的地方,强大的性能、GPU频率自动调节、较低的功耗、超高的能耗比表现、特色的TXAA以及自适应垂直同步等,都是显卡发展上的新里程碑。不过这并不是终点,GK104是一颗定位于游戏玩家和主流市场的产品,它的双精度浮点性能等还不够令用户特别是专业用户满意。因此NVIDIA还将继续推出GK110,这颗巨无霸的芯片在幕后已经开始摩拳擦掌,随时可能出现,然后给市场更强烈的震动。
提升性能功耗比——开普勒家族首次出击
开普勒架构代号早在2010年就已经曝光,但发布之前外界对这款架构的各种参数基本上一无所知。从实际发布的情况来看,开普勒相对之前的Fermi(费米)架构做出了极大的改进。费米架构在DirectX 11的支持以及通用计算性能、包括双精度性能方面拥有相当优秀的表现。但是费米架构的缺点也比较明显,那就是每瓦特性能不高,功耗较大,这在实际产品中表现也比较明显,大部分N卡的功耗都会比同档次的A卡高出不少,性能功耗比甚至只有对手的70%。
因此,NVIDIA在开普勒架构上的重点在于提升性能功耗比,NVIDIA表示,开普勒的每瓦特双精度浮点性能将比前代产品提升2倍左右。为了达到这个目标,NVIDIA重新设计了开普勒的架构,在内部CUDA核心上作出彻底的重制,放弃了之前的SM核心,改为全新设计的SMX核心。
SM核心是之前的费米架构产品的基本结构。一个SM结构基本囊括了GPU中主要的功能,是NVIDIA设计GPU的最小功能模块。在确定了SM结构后,NVIDIA就可以分别开启或者关闭、添加或者删除SM模块来获得不同性能档次的产品。在开普勒架构中,SM升级到了SMX,但是基本结构依旧没有变化。比如GK104中有8个SMX,与此相对的是GF114中也有8个SM。但是SMX中CUDA Core的数量大幅度增加,之前的GF114每个SM中只有48个CUDA Core,但是新的SMX大幅度增加到了192个,数量是前代产品的4倍。
目前NVIDIA没有具体说明新的CUDA Core内部结构如何,但是从各种消息来看,新的CUDA Core应该完全不同于过去。传统的CUDA Core中每一个都拥有完整的FPU和ALU,也拥有相应的指令分派设计,新的CUDA Core应该很难在晶体管规模增长有限的情况下做到大幅度提升CUDA Core数量的设计,因此肯定内部做出了大幅度精简设计并增加了计算单元的规模。
除此之外,仅从架构图来看,开普勒在宏观架构上相比费米没有做出太大幅度的改善。不过从G80开始直到到GT200,然后到费米,NVIDIA的宏观架构层面已经相当优秀,开普勒予以沿用也是正常的。
目前开普勒家族只有一款产品,也就是GeForce GTX680。这款显卡拥有1536个CUDA核心,GPU基准频率为1006MHz,Boost频率平均值为1058MHz(最大达到1200MHz)。GeForce GTX680的使用GK104芯片,拥有35亿晶体管,核心面积294平方毫米,浮点运算能力为3.09TFLOPS。显存方面,显存位宽256bit,频率高达6008MHz,显存容量则维持比较传统的2GB。TDP满载功耗最高只有195W,供电使用6+6pin接口。外接方面,这款显卡支持三屏输出,单卡可以支持三屏幕同时显示,也支持3D Vision Surround技术,也算是NVIDIA对AMD的Eyefinity的正式回击。
自动频率调节是亮点——GPU性能发展新方向
传统的GPU频率除了分为2D、3D、视频播放等频率外,在最高频率上一般是固定的。也就是说频率无法自动调整上限。实际上GPU在运行的过程中,很难达到TDP上限。GPU作为一颗庞大的芯片,内部并非时时刻刻所有部件都处于满载状态,因此在实际游戏运行中,GPU本身热量功耗要比TDP值低不少。在这种情况下可以考虑略微提升GPU频率来获得更强性能同时又不会超出TDP上限。
这就是开普勒上GPU Boost技术的原理。根据NVIDA说明,开普勒GPU存在基础频率和Boost频率两种。其中GeForce GTX680的基础频率为1006MHz,Boost频率不定,但是基本都会在1058MHz附近浮动。实际上在运行中GeForce GTX680的频率也会超出1058MHz不少,甚至达到1200MHz。目前开普勒的GPU Boost属于第一代智能频率调节技术,性能和频率调节幅度并不大。不过意义非常明显,自动调节频率属于有效使用能源的一种方法,在控制功耗范围内给用户更好的效能。
全新的垂直同步和抗锯齿技术
垂直同步技术用于保证画面稳定性,降低画面撕裂非常有效。不过垂直同步技术在使用时也存在一定缺陷,这就是在游戏帧数低于60帧时,会发生图像顿挫等现象。NVIDIA开发了新的自适应垂直同步技术,在图像帧数低于60帧和高于60帧时,让帧数变动不会大起大落,而是平滑流畅。此外,NVIDIA还添加了30帧作为“半垂直同步”,在一些要求不高的RTS、MMPRPG游戏中,30帧不但可以保证画面流畅稳定,还能在一定程度上节约能耗。
此外,NVIDIA又给出了全新的TXAA技术,号称能在2XMSAA的资源消耗下,达到8XMSAA的效果,或者在4XMSAA的资源消耗下远超8XMSAA的效能。全新的TXAA很快会在大量新的游戏引擎和大作中施展拳脚。
性能和功耗双惊喜——GeForce GTX 680轻取AMD
根据NVIDIA官方资料和部分实测,GeForce GTX680在1080p分辨率下相比AMD Radeon HD7970有大约10%~15%的性能领先幅度,部分游戏中甚至会超过30%,当分辨率进一步提高到2560×1600后,GeForce GTX680依旧保持10%左右的领先。总的来看,GeForce GTX680非常优秀地完成了自己的任务,对AMD的新品形成了有力阻击。和性能提升不同的是,GeForce GTX680在功耗控制方面令人惊讶。整机满载功耗比使用Radeon HD7970的产品还要低10~20W,在温度方面表现虽然没有特别的亮点,但公版噪音控制极好,除了满载时略微有一些风声外,基本不存在噪音吵人的问题。
NVIDIA的野望
没错,这颗芯片拥有太多令人惊喜的地方,强大的性能、GPU频率自动调节、较低的功耗、超高的能耗比表现、特色的TXAA以及自适应垂直同步等,都是显卡发展上的新里程碑。不过这并不是终点,GK104是一颗定位于游戏玩家和主流市场的产品,它的双精度浮点性能等还不够令用户特别是专业用户满意。因此NVIDIA还将继续推出GK110,这颗巨无霸的芯片在幕后已经开始摩拳擦掌,随时可能出现,然后给市场更强烈的震动。