论文部分内容阅读
前不久,NVIDIA基本上完成了GeForce GTX 400系列产品的更新,而AMD则在更早一些时候就已经完成了Radeon HD 5000全系列产品的部署。于是,3D显卡再次进入了一个新旧更替的时期。这种状态的市场上,一般是产品最为丰富的时候——新产品仍在铺货,旧产品仍有剩余库存。加上之前显卡厂商们对于成熟产品的不断调整、二次开发,市场上的3D显卡可谓品种丰富,花样繁多。
其实对于芯片厂商而言,一般来说并不会希望这种过渡期太长。这是一个淘汰产品的时段。这段时间内,用户对性价比的定义会凸显出来,当年的GeForce MX440就是历经了数个时代才被淘汰的典型——虽然它的架构已经过时,性能相对于新产品来说也不能说好。但是对于用户来说,GeForceMX440毫无疑问是性价比最高的产品。有需求,自然就有市场。不过厂商并不喜欢这样,毕竟新产品才有更多的利润。
所以对于厂商来说,过渡期越短越好,如果有一款“长卖”的产品也未尝不可,但最好还是整个市场快速切换到新平台、新产品上来。这也是GeForce 8800GT历经数次改进,数次名称更迭的主要原因——虽然它是一款性价比极高的产品,但厂商并不希望它变成当年的GeForce MX440。“买什么显卡好呢?”“GeForce 8800GT呀!”这样的对话绝对不利于新产品的发展。所以宁可让产品换一个名字重新上市,也不能让一款产品拖了全线产品的后腿。
毫无疑问,市场上的新生力量正在逐渐壮大,无论是AMD的Radeon HD 5000系列,还是NVIDIA的GeForce GTX 400系列,都已经有不少产品面世。尤其是AMD的Radeon HD 5000系列,已经完成了从高端到入门的全线产品部署,并且推出了双GPU的Radeon HD 5970,本轮产品线更新已经接近完成,目前有传言年底AMD将推出新的Radeon HD 6000。而NVIDIA方面虽然GeForce GTX400系列部署尚未完成,但高中低端同样有对应的产品在售,并且发展势头也比较快。两家厂商的新产品都瞄准了即将成为3D游戏开发规范的DirectX 11,并且产品架构也做了大幅度调整。
Directx 11的新特性
DirectX 11大致有五点重要的改进,他们分别是:多线程处理、Shader Model 5.0、DirectComputerll、Tessellation、HDR纹理压缩。改进虽然不多,但足以撼动当前3D游戏设计的基础。Shader Model5.0支持面向对象设计,使得3D游戏设计编程更为简单;Direct Computer 11则是一项可以实现类似OpenCL功能的技术,它允许程序员直接对GPU进行操作,实现诸如科学计算之类的功能;Tessellation则是针对曲面生成的技术,通过简单的几何建模,配合Tessellation即可实现复杂的曲面效果;HDR纹理压缩可以大幅度减少HDR材质的尺寸。
多线程操作本身并不算新东西,无论是NVIDIA还是AMD,都在已经在Shader运算方面实现了多线程操作,并且从DirectX 10开始的GPU就已经都具备线程调度引擎了。而微软的DirectX 11提供的多线程支持实际上是为了能让多核心CPU更好的发挥性能,DirectX 11在多线程支持上进行了改进,其可以做到让应用程序、DirectX运行库和DirectX驱动彼此能独立的运行在不同的线程里,这是以前的DirectX无法办到的。换句话说,这个多线程支持是针对CPU执行的多线程,而并不是对于GPU进行的多线程支持。也就是说DirectX 11的这种多线程技术可能并不能加速GPU的性能,不过因为CPU的多线程处理能力被更好的利用,GPU等待CPU提供数据的时间将大大减少,也就使得GPU变相的从这种多线程支持上获得性能提升。
Shader Model 5.0支持面向对象设计,除了4.0版本中就已经有的Vertex Shader、Pixel Shader、Geometry Shader外,还增加THull Shader、Domain Shader、Compute Shader三种新的Shader。其中Hull Shader和Domain Shader是专门针对Tessellation设计的两种着色器,而Compute Shader则是更多的针对通用计算设计的一种Shader,通过这个Shader可以将原本由CPU负责的IK、AI等运算转移到GPU上来。
TesseUation(细分曲面技术),实际上是由AMD研发的一项技术,该技术可以利用GPU在几何构成阶段不断细化模型表面,从而创建出更为精密的模型。而对于设计人员来说,则不需要进行复杂的建模过程,只要按照正常模式建模,其他工作可由支持该技术的GPU完成。不过由于该技术会消耗掉大量的显卡资源,因此只有在一些特殊情况下才会使用,比如镜头视角距离目标物体很近的情况,使用Tessellation可以让画面的质感大为提升。而大多数情况下,并不一定需要TemeHafion功能。
现在这一功能成了DirectX 11的标准之一,那么所有想要支持DirectX 11的显卡芯片厂商就必须都支持Tessellation功能,这也是DirectX 11提供了两种新Shader的主要原因。TesseUator单元本身不具备可编程性,因此DirectX 11向Tessetator单元输入或者从中输出的过程是通过两个传统的管线阶段完成的:Hull Shader和Domain Shader。Hull Shader负责接收图形数据和资料,图形数据和资料会形成一个新的Primitive单元,Primitive单元可以将平面的一段分块处理,每一个分块都有独立的Control Point,Hull Shader采用Control Points来决定如何安排Tessellator处理数据,利用Tessellator生成大批量的、确定数量的点,然后将数据传送给Domain Shader,Domain Shader将这些点转换成3D处理中的顶点,最后GPU生成曲线以及多边形。
DirectX 11本身的改动较之DirectX 10来说,还是比较大的,尤其是增加了Tessellation,以及随之而来的Hull Shader和Domain Shader,这就使得新一代显卡在设计上必须为DirectX 11做更多考虑。虽然当前的统一渲染架构及灵活的流处理器模式,可以比较方便的进行调整,但是DirectX10的架构已然不可能针对DirectX 11做出 调整,硬件上的限制无法通过软件打开。就如同当年NVIDIA的HDR和抗锯齿共用Shader,导致二者不能同时开启一样。AMD Radeon HD 5000
相对于竞争对手,AMD很早便发布了其全新的R adeon HD 5000系列3D显示核心,这一系列产品依旧采用统一渲染架构设计,并且针对DirectX 11进行了优化。此外,AMD专门在显示核心内增加了EyeFinity Display Controllers模块,用于环绕屏幕输出使用。目前,Radeon HD 5000系列产品中的旗舰级产品为Radeon HD5870,研发代号为RV870。
RV870采用对称式设计,两组SIMD阵列呈对称型排列,其中每组阵列当中均有800个流处理单元设计。在单一SIMD引擎当中,AMD采用的排列方式依然是RV770的设计方式,每个SIMD阵列当中包含10组SIMD阵列,而每个SIMD阵列包含16个流处理器,每个流处理器包含5个流处理单元。因此总计1600个流处理单元,40个纹理单元以及内部L1纹理缓存。两者通过相同的高速数据总线与L2 Cache相连。
为了能够更好的发挥这种对称架构的优势,AMD在图形引擎当中的Hierarchical Z以及Rasterizer部分配备了两套独立的模块,而在Hierarchical Z末端连接的Z/Stencilg增加了一倍,达到128个,而AMD显卡常见的Render Back-Ends后端渲染也翻了一番。在图形引擎部分,RV870采用了第六代技术的Teasellation单元,内置了可编程的Hull Shader以及Domain Shader,为DirectX 11提供了良好支持。
AMD在RV870中增加了一些新的特性,其中一路SP负责处理超越指令,剩余4个SP不仅可以按照4个单独流处理器运作,同时还可以4个协作或2个协作等多种方式组合,可以实现32-bit浮点乘加、64bn浮点乘或加、64bitFP乘加,以及24bit整数乘或加运算方式。新的流处理器当中,加入了最新的co-issue(矢量指令和标量指令并行执行)支持,并且在单时钟周期可以进行5次MAD(Multiply-Add,乘加)运算。而Branch Unit(分支执行单元)则负责进行流控制和条件运算。此外RV870的通用寄存器,共五个流处理核心使用。
在RV870核心当中,内建了更大的纹理带宽,最高可达每秒680亿次双线性纹理过滤能力或者每秒2720亿次32bn纹理获取能力。同时缓存带宽也得到了进一步的提升,传输率最高可达到1TBp s的纹理带宽或者435GBps的L1与L2缓存带宽。同时,二级缓存的数量也更大,虽然依旧为4组L2 Cache设计,不过每组L2 Cache容量提升到了128Kb。为了提供DirectX 11的支持,纹理单元还提供了16K×16K的像素纹理支持,并且同时提供了DirectX 11当中HDR纹理压缩技术的支持。同时RV870采用了新的各向异性过滤算法,能够有效缓解角度依赖问题,达到更好的显示效果。此外,新的各向异性过滤算法与之前的各向异性过滤算法相比,在性能方面不会有任何影响。
为了让1600个流处理器获得更好的性能,RV870当中再次优化内存控制器。加入了EDC效验功能,允许循环冗余校验(CRC)数据传输,允许在更高的时钟频率下获得更高的可靠性。另外,AMD还为GDDR5加入了Link Retraining,能够让GDDR5显存的电压与时钟频率无错误即时切换。这一技术的直接表现就是能够让显卡在待机或2D显示状态下,实现GDDR5显存以更低的电压运行更低的频率,而在切换至3D状态时,瞬间还原默认电压以及默认频率不会出现任何错误。
依靠着1600个流处理器,RV870核心为可以提供每秒2.7万亿次单精度浮点运算或544亿次双精度浮点运算能力。同时,RV870硬件提供了对DirectCompute 11以及OpenCL 1.0的支持,并且支持IEEE754-2008精度标准。内存出口缓存能够让SIMD矩阵当中的数据进行内存合并写入。同时还提供了OpenCL 1.0以外的功能支持,例如32hit Atomic运算、32KB Local Data Share以及64KB G10bal Data Share、Global Synchronization等。
NVIDIA GeForce GTX400
早在2009年,NVID IA就对外宣布了Fermi的存在,一时间各种预测遍布互联网。可见用户对于NVIDIA的新产品充满了好奇。当时大家普遍认为Fermi应该叫“GT300”,因为之前的一代核心也就是我们熟悉的GeForce GTX 285系列产品的核心编号为GT200。而当Fermi正式出现在我们面前的时候,却使用了一个让我们颇感意外的“GF100”。那么。从GT到GF,究竟有什么样的改变呢?
首先,Fermi的架构源自之前的GT200,也就是Tesla;而GT200则起源于更早的G80核心。这主要是指在统一渲染架构体系这一点而言,但Fermi不应该,也不可能完全与之前的产品相同,仅靠在旧有架构上增加Stream Processor数量来换取性能提升。这种做法会直接导致晶体管数量的几何级增长,随之而来问题还有温度、功耗、芯片面积等问题。对于Fermi而言,其内部渲染核心,也就是我们比较熟悉的Stream Processor,正式更名为CUDA Core,并且在整体架构设计方面有了较大的变化,但统一渲染架构的基本思路并未改变。而且CUDA架构原本就支持异构计算模式,而Stream Processor不足以让用户认识到这一点,而CUDA Core则更强调GeForce显示核心出色的异构计算能力,改名也就算是顺理成章。
我们知道,GT200系列最强悍的单芯片GPU GeForce GTX285的CUDA core数量为240个;而Fermi的CUDA Core数量为512个。在这种情况下,即便不做其他改动,仅靠CUDA Core数量的增长,也会获得至少2倍于GeForce GTX285的性能提升。之前GT200核心架构中,支持10组被称之为Texture Processing Clusters(材质处理集群,TPC)的处理区块,每一组TPC具有三组Streaming Multiprocessors(流式多路处理单元,SM),这些Streaming Multiprocessors内部包含8个SP及8个材质 处理单元。而现在这个架构进一步进化成设计的更为精巧的资源整合型结构——Fermi将所有这些资源,整合成4个功能区块——这就是Fermi的核心架构Graphic Processor Clusters(图形处理集群,GPC)。
这些被称之为GPC的运算集群取代了之前的TPC,并且将之前在独立于TPC之外的功能模块整合进Fermi的GPc运算集群中来。Fermi的GPC运算集群包括升级到4组SM的GPC光栅引擎,每一组SM包括32个CUDA Core,同时集成4组专用材质单元,这些材质单元支持双路动态线程调度技术,并且具备64K B独立可编程共享缓存。从数量上来看,GT200的材质单元要比Fermi更多,GT200每一组TPC中包含8个材质单元,而一颗GPU中则有10组TPC;而Fermi核心每一组SM配备4个材质单元,总计64个材质单元。但由于Fermi的每个材质单元没每个时钟周期内可以完成一个材质运算,并获取4个材质样本,所以从实际性能上来看,Fermi架构实际上是要优于之前的GT200的。
Fermi的线程调度则由全新的GigaThread引擎完成,负责给Fermi的16组SM分配渲染任务。GigaThread是Fermi架构的重要核心部分,这套引擎可以并行创建并指派线程,较之之前的单线程轮询过程要更为高效。当然,GigaThread引擎同样要从显存中获取数据,所以乍看上去Fermi的6组64bit,总计384bit的显存位宽,好像要比GT200的8组64bit,总计512bit显存位宽来得差一些。然而,NVIDIA这次给Fermi配备的是GDDR5显存,GDDR5的带宽本身就要比GDDR3更高,因此实际上Fermi并不需要过多的显存控制器,也能获取较高的显存带宽。
在Fermi架构中,处于最末端的是6组ROP(Raster Operater Unit,光栅处理单元),这些ROP在同时输出8个32bn整数型像素。相对而言,之前的GT200的8组ROP在单个时钟周期内只能输出4个整数型像素。虽然Fermi仍然保持单周期64bit内存控制器模式,但将每周期输出32个整数型像素提升到了每周期输出48个整数型像素。因而,Fermi可以支持一种全新的全屏抗锯齿模式——32× CSAA模式。并且,在32×CSAA模式下,只比8×MSAA模式损失约10%的性能。
总体来说,Fermi在之前的统一渲染架构基础上,进行了大刀阔斧的改进,其主要目的自然是为了实现更真实的3D特效,新架构在几何运算方面较之之前的产品更有优势,几何运算能力则直接影响到3D建模的精细度和性能,而这正是“精确真实的世界”的基础。同时,新架构对CUDA异构计算更为有利,执行效率较之前代产品有不小的提升,此外针对这一架构进行异构计算的程序开发也会更为简便。
中低端产品——砍砍砍
在前面的内容里,我们了解到了当前两家最主要的3D显示卡厂商最新产品的设计架构、新特性,以及相应的新功能。当然,我们主要是从两家厂商的旗舰级产品人手来介绍相应特性的。换言之,AMD的RV870就是Radeon HD 5870,而NVIDIA本应该是GeForce GTX 480。不过,即便是NVIDIA当前最高级别的GeForce GTX 480仍然不是完整版的Fermi。这是为什么呢?其实这种做法,正是目前两家显卡厂商在同一代产品划分不同产品线的方法。
以NVIDIA为例,最直观的就是GeForce GTX 480和GeForce GTX 470的CUDA Core数量并不是Fermi标准的512个。Fermi的512个CUDA Core被分成4组GPC,每组GPC包含4组SM单元,每组SM单元包含32个CUDA Core。而GeForce GTX 480相对于Fermi而言,减少了32个CUDA Core,其核心数量为480个CUDA Core;至于GeForce GTX 470则在GeForce GTX 480的基础上再减少32个CUDA Core,其CUDA Core的数量为448个。这样一来,相当于GeForce GTx 480比Fermi少了一组SM单元,而GeForce GTX 470少了两组SM单元。
由于在Fermi的SM处理单元里还集成了独立的材质单元和多边形引擎(该引擎直接影响到芯片的几何性能),因此GeForce GTX 480和GeForce GTX 470在材质和几何运算方面性能也有所下降。GeForce GTX480拥有60个材质单元及15个多边形引擎;而GeForce GTX 470则仅有56个材质单元和14个多边形引擎。由于Fermi的ROP是独立在GPC架构外的, 因此即便是简化版的GeForce GTX 480也拥有全部的ROP引擎,每一个ROP均具备单周期输出8个32bn整数型像素数据的能力,全部ROP可以单周期输出48个像素数据。而GeForce GTX 470就没有这么幸运了,GeForce GTX 470减少了一组ROP,因此其单周期像素数据输出为40个32bit整数型像素数据。
完整的Fermi支持384bn GDDR5显存位宽,每个内存控制器提供64bn显存位宽。因此GeForce GTX 480同样支持384bit GDDR5显存,每个控制器可以控制256MB显存,因此GeForce GTX 480最大可支持1.5GB GDDR5显存,在924MH z显存频率下,其显存带宽为177GBps。而GeForce GTX 470则仅能支持320bit显存位宽,最大支持1.25GB GDDR5显存,并且显存频率也要略低一下,其显存频率为837MH z,因而GeForce GTX 470的显存带宽为134GBps。
而AMD方面也存在着同样的做法,比如Radeon HD 5870的流处理器数量为1600个,而Radeon HD 5850则减少至1440个,到了Radeon HD 5670流处理器进一步减少至400个。如果仍然按照RV870或者Fermi的完整架构图来展示这些中低端产品的架构的话,图片上会有很大很大的空白区域——因为那些地方原本存在的各种单元都被屏蔽掉了——当然,实际生产芯片的时候不会是用高端芯片直接关掉一部分功得来新产品的。否则,你懂得……
总体来说,对于显卡厂商来说,一旦设计出一套可伸缩的架构(对于灵活机动的统一渲染架构而言,这很简单),那么中低端产品的设计和生产就很容易了,那就是一个字——砍!大刀阔斧的砍下去,干掉多余的流处理器,干掉与之配套的材质单元,干 掉随之而来的内存控制器……一番调整后,我们就得到了特性、架构完全一样,但性能缩水、价格便宜的产品。当然,这些产品在芯片面积、功耗方面较之高端产品也存在差异,所以才会有入门级产品、中端主流产品等不同的划分。
如何选购
其实这是一个很难讨论的话题,毕竟每个用户的需求不同、预算不同,对显示卡性能和功能的预期也不同。但选购显卡还是有一些规律可循的,比如可以按照预算来选则产品。一般来说,无论3D显示卡如何更新,市面上销售的产品大概可以分为4个档次——2000元以上,2000至1000元,1000至600元,以及600元以下。一般来说,2000元以上的产品基本都是高端或旗舰级产品;1000元左右的产品则涵盖了中高端产品,具体情况则要看各家下线厂商对产品的细微调整和定位;通常600元以下的产品都是入门级产品。所以,基于这种价格划分,用户可以简单的根据自己的预算来选择产品。而且通常,用户确定下来预算后,绝大多数情况下对该价位产品的性能预期,已经有明确的了解,所谓“一分钱一分货”也就是这个道理了。
如果想少花钱,获得高性能,那就需要投入一定的时间和精力来研究自己的需求和性能、产品之间的平衡了。前面我们也曾经提到过,往往在显卡新旧交替阶段,我们可以用相对低廉的价格买到上一代的旗舰级产品。这些老型号的旗舰产品在性能上绝对要好过新一代的主流产品,至少能战一个旗鼓相当,而且一般来说这种旗舰产品的性能甚至可以让用户用到下一代产品推出——也就是说现在买一块上一代的旗舰,跳过现在的产品,用未来的产品做替换。在游戏性能上,这是绝对没有问题的。一方面是因为现阶段3D显卡的性能远远超出3D游戏对性能的需求。就好比几年前推出的《crysis》仍然是目前对显卡消耗最大的游戏一样,然则现在的3D显卡跑个《Crysis》已经是相当轻松的事情了。
但是,在一些新特性上,上一代的旗舰级产品就略差了一些。比如现在购买GeForce GTX285相对来说要便宜不少,性能也绝对够用,够强悍。但它归根结底是一块DirectX 10的显卡,也就是说当市面上的DirectX 11游戏越来越多的时候,这块GeForce GTX285在一些新特性上就会比较吃亏,比如前面提到的Tessellation,GeForce GTX285就比较痛苦,要么损失画面质量,要么用软件模拟损失性能。这就是购买上一代旗舰产品要面临的问题了。不过就我个人而言,我还是比较倾向这种选择的。
而从功能上而言,对于那些只想玩玩普通游戏,更多的时候是欣赏高清电影的用户而言,买一块入门级的产品就可以实现,甚至不用最新的产品也能实现。这种时候,3D显示卡更多的是充当“显示输出”设备,而不是作为3D加速卡存在——毕竟现在只通过CPU也能实现高清播放的加速——只要你的CPU不那么低端。尤其是对于那些使用HTPC的用户而言,低功耗、低发热量的入门级显卡毫无疑问是最好的选择。
基准测试
一般来说,我们会选择较多的软件来对显卡产品进行测试。但是,测试项目的多少是根据产品情况来确定的,尤其是在同类产品比较多的情况下,更多的测试项目有助于更细致的体现出各款同芯片不同厂商产品之间的性能差异。而对于同类产品不多的情况而言,过多的测试项目没太大帮助——基于不同级别芯片的产品之间性能差异,并不会因为显卡厂商采用了独特的设计而有巨大的变化。这就好比一块GeForce GT 220经过精心设计,用料无与伦比,并且进行大幅度超频,其性能也不可能超过一块一般的GeForee GTX 260。这是芯片架构决定的,天生就缺少渲染单元的入门级芯片无论如何在性能上也不可能超过主流产品。对于这样的情况,准备多少测试项目其实关系不大。
本次专题,就属于不需要太多测试项目的情况。首先是产品数量不是很多,但涵盖的芯片却不少,高中低端,新旧型号都有。这种情况下,各款产品之间的差异其实已经相当明显了,再做过多测试并无太大意义。所以我们只选了标准的Ben chmark软件和几个常贝的游戏作为测试项目。Benchmark自然是3DMark Vantage了,游戏软件方面则选择了《streel Fighter IV》、《H.A.W.X》,和《Far Cry 2》。3DMark测试时,使用了Extreme测试脚本:游戏方面则全部调整成最高分辨率,4×FSAA和4×ASF进行测试。
ASUS ENGTX480
ASUS的ENGTX480采用NVIDIA公版设计,支持384bit GDDR5显存,每个控制器可以控制256MB显存,因此ENGTX480支持1.5GB GDDR5显存,在924MHz显存频率下,其显存带宽为177GBps。ENGTX480的PCB板尺寸为10.5英寸,需要1根8pin和1根6pin独立供电电源才能稳定工作,其设计功耗为250W。虽然其峰值功耗算不上太夸张,但我们仍然建议用户使用600W电源来搭配GeForce GTX 480使用。同时,由于显卡满负荷工作时的稳定较高,因此ENGTX480配备了一套十分夸张的散热系统,这套散热系统由5条内循环热管和一组体积十分庞大的铝质切割工艺鳍片组成,以确保显卡可以稳定的工作。
作为一款旗舰产品,ENGTX480的优秀性能是毋庸置疑的,不过在完成所有测试后,它的温度也是相当高的。俗话说“好马配好鞍”,想要用ENGTX480用的舒坦,必然要配备高端CPU,大容量内存,散热设计优秀的机箱也是必不可少的。
ASUS ENGTX470
作为首轮面世的Fermi架构产品,ENGTX470采用了NVIDIA的官方设计,其CUDA Core的数量为448个。GeForce GTX 470则仅有56个材质单元和14个多边形引擎。由于Fermi的ROP是独立在GPC架构外的, 因此GeForce GTX 480拥有全部的ROP引擎,每一个ROP均具备单周期输出8个32bn整数型像素数据的能力,全部ROP可以单周期输出48个像素数据。而GeForce GTX470就没有这么幸运了,GeForce GTX 470减少了一组ROP,因此其单周期像素数据输出为40个32bit整数型像素数据。GeForce GTX 470支持320bit显存位宽,最大支持1.25GB GDDR5显存,并且显存频率也要略低一下,其显存频率为837MHz,因而GeForce GTX 470的显存带宽为134GBps。
不过从性能测试来看,ENGTX470的性能依然很强劲,并且相对于顶级的ENGTX480而言,价格更便宜,散热装置也没那么夸张,安装起来也比较方便一些。不过,它的温度依然不低,良 好的散热必不可少。
ASUS Bravo 220
这款名为Bravo 220的产品,是一款设计的相当特别的产品。首先,它采用的显示核心是来自NVIDIA的GeForce GT 220,并且采用了半高PCB设计,板载1GB GDDR3显存。最为重要的是,这款产品是一款被动散热显卡,完全没有主动散热风扇,因此可以悄无声息的工作。性能上,从我们的测试来看,Bravo 220并不适合运行3D游戏。但ASUS给这款产品的定位是高清播放,因此这款产品的包装中还附带有一个功能全面的遥控器。并且,为了满足那些只用半高卧式机箱用户的需求,这款产品还带有一个可更换的接口背板,随时能够变成一块彻底的半高卡。
虽然在性能上,这款产品的表现算不上太好,当然这也和我们选择的测试模式有关,毕竟3DMark Vantage的Extreme模式对显卡要求比较高。不过,对于那些准备购置HTPC的用户来说,这款Bravo 220毫无疑问是最佳选择。它拥有完整的高清解码能力,小巧的身材,以及绝对的静音。
这款产品采用研发代号为GF104的GeFo ree GTX 460显示核心,目前的GeForce GTX 460有两款不同的芯片,IGB显存版和768MB显存版。二者之间并不是仅有显存容量区别这么简单。实际上,两款芯片都是从GF104核心进行小幅度简化而来。1GB版GeForce GTX 460在完整GF104核心上屏蔽一组SM,等于去掉了48个流处理器、8个纹理单元以及1个Polymorph,显存位宽仍未256bit;面768MB版则再去掉一个ROP分区,变为3个ROP分区,24个ROPs,192bit位宽以及384KB二级缓存,流处理数量未发生变化。GIGABYTE的这款产品使用的就是IGB版本的GeForce GTX460核心。
所以,从性能表现上来看,这款产品的性能表现要明显好干其他GeForce GTX 460产品。当然,这款产品的价格也要比768MB版本的产品略高一些,但从性价比的角度来看,我们更倾向于1GB版本的GeForce GTX 460,毕竟它能带来更好的游戏体验。就目前的市场情况来看,GIGABYTE的产品是相当不错的选择。
GIGABYTE GV-N2500C-1GI
这款产品采用的是GeForce GTS 250显示核心,板载1GBGDDR3显存,并且显存频率被超频到了1.1GH z。从性能表现上来看,对于一款GeForce GTS 250来说的确是相当的强悍。这款产品在设计和做工上,延续了GIGABYTE的一贯精品理念。在UDV技术的支持下,这款产品的品质相当不错。UDV技术其实就是在显卡的PCB中夹着20z铜膜,此设计带来3大好处,是加强导热性,减低电阻性及让传输数据变得更干净,减少了传输之间的干扰。可以看到UDV技术的应用,对于整块显卡的散热、超频、静音等方面起到三重功效。
当然,有了良好的品质,性能自然也就可以得到提升,在UDV的支持下,这款显卡的显存频率达到了1.1GHz,理论上来说它还有更大的超频空间。毕竟显卡厂商是不可能把一款不稳定的产品拿出来卖的,所以只要玩家胆大心细,这款产品应该还能超。
MSI N240GT-MD至尊512/D5
微星N240GT-MD至尊512/D5采用40nm工艺的GT215显示核心,拥有96个流处理器,完全支持DirectX 10.1与Shader Moder4.1技术。作为一线大厂,微星在板卡领域的功力不容小视,这款显卡的做工和用料之好毋庸质疑。它的供电部分采用了1相核心和1相显存供电设计,每相供电均采用固态电容、全封闭电感和贴片式MOS管组成,保证为核心和显存供应稳定的电流,彰显微星显卡军工级做工和用料。显存方面,显卡搭载了4颗三星0.5ns GDDR5高速显存颗粒,显卡核心频率为580MH z,显存频率为3600MH z,略高于公版GeForce GT 240,因此在性能表现方面,也要略好于其他公版标准的GT 240产品。此外,微星的这款产品也支持微星开发的Afterburner显卡超频工具。
作为一款面向主流市场的3D显示卡产品,这款产品无论是在做工还是性能表现方面,都可以说是可圈可点。尤其是支持Afterburner超频工具,用户可以方面的通过这款工具对显卡进行超频,以获得更好的性能表现。
Leadtek WinFast GTX 480
作为NVIDIA的核心合作伙伴之一,丽台的显卡一直拥有极佳的口碑。并且除去积极跟进GeForce系列产品外,丽台还是为数不多生产Quadro专业级显卡的厂商之一。正是因为丽台在显卡设计上有其独到之处,才获得了NVIDIA及用户的全面认可。丽台GTX 480采用了40nm的工艺制程的GFl00核心,内置480个流处理器。支持最新的DirectX 11、Shader Model 5.0、CUDA、PhysX物理加速、3D显示与3Dn&镜支持以及PureVideo高清硬件加速技术。
性能上,WinFast GTX 480可以说是无与伦比的;品质方面,WinFast GTX 480的供电方面采用了6相的核心供电+2相显存供电设计,用料搭配上由日系、台系固态电容搭配全封闭钽质电感组成,从用料上来说,这款显卡的配置决对是最顶级的。
丽台的WinFast GTX 470在设计上遵循了NVIDIA的公版设计,采用GeForce GTX 470现实核心,它拥有448个流处理器单元,支持3D Vision Surround与DirectX 11,以及Fermi应有的一切新特性。它的显存位宽为320bit,容量为1280MB GDDR5,核心频率607MHz,Shader频率1215MHz,显存频率3348MHz,带宽为133.9GBps。此外,由于这款产品搭配的显存为0.5ns三星显存,标准频率为1000MHz,因此存在着较大的超频空间。不过我们并未对这款产品进行超频测试,所有测试成绩均为默认状态下获得。
这款产品的性能是毋庸置疑的好,在当前的显卡市场上算的上是顶级产品之一。而且这款产品的定价不算太高,接近3000元的定价是这一档次产品的常规价格。当然,与其他二线厂商的产品相比,WinFast GTX 470还是略显贵了一些。不过相信随着时间的推移,它的价格还有下降空间,届时可能会给用户带来不小的惊喜。
七彩虹iGame460-GD5 CH版
从上一代产品开始,七彩虹就开始推出其高端品牌——iGame。让人印象尤为深刻的就是当时推出那款iGame 260+。那是一款带有一键超频功能的产品,无论是做工,还是品质,都与普通的七彩虹显卡产品有着很大的区别。而这款iGame460-GD5 CH版虽然并不具备一键超频功能,但仍然是一款找iGame标准设计的产品。而它使用的芯片正是刚刚发布不久的GeForce GTX 460,研发代号GF104。GF104与GF100同样基于Fermi架构设计,不过是前者在后者基础上将架构内的模块单元比例进行了调整并进行重组优化和削减而来,使其更加适合游戏运行,并极大程度上改善了功耗和发热量,使用户获得更好的游戏体验。
从产品性能上来看,这款板载786MB显存的iGame460-GD5CH版表现相当不错,而且按照iGame系列产品的一贯风格来看,这款产品还留有一定的超频空间。这得益于七彩虹对于iGame系列的不遗余力。
Unika火旋风2HD5550小牛版
这款产品采用非公版设计,产品加入了Unika独创的超耐久技术,从产品最基本的布线、用料、配置等进行了全面优化,同时该款产品也是目前市场上唯一能够提供两年质保的H D5550产品。火旋风2 HD5550小牛版采用Radeon HD 5550显示核心,具有320个流处理器,完整支持DXll功能,其核心频率为550MHz,显存频率为1400MHz。此外,火旋风2 HD5550 V1024小牛版的散热系统同样支持超耐久技术,这款产品配置了最新飞酷8双滚珠散热系统,除了拥有大口径滚珠散热风扇和大面积铝制散热片外,它的风扇还具备温控转速调整功能。
作为一款面向入门级应用的产品而言,这款火旋风2 H D5550V1024小牛版的价格相当低廉,不足500元的价格相信会成为不少用户的选择。它的性能足以应付大多数应用模式包括简单的游戏,完美的高清回放;加之价格低廉,是入门级应用相当不错的解决方案。
其实对于芯片厂商而言,一般来说并不会希望这种过渡期太长。这是一个淘汰产品的时段。这段时间内,用户对性价比的定义会凸显出来,当年的GeForce MX440就是历经了数个时代才被淘汰的典型——虽然它的架构已经过时,性能相对于新产品来说也不能说好。但是对于用户来说,GeForceMX440毫无疑问是性价比最高的产品。有需求,自然就有市场。不过厂商并不喜欢这样,毕竟新产品才有更多的利润。
所以对于厂商来说,过渡期越短越好,如果有一款“长卖”的产品也未尝不可,但最好还是整个市场快速切换到新平台、新产品上来。这也是GeForce 8800GT历经数次改进,数次名称更迭的主要原因——虽然它是一款性价比极高的产品,但厂商并不希望它变成当年的GeForce MX440。“买什么显卡好呢?”“GeForce 8800GT呀!”这样的对话绝对不利于新产品的发展。所以宁可让产品换一个名字重新上市,也不能让一款产品拖了全线产品的后腿。
毫无疑问,市场上的新生力量正在逐渐壮大,无论是AMD的Radeon HD 5000系列,还是NVIDIA的GeForce GTX 400系列,都已经有不少产品面世。尤其是AMD的Radeon HD 5000系列,已经完成了从高端到入门的全线产品部署,并且推出了双GPU的Radeon HD 5970,本轮产品线更新已经接近完成,目前有传言年底AMD将推出新的Radeon HD 6000。而NVIDIA方面虽然GeForce GTX400系列部署尚未完成,但高中低端同样有对应的产品在售,并且发展势头也比较快。两家厂商的新产品都瞄准了即将成为3D游戏开发规范的DirectX 11,并且产品架构也做了大幅度调整。
Directx 11的新特性
DirectX 11大致有五点重要的改进,他们分别是:多线程处理、Shader Model 5.0、DirectComputerll、Tessellation、HDR纹理压缩。改进虽然不多,但足以撼动当前3D游戏设计的基础。Shader Model5.0支持面向对象设计,使得3D游戏设计编程更为简单;Direct Computer 11则是一项可以实现类似OpenCL功能的技术,它允许程序员直接对GPU进行操作,实现诸如科学计算之类的功能;Tessellation则是针对曲面生成的技术,通过简单的几何建模,配合Tessellation即可实现复杂的曲面效果;HDR纹理压缩可以大幅度减少HDR材质的尺寸。
多线程操作本身并不算新东西,无论是NVIDIA还是AMD,都在已经在Shader运算方面实现了多线程操作,并且从DirectX 10开始的GPU就已经都具备线程调度引擎了。而微软的DirectX 11提供的多线程支持实际上是为了能让多核心CPU更好的发挥性能,DirectX 11在多线程支持上进行了改进,其可以做到让应用程序、DirectX运行库和DirectX驱动彼此能独立的运行在不同的线程里,这是以前的DirectX无法办到的。换句话说,这个多线程支持是针对CPU执行的多线程,而并不是对于GPU进行的多线程支持。也就是说DirectX 11的这种多线程技术可能并不能加速GPU的性能,不过因为CPU的多线程处理能力被更好的利用,GPU等待CPU提供数据的时间将大大减少,也就使得GPU变相的从这种多线程支持上获得性能提升。
Shader Model 5.0支持面向对象设计,除了4.0版本中就已经有的Vertex Shader、Pixel Shader、Geometry Shader外,还增加THull Shader、Domain Shader、Compute Shader三种新的Shader。其中Hull Shader和Domain Shader是专门针对Tessellation设计的两种着色器,而Compute Shader则是更多的针对通用计算设计的一种Shader,通过这个Shader可以将原本由CPU负责的IK、AI等运算转移到GPU上来。
TesseUation(细分曲面技术),实际上是由AMD研发的一项技术,该技术可以利用GPU在几何构成阶段不断细化模型表面,从而创建出更为精密的模型。而对于设计人员来说,则不需要进行复杂的建模过程,只要按照正常模式建模,其他工作可由支持该技术的GPU完成。不过由于该技术会消耗掉大量的显卡资源,因此只有在一些特殊情况下才会使用,比如镜头视角距离目标物体很近的情况,使用Tessellation可以让画面的质感大为提升。而大多数情况下,并不一定需要TemeHafion功能。
现在这一功能成了DirectX 11的标准之一,那么所有想要支持DirectX 11的显卡芯片厂商就必须都支持Tessellation功能,这也是DirectX 11提供了两种新Shader的主要原因。TesseUator单元本身不具备可编程性,因此DirectX 11向Tessetator单元输入或者从中输出的过程是通过两个传统的管线阶段完成的:Hull Shader和Domain Shader。Hull Shader负责接收图形数据和资料,图形数据和资料会形成一个新的Primitive单元,Primitive单元可以将平面的一段分块处理,每一个分块都有独立的Control Point,Hull Shader采用Control Points来决定如何安排Tessellator处理数据,利用Tessellator生成大批量的、确定数量的点,然后将数据传送给Domain Shader,Domain Shader将这些点转换成3D处理中的顶点,最后GPU生成曲线以及多边形。
DirectX 11本身的改动较之DirectX 10来说,还是比较大的,尤其是增加了Tessellation,以及随之而来的Hull Shader和Domain Shader,这就使得新一代显卡在设计上必须为DirectX 11做更多考虑。虽然当前的统一渲染架构及灵活的流处理器模式,可以比较方便的进行调整,但是DirectX10的架构已然不可能针对DirectX 11做出 调整,硬件上的限制无法通过软件打开。就如同当年NVIDIA的HDR和抗锯齿共用Shader,导致二者不能同时开启一样。AMD Radeon HD 5000
相对于竞争对手,AMD很早便发布了其全新的R adeon HD 5000系列3D显示核心,这一系列产品依旧采用统一渲染架构设计,并且针对DirectX 11进行了优化。此外,AMD专门在显示核心内增加了EyeFinity Display Controllers模块,用于环绕屏幕输出使用。目前,Radeon HD 5000系列产品中的旗舰级产品为Radeon HD5870,研发代号为RV870。
RV870采用对称式设计,两组SIMD阵列呈对称型排列,其中每组阵列当中均有800个流处理单元设计。在单一SIMD引擎当中,AMD采用的排列方式依然是RV770的设计方式,每个SIMD阵列当中包含10组SIMD阵列,而每个SIMD阵列包含16个流处理器,每个流处理器包含5个流处理单元。因此总计1600个流处理单元,40个纹理单元以及内部L1纹理缓存。两者通过相同的高速数据总线与L2 Cache相连。
为了能够更好的发挥这种对称架构的优势,AMD在图形引擎当中的Hierarchical Z以及Rasterizer部分配备了两套独立的模块,而在Hierarchical Z末端连接的Z/Stencilg增加了一倍,达到128个,而AMD显卡常见的Render Back-Ends后端渲染也翻了一番。在图形引擎部分,RV870采用了第六代技术的Teasellation单元,内置了可编程的Hull Shader以及Domain Shader,为DirectX 11提供了良好支持。
AMD在RV870中增加了一些新的特性,其中一路SP负责处理超越指令,剩余4个SP不仅可以按照4个单独流处理器运作,同时还可以4个协作或2个协作等多种方式组合,可以实现32-bit浮点乘加、64bn浮点乘或加、64bitFP乘加,以及24bit整数乘或加运算方式。新的流处理器当中,加入了最新的co-issue(矢量指令和标量指令并行执行)支持,并且在单时钟周期可以进行5次MAD(Multiply-Add,乘加)运算。而Branch Unit(分支执行单元)则负责进行流控制和条件运算。此外RV870的通用寄存器,共五个流处理核心使用。
在RV870核心当中,内建了更大的纹理带宽,最高可达每秒680亿次双线性纹理过滤能力或者每秒2720亿次32bn纹理获取能力。同时缓存带宽也得到了进一步的提升,传输率最高可达到1TBp s的纹理带宽或者435GBps的L1与L2缓存带宽。同时,二级缓存的数量也更大,虽然依旧为4组L2 Cache设计,不过每组L2 Cache容量提升到了128Kb。为了提供DirectX 11的支持,纹理单元还提供了16K×16K的像素纹理支持,并且同时提供了DirectX 11当中HDR纹理压缩技术的支持。同时RV870采用了新的各向异性过滤算法,能够有效缓解角度依赖问题,达到更好的显示效果。此外,新的各向异性过滤算法与之前的各向异性过滤算法相比,在性能方面不会有任何影响。
为了让1600个流处理器获得更好的性能,RV870当中再次优化内存控制器。加入了EDC效验功能,允许循环冗余校验(CRC)数据传输,允许在更高的时钟频率下获得更高的可靠性。另外,AMD还为GDDR5加入了Link Retraining,能够让GDDR5显存的电压与时钟频率无错误即时切换。这一技术的直接表现就是能够让显卡在待机或2D显示状态下,实现GDDR5显存以更低的电压运行更低的频率,而在切换至3D状态时,瞬间还原默认电压以及默认频率不会出现任何错误。
依靠着1600个流处理器,RV870核心为可以提供每秒2.7万亿次单精度浮点运算或544亿次双精度浮点运算能力。同时,RV870硬件提供了对DirectCompute 11以及OpenCL 1.0的支持,并且支持IEEE754-2008精度标准。内存出口缓存能够让SIMD矩阵当中的数据进行内存合并写入。同时还提供了OpenCL 1.0以外的功能支持,例如32hit Atomic运算、32KB Local Data Share以及64KB G10bal Data Share、Global Synchronization等。
NVIDIA GeForce GTX400
早在2009年,NVID IA就对外宣布了Fermi的存在,一时间各种预测遍布互联网。可见用户对于NVIDIA的新产品充满了好奇。当时大家普遍认为Fermi应该叫“GT300”,因为之前的一代核心也就是我们熟悉的GeForce GTX 285系列产品的核心编号为GT200。而当Fermi正式出现在我们面前的时候,却使用了一个让我们颇感意外的“GF100”。那么。从GT到GF,究竟有什么样的改变呢?
首先,Fermi的架构源自之前的GT200,也就是Tesla;而GT200则起源于更早的G80核心。这主要是指在统一渲染架构体系这一点而言,但Fermi不应该,也不可能完全与之前的产品相同,仅靠在旧有架构上增加Stream Processor数量来换取性能提升。这种做法会直接导致晶体管数量的几何级增长,随之而来问题还有温度、功耗、芯片面积等问题。对于Fermi而言,其内部渲染核心,也就是我们比较熟悉的Stream Processor,正式更名为CUDA Core,并且在整体架构设计方面有了较大的变化,但统一渲染架构的基本思路并未改变。而且CUDA架构原本就支持异构计算模式,而Stream Processor不足以让用户认识到这一点,而CUDA Core则更强调GeForce显示核心出色的异构计算能力,改名也就算是顺理成章。
我们知道,GT200系列最强悍的单芯片GPU GeForce GTX285的CUDA core数量为240个;而Fermi的CUDA Core数量为512个。在这种情况下,即便不做其他改动,仅靠CUDA Core数量的增长,也会获得至少2倍于GeForce GTX285的性能提升。之前GT200核心架构中,支持10组被称之为Texture Processing Clusters(材质处理集群,TPC)的处理区块,每一组TPC具有三组Streaming Multiprocessors(流式多路处理单元,SM),这些Streaming Multiprocessors内部包含8个SP及8个材质 处理单元。而现在这个架构进一步进化成设计的更为精巧的资源整合型结构——Fermi将所有这些资源,整合成4个功能区块——这就是Fermi的核心架构Graphic Processor Clusters(图形处理集群,GPC)。
这些被称之为GPC的运算集群取代了之前的TPC,并且将之前在独立于TPC之外的功能模块整合进Fermi的GPc运算集群中来。Fermi的GPC运算集群包括升级到4组SM的GPC光栅引擎,每一组SM包括32个CUDA Core,同时集成4组专用材质单元,这些材质单元支持双路动态线程调度技术,并且具备64K B独立可编程共享缓存。从数量上来看,GT200的材质单元要比Fermi更多,GT200每一组TPC中包含8个材质单元,而一颗GPU中则有10组TPC;而Fermi核心每一组SM配备4个材质单元,总计64个材质单元。但由于Fermi的每个材质单元没每个时钟周期内可以完成一个材质运算,并获取4个材质样本,所以从实际性能上来看,Fermi架构实际上是要优于之前的GT200的。
Fermi的线程调度则由全新的GigaThread引擎完成,负责给Fermi的16组SM分配渲染任务。GigaThread是Fermi架构的重要核心部分,这套引擎可以并行创建并指派线程,较之之前的单线程轮询过程要更为高效。当然,GigaThread引擎同样要从显存中获取数据,所以乍看上去Fermi的6组64bit,总计384bit的显存位宽,好像要比GT200的8组64bit,总计512bit显存位宽来得差一些。然而,NVIDIA这次给Fermi配备的是GDDR5显存,GDDR5的带宽本身就要比GDDR3更高,因此实际上Fermi并不需要过多的显存控制器,也能获取较高的显存带宽。
在Fermi架构中,处于最末端的是6组ROP(Raster Operater Unit,光栅处理单元),这些ROP在同时输出8个32bn整数型像素。相对而言,之前的GT200的8组ROP在单个时钟周期内只能输出4个整数型像素。虽然Fermi仍然保持单周期64bit内存控制器模式,但将每周期输出32个整数型像素提升到了每周期输出48个整数型像素。因而,Fermi可以支持一种全新的全屏抗锯齿模式——32× CSAA模式。并且,在32×CSAA模式下,只比8×MSAA模式损失约10%的性能。
总体来说,Fermi在之前的统一渲染架构基础上,进行了大刀阔斧的改进,其主要目的自然是为了实现更真实的3D特效,新架构在几何运算方面较之之前的产品更有优势,几何运算能力则直接影响到3D建模的精细度和性能,而这正是“精确真实的世界”的基础。同时,新架构对CUDA异构计算更为有利,执行效率较之前代产品有不小的提升,此外针对这一架构进行异构计算的程序开发也会更为简便。
中低端产品——砍砍砍
在前面的内容里,我们了解到了当前两家最主要的3D显示卡厂商最新产品的设计架构、新特性,以及相应的新功能。当然,我们主要是从两家厂商的旗舰级产品人手来介绍相应特性的。换言之,AMD的RV870就是Radeon HD 5870,而NVIDIA本应该是GeForce GTX 480。不过,即便是NVIDIA当前最高级别的GeForce GTX 480仍然不是完整版的Fermi。这是为什么呢?其实这种做法,正是目前两家显卡厂商在同一代产品划分不同产品线的方法。
以NVIDIA为例,最直观的就是GeForce GTX 480和GeForce GTX 470的CUDA Core数量并不是Fermi标准的512个。Fermi的512个CUDA Core被分成4组GPC,每组GPC包含4组SM单元,每组SM单元包含32个CUDA Core。而GeForce GTX 480相对于Fermi而言,减少了32个CUDA Core,其核心数量为480个CUDA Core;至于GeForce GTX 470则在GeForce GTX 480的基础上再减少32个CUDA Core,其CUDA Core的数量为448个。这样一来,相当于GeForce GTx 480比Fermi少了一组SM单元,而GeForce GTX 470少了两组SM单元。
由于在Fermi的SM处理单元里还集成了独立的材质单元和多边形引擎(该引擎直接影响到芯片的几何性能),因此GeForce GTX 480和GeForce GTX 470在材质和几何运算方面性能也有所下降。GeForce GTX480拥有60个材质单元及15个多边形引擎;而GeForce GTX 470则仅有56个材质单元和14个多边形引擎。由于Fermi的ROP是独立在GPC架构外的, 因此即便是简化版的GeForce GTX 480也拥有全部的ROP引擎,每一个ROP均具备单周期输出8个32bn整数型像素数据的能力,全部ROP可以单周期输出48个像素数据。而GeForce GTX 470就没有这么幸运了,GeForce GTX 470减少了一组ROP,因此其单周期像素数据输出为40个32bit整数型像素数据。
完整的Fermi支持384bn GDDR5显存位宽,每个内存控制器提供64bn显存位宽。因此GeForce GTX 480同样支持384bit GDDR5显存,每个控制器可以控制256MB显存,因此GeForce GTX 480最大可支持1.5GB GDDR5显存,在924MH z显存频率下,其显存带宽为177GBps。而GeForce GTX 470则仅能支持320bit显存位宽,最大支持1.25GB GDDR5显存,并且显存频率也要略低一下,其显存频率为837MH z,因而GeForce GTX 470的显存带宽为134GBps。
而AMD方面也存在着同样的做法,比如Radeon HD 5870的流处理器数量为1600个,而Radeon HD 5850则减少至1440个,到了Radeon HD 5670流处理器进一步减少至400个。如果仍然按照RV870或者Fermi的完整架构图来展示这些中低端产品的架构的话,图片上会有很大很大的空白区域——因为那些地方原本存在的各种单元都被屏蔽掉了——当然,实际生产芯片的时候不会是用高端芯片直接关掉一部分功得来新产品的。否则,你懂得……
总体来说,对于显卡厂商来说,一旦设计出一套可伸缩的架构(对于灵活机动的统一渲染架构而言,这很简单),那么中低端产品的设计和生产就很容易了,那就是一个字——砍!大刀阔斧的砍下去,干掉多余的流处理器,干掉与之配套的材质单元,干 掉随之而来的内存控制器……一番调整后,我们就得到了特性、架构完全一样,但性能缩水、价格便宜的产品。当然,这些产品在芯片面积、功耗方面较之高端产品也存在差异,所以才会有入门级产品、中端主流产品等不同的划分。
如何选购
其实这是一个很难讨论的话题,毕竟每个用户的需求不同、预算不同,对显示卡性能和功能的预期也不同。但选购显卡还是有一些规律可循的,比如可以按照预算来选则产品。一般来说,无论3D显示卡如何更新,市面上销售的产品大概可以分为4个档次——2000元以上,2000至1000元,1000至600元,以及600元以下。一般来说,2000元以上的产品基本都是高端或旗舰级产品;1000元左右的产品则涵盖了中高端产品,具体情况则要看各家下线厂商对产品的细微调整和定位;通常600元以下的产品都是入门级产品。所以,基于这种价格划分,用户可以简单的根据自己的预算来选择产品。而且通常,用户确定下来预算后,绝大多数情况下对该价位产品的性能预期,已经有明确的了解,所谓“一分钱一分货”也就是这个道理了。
如果想少花钱,获得高性能,那就需要投入一定的时间和精力来研究自己的需求和性能、产品之间的平衡了。前面我们也曾经提到过,往往在显卡新旧交替阶段,我们可以用相对低廉的价格买到上一代的旗舰级产品。这些老型号的旗舰产品在性能上绝对要好过新一代的主流产品,至少能战一个旗鼓相当,而且一般来说这种旗舰产品的性能甚至可以让用户用到下一代产品推出——也就是说现在买一块上一代的旗舰,跳过现在的产品,用未来的产品做替换。在游戏性能上,这是绝对没有问题的。一方面是因为现阶段3D显卡的性能远远超出3D游戏对性能的需求。就好比几年前推出的《crysis》仍然是目前对显卡消耗最大的游戏一样,然则现在的3D显卡跑个《Crysis》已经是相当轻松的事情了。
但是,在一些新特性上,上一代的旗舰级产品就略差了一些。比如现在购买GeForce GTX285相对来说要便宜不少,性能也绝对够用,够强悍。但它归根结底是一块DirectX 10的显卡,也就是说当市面上的DirectX 11游戏越来越多的时候,这块GeForce GTX285在一些新特性上就会比较吃亏,比如前面提到的Tessellation,GeForce GTX285就比较痛苦,要么损失画面质量,要么用软件模拟损失性能。这就是购买上一代旗舰产品要面临的问题了。不过就我个人而言,我还是比较倾向这种选择的。
而从功能上而言,对于那些只想玩玩普通游戏,更多的时候是欣赏高清电影的用户而言,买一块入门级的产品就可以实现,甚至不用最新的产品也能实现。这种时候,3D显示卡更多的是充当“显示输出”设备,而不是作为3D加速卡存在——毕竟现在只通过CPU也能实现高清播放的加速——只要你的CPU不那么低端。尤其是对于那些使用HTPC的用户而言,低功耗、低发热量的入门级显卡毫无疑问是最好的选择。
基准测试
一般来说,我们会选择较多的软件来对显卡产品进行测试。但是,测试项目的多少是根据产品情况来确定的,尤其是在同类产品比较多的情况下,更多的测试项目有助于更细致的体现出各款同芯片不同厂商产品之间的性能差异。而对于同类产品不多的情况而言,过多的测试项目没太大帮助——基于不同级别芯片的产品之间性能差异,并不会因为显卡厂商采用了独特的设计而有巨大的变化。这就好比一块GeForce GT 220经过精心设计,用料无与伦比,并且进行大幅度超频,其性能也不可能超过一块一般的GeForee GTX 260。这是芯片架构决定的,天生就缺少渲染单元的入门级芯片无论如何在性能上也不可能超过主流产品。对于这样的情况,准备多少测试项目其实关系不大。
本次专题,就属于不需要太多测试项目的情况。首先是产品数量不是很多,但涵盖的芯片却不少,高中低端,新旧型号都有。这种情况下,各款产品之间的差异其实已经相当明显了,再做过多测试并无太大意义。所以我们只选了标准的Ben chmark软件和几个常贝的游戏作为测试项目。Benchmark自然是3DMark Vantage了,游戏软件方面则选择了《streel Fighter IV》、《H.A.W.X》,和《Far Cry 2》。3DMark测试时,使用了Extreme测试脚本:游戏方面则全部调整成最高分辨率,4×FSAA和4×ASF进行测试。
ASUS ENGTX480
ASUS的ENGTX480采用NVIDIA公版设计,支持384bit GDDR5显存,每个控制器可以控制256MB显存,因此ENGTX480支持1.5GB GDDR5显存,在924MHz显存频率下,其显存带宽为177GBps。ENGTX480的PCB板尺寸为10.5英寸,需要1根8pin和1根6pin独立供电电源才能稳定工作,其设计功耗为250W。虽然其峰值功耗算不上太夸张,但我们仍然建议用户使用600W电源来搭配GeForce GTX 480使用。同时,由于显卡满负荷工作时的稳定较高,因此ENGTX480配备了一套十分夸张的散热系统,这套散热系统由5条内循环热管和一组体积十分庞大的铝质切割工艺鳍片组成,以确保显卡可以稳定的工作。
作为一款旗舰产品,ENGTX480的优秀性能是毋庸置疑的,不过在完成所有测试后,它的温度也是相当高的。俗话说“好马配好鞍”,想要用ENGTX480用的舒坦,必然要配备高端CPU,大容量内存,散热设计优秀的机箱也是必不可少的。
ASUS ENGTX470
作为首轮面世的Fermi架构产品,ENGTX470采用了NVIDIA的官方设计,其CUDA Core的数量为448个。GeForce GTX 470则仅有56个材质单元和14个多边形引擎。由于Fermi的ROP是独立在GPC架构外的, 因此GeForce GTX 480拥有全部的ROP引擎,每一个ROP均具备单周期输出8个32bn整数型像素数据的能力,全部ROP可以单周期输出48个像素数据。而GeForce GTX470就没有这么幸运了,GeForce GTX 470减少了一组ROP,因此其单周期像素数据输出为40个32bit整数型像素数据。GeForce GTX 470支持320bit显存位宽,最大支持1.25GB GDDR5显存,并且显存频率也要略低一下,其显存频率为837MHz,因而GeForce GTX 470的显存带宽为134GBps。
不过从性能测试来看,ENGTX470的性能依然很强劲,并且相对于顶级的ENGTX480而言,价格更便宜,散热装置也没那么夸张,安装起来也比较方便一些。不过,它的温度依然不低,良 好的散热必不可少。
ASUS Bravo 220
这款名为Bravo 220的产品,是一款设计的相当特别的产品。首先,它采用的显示核心是来自NVIDIA的GeForce GT 220,并且采用了半高PCB设计,板载1GB GDDR3显存。最为重要的是,这款产品是一款被动散热显卡,完全没有主动散热风扇,因此可以悄无声息的工作。性能上,从我们的测试来看,Bravo 220并不适合运行3D游戏。但ASUS给这款产品的定位是高清播放,因此这款产品的包装中还附带有一个功能全面的遥控器。并且,为了满足那些只用半高卧式机箱用户的需求,这款产品还带有一个可更换的接口背板,随时能够变成一块彻底的半高卡。
虽然在性能上,这款产品的表现算不上太好,当然这也和我们选择的测试模式有关,毕竟3DMark Vantage的Extreme模式对显卡要求比较高。不过,对于那些准备购置HTPC的用户来说,这款Bravo 220毫无疑问是最佳选择。它拥有完整的高清解码能力,小巧的身材,以及绝对的静音。
这款产品采用研发代号为GF104的GeFo ree GTX 460显示核心,目前的GeForce GTX 460有两款不同的芯片,IGB显存版和768MB显存版。二者之间并不是仅有显存容量区别这么简单。实际上,两款芯片都是从GF104核心进行小幅度简化而来。1GB版GeForce GTX 460在完整GF104核心上屏蔽一组SM,等于去掉了48个流处理器、8个纹理单元以及1个Polymorph,显存位宽仍未256bit;面768MB版则再去掉一个ROP分区,变为3个ROP分区,24个ROPs,192bit位宽以及384KB二级缓存,流处理数量未发生变化。GIGABYTE的这款产品使用的就是IGB版本的GeForce GTX460核心。
所以,从性能表现上来看,这款产品的性能表现要明显好干其他GeForce GTX 460产品。当然,这款产品的价格也要比768MB版本的产品略高一些,但从性价比的角度来看,我们更倾向于1GB版本的GeForce GTX 460,毕竟它能带来更好的游戏体验。就目前的市场情况来看,GIGABYTE的产品是相当不错的选择。
GIGABYTE GV-N2500C-1GI
这款产品采用的是GeForce GTS 250显示核心,板载1GBGDDR3显存,并且显存频率被超频到了1.1GH z。从性能表现上来看,对于一款GeForce GTS 250来说的确是相当的强悍。这款产品在设计和做工上,延续了GIGABYTE的一贯精品理念。在UDV技术的支持下,这款产品的品质相当不错。UDV技术其实就是在显卡的PCB中夹着20z铜膜,此设计带来3大好处,是加强导热性,减低电阻性及让传输数据变得更干净,减少了传输之间的干扰。可以看到UDV技术的应用,对于整块显卡的散热、超频、静音等方面起到三重功效。
当然,有了良好的品质,性能自然也就可以得到提升,在UDV的支持下,这款显卡的显存频率达到了1.1GHz,理论上来说它还有更大的超频空间。毕竟显卡厂商是不可能把一款不稳定的产品拿出来卖的,所以只要玩家胆大心细,这款产品应该还能超。
MSI N240GT-MD至尊512/D5
微星N240GT-MD至尊512/D5采用40nm工艺的GT215显示核心,拥有96个流处理器,完全支持DirectX 10.1与Shader Moder4.1技术。作为一线大厂,微星在板卡领域的功力不容小视,这款显卡的做工和用料之好毋庸质疑。它的供电部分采用了1相核心和1相显存供电设计,每相供电均采用固态电容、全封闭电感和贴片式MOS管组成,保证为核心和显存供应稳定的电流,彰显微星显卡军工级做工和用料。显存方面,显卡搭载了4颗三星0.5ns GDDR5高速显存颗粒,显卡核心频率为580MH z,显存频率为3600MH z,略高于公版GeForce GT 240,因此在性能表现方面,也要略好于其他公版标准的GT 240产品。此外,微星的这款产品也支持微星开发的Afterburner显卡超频工具。
作为一款面向主流市场的3D显示卡产品,这款产品无论是在做工还是性能表现方面,都可以说是可圈可点。尤其是支持Afterburner超频工具,用户可以方面的通过这款工具对显卡进行超频,以获得更好的性能表现。
Leadtek WinFast GTX 480
作为NVIDIA的核心合作伙伴之一,丽台的显卡一直拥有极佳的口碑。并且除去积极跟进GeForce系列产品外,丽台还是为数不多生产Quadro专业级显卡的厂商之一。正是因为丽台在显卡设计上有其独到之处,才获得了NVIDIA及用户的全面认可。丽台GTX 480采用了40nm的工艺制程的GFl00核心,内置480个流处理器。支持最新的DirectX 11、Shader Model 5.0、CUDA、PhysX物理加速、3D显示与3Dn&镜支持以及PureVideo高清硬件加速技术。
性能上,WinFast GTX 480可以说是无与伦比的;品质方面,WinFast GTX 480的供电方面采用了6相的核心供电+2相显存供电设计,用料搭配上由日系、台系固态电容搭配全封闭钽质电感组成,从用料上来说,这款显卡的配置决对是最顶级的。
丽台的WinFast GTX 470在设计上遵循了NVIDIA的公版设计,采用GeForce GTX 470现实核心,它拥有448个流处理器单元,支持3D Vision Surround与DirectX 11,以及Fermi应有的一切新特性。它的显存位宽为320bit,容量为1280MB GDDR5,核心频率607MHz,Shader频率1215MHz,显存频率3348MHz,带宽为133.9GBps。此外,由于这款产品搭配的显存为0.5ns三星显存,标准频率为1000MHz,因此存在着较大的超频空间。不过我们并未对这款产品进行超频测试,所有测试成绩均为默认状态下获得。
这款产品的性能是毋庸置疑的好,在当前的显卡市场上算的上是顶级产品之一。而且这款产品的定价不算太高,接近3000元的定价是这一档次产品的常规价格。当然,与其他二线厂商的产品相比,WinFast GTX 470还是略显贵了一些。不过相信随着时间的推移,它的价格还有下降空间,届时可能会给用户带来不小的惊喜。
七彩虹iGame460-GD5 CH版
从上一代产品开始,七彩虹就开始推出其高端品牌——iGame。让人印象尤为深刻的就是当时推出那款iGame 260+。那是一款带有一键超频功能的产品,无论是做工,还是品质,都与普通的七彩虹显卡产品有着很大的区别。而这款iGame460-GD5 CH版虽然并不具备一键超频功能,但仍然是一款找iGame标准设计的产品。而它使用的芯片正是刚刚发布不久的GeForce GTX 460,研发代号GF104。GF104与GF100同样基于Fermi架构设计,不过是前者在后者基础上将架构内的模块单元比例进行了调整并进行重组优化和削减而来,使其更加适合游戏运行,并极大程度上改善了功耗和发热量,使用户获得更好的游戏体验。
从产品性能上来看,这款板载786MB显存的iGame460-GD5CH版表现相当不错,而且按照iGame系列产品的一贯风格来看,这款产品还留有一定的超频空间。这得益于七彩虹对于iGame系列的不遗余力。
Unika火旋风2HD5550小牛版
这款产品采用非公版设计,产品加入了Unika独创的超耐久技术,从产品最基本的布线、用料、配置等进行了全面优化,同时该款产品也是目前市场上唯一能够提供两年质保的H D5550产品。火旋风2 HD5550小牛版采用Radeon HD 5550显示核心,具有320个流处理器,完整支持DXll功能,其核心频率为550MHz,显存频率为1400MHz。此外,火旋风2 HD5550 V1024小牛版的散热系统同样支持超耐久技术,这款产品配置了最新飞酷8双滚珠散热系统,除了拥有大口径滚珠散热风扇和大面积铝制散热片外,它的风扇还具备温控转速调整功能。
作为一款面向入门级应用的产品而言,这款火旋风2 H D5550V1024小牛版的价格相当低廉,不足500元的价格相信会成为不少用户的选择。它的性能足以应付大多数应用模式包括简单的游戏,完美的高清回放;加之价格低廉,是入门级应用相当不错的解决方案。