游戏机就是用来玩游戏的!从早期的红白机、到后来游戏主机遍地开花,再到今天Xbox和PlayStation双雄争霸,游戏机的发展也经历了漫长的过程。时至今日,PlayStation第4代产品已经箭在弦上,全新的第三代Xbox也很快就会发布,这些全新一代的游戏机设备将为我们带来怎样的惊喜?和PC相比又有什么差异呢?本文将率先为你揭开它们的秘密。
移动计算占据了我们的碎片时间、PC占据了办公室和书房,那么谁来占领客厅甚至卧室?答案就是游戏机。对索尼和微软这两个游戏机巨头来说,玩家的选择代表了谁有资格在玩家生活中建立自己的体系,谁有望将触角伸向业内更广阔的空间,况且在这个“占有率”才是王道的时代,没有什么比侵入用户的客厅和家庭更重要的了。目前,上一代的游戏主机已日渐老去,PS3发布于2006年11月11日,Xbox 360还要早至2005年11月22日。在这长达7年左右的时光里,PC中GPU的计算能力从大约0.2TFlops暴增至4.5TFlops,而游戏机还是老样子,它们已经难以呈现出精美的画面,难以支撑游戏的发展和进步了。新时代的大门终究要打开,该来的也应该来了。
2013年2月21日,PlayStation 4游戏机(下简称PS4)正式发布。令人遗憾的是,在发布会上没有展示PS4真机的照片,只公布了PS4游戏机手柄的相关设计。会后索尼有关人士表示,PS4游戏机的外形还在进一步设计中,暂时没有太多资料可以公布。游戏机是一个庞大的系统,它不仅仅只有硬件,软件更是比硬件更重要的内容。此外,在网络时代,游戏机还被赋予了社交、网络浏览、云计算等众多功能。终的结果是,在PS4发布会上,实打实的介绍PS4硬件性能本身的内容不多,索尼将更多的精力放在介绍游戏互动、云游戏以及厂商演示上。在整个125分钟的发布会上,对游戏机本身的核心硬件架构的讲述从大约第15分30秒开始,持续到第20分30秒就基本结束,耗时约5分钟,占据了整个发布会时间的4%。
在索尼看来,玩家不需要关心机器里面的构造和型号,只需要玩游戏、使用游戏机就可以了,机器里面的内容和玩家是无关的。PS4需要表现给玩家的只有五个基本要素:SIMPLE简单、IMMEDIATE直接、SOCIAL社交、INTEGRATED一体以及PERSONALIZED个性。游戏机对玩家来说,就是一个装满秘密的黑盒子。不过,相信《微型计算机》的读者肯定不会就此罢休,究竟PS4的硬件设计处于什么水平,索尼用4%的时间展示的内容说明了什么,让我们一起来看个究竟(由于PS4的硬件架构只是初步公布,因此不排除索尼未来调整设计的可能)。
在PS4发布之前,各路媒体和业内人士已经打探到AMD即将全面给索尼PS4系列提供硬件支持的消息,尤其是x86 CPU和GCN架构的GPU。在大部分猜测中,AMD很可能是用自己高性能的“打桩机”核心作为PS4的CPU基础架构。不过,终公布的产品却让很多人的猜测彻底落空。索尼并没有选用高性能的“打桩机”产品作为自己游戏机的主CPU,而是选择了偏重能耗比,基于轻量级计算的“美洲虎”架构的产品,并史无前例地将CPU物理核心提升至8个。
微软的Xbox是首款基于x86 CPU架构的游戏机(采用了英特尔Pentium Ⅲ 733MHz搭配NVI DIA的GPU),索尼PS4则是第二款。PS4的基础架构和目前的PC架构相似度非常高。它的CPU采用了AMD定制的CPU,GPU同样采用了AMD GCN架构的产品。对此, AMD宣称索尼采用了自己的强大的APU产品。AMD全球业务部门的营销主管John Taylor表示:“虽然PC用户能够在今年买到我们新A系列APU产品,但这些产品的处理器核心数目和浮点运算能力都无法比肩PS4所使用的APU”。既然这款APU如此强大,它的CPU和GPU部分的秘密是什么?先来看CPU。索尼并没有给出CPU架构的具体信息,不过AMD在第60届国际固态电路会议ISSCC 2013上,展示了“美洲虎”相对上代“山猫”架构的详细对比资料。
AMD公布的“美洲虎”架构相关资料,可见其浮点单元是在山猫架构的基础上改良设计的产品。
“美洲虎”相比山猫架构是一次比较明显的进步。CPU架构方面,“美洲虎”主要增强了ISA指令集,加入了诸如SSE 4.2、SSE 4.1、256bit-AVX、BMI1等全新指令集,确保在指令集支持上能够尽量赶上目前的中高端桌面处理器。其次,“美洲虎”改进了指令缓存预取器,提升了每周期有效指令数,还增加了128bit浮点单元、二级缓存预取器、硬件整数除法器等单元。这些新的改进和单元的加入,会给“美洲虎”带来相对“山猫”15%~20%的性能提升。此外,在缓存方面,“美洲虎”采用了和“山猫”类似的架构,缓存维持了每颗核心64KB L1缓存(分为2路32KB指令缓存和8路32KB数据缓存)和512KBL2缓存(16路,为四核心共用2MB)的基本结构。在物理寻址方面由“山猫”的36bit增加到40bit(直接的用途就是可用内存继续增大),浮点单元的读取路径从上代的64bit大幅度提升到128bit,载入与存储带宽也从之前的每周期8Byte增加到16Byte。还有一些比较细节的改动,比如调度器进一步增强等。当然,“美洲虎”也维持了“山猫”双发射乱序执行的基础架构,但大核心数量升级到了4个(“山猫”架构只支持到双核心),以满足目前多核心计算的需求。
在生产工艺方面,“美洲虎”使用了台积电28nmHKMG工艺,单颗内核面积只有3.1mm2(上代“山猫”使用了台积电40nm工艺,单颗CPU核心面积约为4.9mm2)。4核心的“美洲虎”CPU功耗根据频率和应用场合不同,从5W~25W不等。这样低的功耗完全可以满足移动设备、特别是PS4这种对功耗有一定要求的设备使用。而使用8颗“美洲虎”核心的话,架构总面积即使算上缓存和其他部件,面积也不会超过30mm2,功耗也被控制在50W以内,很适合将PS整体功耗控制在150W左右的目标。
总的来看,“美洲虎”架构的CPU核心性能还是比较出色的,同频率每核心性能很可能已经能够接近甚至超越Core 2 Duo处理器。虽然相比目前的Ivy Bridge等先进架构还有所不足,但“性能不够数量凑”——PS4的CPU部分采用了架构基于“美洲虎”的8核心CPU。不过“美洲虎”设计架构本身多只能容纳4颗物理核心,PS4的8核心设计目前还不确定是在4核心“美洲虎”架构上继续增加核心,还是直接内置了两个4核心“美洲虎”架构处理器。我们认为,两种设计都有一定可能:前者几乎需要重新设计CPU连接线路和缓存部分,相对麻烦但性能会更为出色;后者设计和制造都更为简单(可能性更大),但两颗4核心C PU的通讯必须依靠外部总线,会产生较大的延迟,在性能上会有一定损失。
PS4采用如此多的x86核心,很可能是考虑到了PS3上Cell处理器的应用情况。Cell处理器由1个主要的PPE(PowerPC ProcessingElement,PowerPC处理器)和8个SEP(Synergistic Processing Element,协处理器)构成。在执行任务时,8个SEP处理器中的6个用于执行向量整数、浮点计算等,1个专门用于处理音效(还有一个被屏蔽)。在PS4中,众多的x86核心也可以被分派执行不同的任务以提高效率,特别是对PS4这种封闭的系统来说,软件针对硬件结构作出专门的优化应该不存在太多难题。同时,在新一代游戏中,物理特效应用会大大加强,一些比较简单的物理效果如碰撞、破碎等在PS4的发布会上成为亮点,这些应用对CPU来说,也是发挥多核心并行计算的好用途。
目前尚不知道PS4中“美洲虎”CPU的具体频率,传言称频率可能在1.6GHz~2.0GHz之间,但也有一种可能是AMD为CPU加入智能变频技术,每个核心的频率会根据应用状况、负载大小自动调整,这样更符合多核心CPU的实际使用情况。
小知识:你还记得“山猫”架构吗?
“山猫”架构是A M D面向超低功耗和超便携设备而推出的C P U架构,在2010年底到2011年初开始向O E M厂商出货。“山猫”架构的第一个敌人是英特尔的A t o m处理器,在上网本依旧火红的年代,“山猫”架构被A M D视作和英特尔A t o m对拼、争夺上网本等小体积移动计算设备有力的武器。
山猫架构简图,这款处理器在2011年左右较为火爆,属于典型的超低功耗CPU。从架构角度来看,“山猫”架构采用了双发射、乱序执行设计,理论上性能会比同为双发射、顺序执行的Atom架构要强一些。CPU基准性能测试中,同频率的“山猫”的CPU性能比Atom强约15%左右,但都远远落后于高频率、高性能的桌面CPU。在PC中,“山猫”用于执行日常任务基本够用,如果想用它来执行大型3D游戏等计算负荷较高的任务的话,就比较勉强了。
接下来是GPU部分,PS3的GPU部分使用了NVIDIA的RSXGPU,基于G70核心,浮点运算能力大约0.4TFlops,这个数值在今天来看已经完全不够用了。而在PS4上,索尼一并采用了AMD定制的、基于“南方群岛”架构的GPU,浮点计算能力约1.84TFLOPS,是前代产品的4.6倍。
目前泄露出来的技术规格,让我们可以初步判断出PS4上采用的GPU的大致规格。总体来看,PS4的GPU和桌面版AMD7系列显卡所用的GCN架构相似度很高,但做出了一些改进。在核心计算部分,PS4的GPU拥有18个GCN架构的CU(Compute Unites)单元,每个CU单元拥有4个SIMD单元,每个SIMD单元包含了16-wideALU单元。在每次数据处理中,CU在理想的状态下一次可以处理16×4=64次数据,总计18个CU单元在一个时钟周期里可以完成18×64=1152次计算。换句话来说,PS4的GPU拥有1152个流处理器、每个CU配备了16KB缓存、256个矢量寄存器和512个标量寄存器以及164K B的L1本地共享缓存。其性能应优于配备1024个流处理器的Radeon HD 7850,但弱于拥有1280个流处理器的RadeonHD 7870。此外,PS4的GPU部分还加入了一些特殊的单元,比如高优先级图像环路,这些新设计的作用和具体规格都尚未正式公布,具体设计情况也不得而知。
由于架构彻底改进,新的PS4 GPU可以完美支持通用计算。在PS4的发布会上,Havok就借助PS4的GPU展示了GPU加速粒子计算的场景。此外,新的GPU在API支持上会更进一步,PS4来说,DirectX 11是基本不会考虑的,OpenGL才是重要的API。AMD新的GPU支持OpenGL中的新特性,包括PC上常见的曲面细分以及新加入的Transform feedback、子程序等新功能。新功能的加入会降低图形人员编写程序的难度,让游戏画面能够使用更多特效,终呈现出更为出色的画质。
目前外界对PS4中GPU的具体内容还是知之甚少,按照惯例,索尼也不会公布GPU的频率、内部架构以及硬件设计等。因此对PS4 GPU的更多内容只能猜测,要么就根本无法知道了。本文受限于资料来源,也只能浅尝辄止。
PS4 GPU的代号为“Liverpool”(利物浦),拥有多条计算环路和管道,可以更好地控制系统资源,并将负载分配到所有可用的CU单元上。