如果现在说,日本半导体公司要超越英特尔,恐怕很多人都会付之一笑。
虽然在去年被三星超越,但英特尔仍然是这颗蓝星上最强的半导体厂商之一,至于日本半导体厂商,不论是做存储的铠侠,还是做传感器的索尼,或者是近年发展迅速的瑞萨,连全球半导体厂商的TOP 10都没挤进去,可谓是名落孙山。
不过大家都承认的一点是,日本半导体祖上还是阔过的,把时间回溯到上世纪80年代,几家日厂可以说是叱咤风云,飞利浦、英特尔、摩托罗拉……都不过是日本半导体的手下败将耳。
但日本半导体就像一颗天空中划过的流星,在上世纪80年代的短暂辉煌后,又在美国的围追堵截中败下阵来,1985年,美国与日本签订《广场协议》,日元对美元的大幅升值,导致了日本经济的泡沫逐渐破碎,对日本国内的半导体行业造成了一波沉重打击。
1986年初,美国商务部裁定日本存储器存在不正当竞争、低价倾销,对日本征收100%反倾销税;1987年6月,美国通过“东芝制裁法案”,取消一系列采购合同,并禁止东芝的所有产品向美出口2至5年;1991年,美日再次签订了一份为期五年的《新半导体协定》,美国要求外国半导体在日本的市场份额必须达到20%……
各类不平等协定和制裁法案,让富士通、NEC、日立、东芝和三菱在内的日本半导体五大巨头由盛转衰,将这个潜力无限的市场拱手让给了美国,1996年,美国半导体占据30%以上的全球市场份额,而日本半导体已经不足30%,两国之间的差距逐渐拉大。
为了帮助日本本土半导体厂商走出困境,日本企业还进行过一番自救型的调整,1999年,NEC和日立分别剥离旗下DRAM业务,成立了新公司尔必达(Elpida),后续三菱电机的DRAM部门也并入进尔必达,意在对抗美国DRAM企业。
不过,此时的日本企业并非只有守成之士,还有不甘于平凡的日本企业野心勃勃,打算学习勾践卧薪尝胆,通过梭哈一把,再度登上半导体世界的王座。
Cell处理器的诞生与雏形
2000年,伴随着次世代游戏主机PS2在全球范围内的大获成功,风头正盛的SCE(索尼电脑娱乐)开始为下一代主机做准备,而CEO久夛良木健的脑袋中萌生出一个大胆的想法,能不能通过与美国企业合作,打造出类似英特尔和PowerPC一样的通用处理器,不仅可以用在下一代主机上,还能给其他数码家电乃至服务器使用,一旦成功,SCE就能彻底统治主机市场,赢得下一个十年不再是梦想。
这种想法一旦冒出来,就在久夛良木健心底里扎了根,改变半导体市场格局,赶超行业龙头英特尔……未来的种种美好愿景仿佛已经在向SCE招手了。
2000年,索尼电脑娱乐(SCE)、东芝和IBM一同签署协议,成立了STI联盟,并将研发中心设立在得克萨斯州的奥斯汀市,该联盟商定,在接下来的4年研发周期内,索尼将提供资金预算,IBM主要负责处理器研发,东芝则负责后续处理器和相关存储芯片的生产。
这一研发,就是四五年,索尼前后投入了数十亿美元的研发资金,几乎耗空了PS1至PS2所攒下的家底,而这颗被称为Cell的处理器却迟迟不能问世。
不过这丝毫不影响索尼对外的大吹特吹,2003年,久夛良木健在接受日本《PCWatch》专栏采访时表示,足够数量的Cell处理器串联在一起,就可以达到甚至超过“地球模拟器”(地球シミュレータ,NEC制的超级计算机,在当时是世界上最快的计算机之一)的性能。
能够模拟器地球的处理器,这一下子就把人的胃口吊起来了,大家都把目光投向了这索尼,想要看看这颗媲美超算的处理器究竟有何过人之处。
好在功夫不负有心人,2004年11月,IBM、索尼公司、索尼电脑娱乐公司和东芝公司首次披露了代号为Cell、被高度期待的高级微处理器的一些关键概念,这是四家公司为新一代计算应用及数字消费电子产品联合开发的一种微处理器。
在发布会上,四家公司最终确认Cell是一种多核心芯片,包含一个64位电源处理器核心和多个协作处理器核心,能够进行大规模的浮点处理,其专为计算密集型和丰富媒体宽带应用而优化,包括电脑娱乐、电影及其他形式的数字内容等。
根据发布新闻稿,Cell处理器在设计上的一些主要优势包括:
多线程、多核心结构
同时支持多种操作系统
提供给主内存及辅助芯片(Companion Chips)的丰富双向总线带宽
灵活的板载I/O (输入/输出)接口
用于实时应用的实时资源管理系统
板载硬件,支持安全系统,可实现知识产权的智能保护
采用了90纳米的绝缘硅(Sillicon-on-insulator, SOI)技术
“大量和丰富的内容,如多信道高清广播节目及高分辨率CCD/CMOS成像设备拍摄的百万像素数字静态/移动图像等,要求大容量实时媒体处理功能。将来,所有格式的数字内容都将被融合在一起,整合到宽带网络上,从而开始出现爆炸式增长。”
索尼公司执行副总裁兼首席运营官、索尼电脑娱乐公司总裁兼集团首席执行官久夛良木健讲道。“要自由实时地访问和/或浏览浩如烟海的内容,在三维环境下更加高级的图形用户界面在将来会成为‘关键’。要处理如此丰富的应用,当前的PC结构无论是在处理功率还是在总线带宽上都已接近了极限。”
四家公司都为这颗Cell处理器拿出了最大的诚意:IBM计划于2005年上半年在纽约East Fishkill市的圆晶生产工厂开始Cell微处理器的试生产;
索尼希望于2006年推出装有Cell处理器的宽带内容及高清晰电视(HDTV)系统;
索尼电脑娱乐也希望推出其装有Cell的新一代电脑娱乐系统即PS3,以实现电脑娱乐体验的革命性变化;东芝为Cell设想了多种应用,希望于2006年推出其第一种基于Cell的产品——一种高清晰电视系统(HDTV)。
2004年,Cell处理器发布的前夕,野心勃勃的久夛良木健甚至找上了苹果CEO史蒂夫·乔布斯,向他推销Cell处理器,希望能这款跨时代的处理器能搭载在下一代Mac上,希望Cell的生态能够拓展至个人电脑与桌面端之上。
不过乔布斯没有给他面子,直接拒绝了这个提议,他丝毫不掩饰对Cell设计的失望,表示Cell甚至还不如用了这么多年的PowerPC,后面的事情相信大家也知道,苹果在第二年的全球开发者大会上宣布转投英特尔和x86的怀抱,彻底断了索尼的念想。
但久夛良木健没有灰心,因为索尼还有PS3这一次世代主机的大杀器,PS1和PS2两代主机在全球卖了上亿台,只要Cell芯片的PS3一出手,别管你是英特尔还是苹果,都得在索尼面前俯首称臣。
Cell处理器的独特与“强大”
前面讲了这么多关于Cell芯片的内容,索尼、IBM和东芝都信心十足,但它究竟强大在何处,恐怕大家还没有一个具体的概念。
2005年,Cell芯片研发接近完成,开始试产首批芯片,其采用90nm工艺,搭载 4个频率高达4GHz的PPE主核心(Power Processor Element,简称为PPE,由PowerPC970简化而来),以及32个总计1TFloaps算力的基于SIMD的协处理器(Synergistic Processor Element,以下简称SPE),整体性能丝毫不逊于顶级的桌面端处理器,甚至摸到了服务器芯片的门槛。
此外还整合了 XDR内存控制器,可配合25.6GBps带宽的内存系统,而它的前端总线也采用96位、6.4GHz频率的FlexIO并行总线(原名称为 “Redwood”,RAMBUS公司所开发),这也是有史以来速度最快的计算机总线。
不过,4颗PPE加上32颗SPE这种搭配,让芯片面积与功耗达到了一个很高的程度,而多核心设计也影响了最终的量产良率。
(劳伦斯伯克利国家实验室针对Cell、 AMD Opteron,英特尔Itanium2,以及Cray X1E的性能对比)
IBM也给出了具体的技术解析,CELL作为一种微处理器,介于传统桌面处理器(如Athlon 64和Core 2系列)和专业的图形显卡(如NVIDIA和ATI)的混合体,在预期当中,Cell不仅能用于娱乐设备、高清晰度显示器以及高清电视系统,也能用于数字成像系统(医疗、科学等)和物理模拟(如科学和结构工程建模)等方面,可谓是一颗全能处理器。
Cell处理器具体被分成四个部分:外部输入和输出结构,被称为Power Processing Element(PPE)的主处理器(一个双向同步多线程的PowerPC 2.02内核),八个功能齐全的协处理器,被称为Synergistic Processing Elements(SPE),以及连接PPE、输入/输出元素和SPE的专用高带宽循环数据总线,称为Element Interconnect Bus(EIB)。
为了实现高性能计算, Cell处理器需要利用EIB将SPE和PPE连接起来,通过完全缓存一致性的DMA(Direct memory access,直接存储器访问),访问主内存和其他外部数据存储。
而为了充分利用EIB,并使计算和数据传输相结合,处理元件(PPE和SPE)中的每一个都配备了一个DMA引擎。由于SPE的加载/存储指令只能访问自己的本地scratchpad存储器,因此每个SPE完全依靠DMA来传输数据到主存储器和其他SPE的本地存储器。
该架构的主要设计是使用DMA作为芯片内数据传输的核心手段,以期在芯片内的数据处理中实现最大的异步性和并发性。
此外,能够运行传统操作系统的PPE对SPE有控制权,可以启动、停止、中断和安排SPE上运行的进程。为此,PPE拥有与SPE的控制有关的额外指令。与SPE不同,PPE可以通过标准的加载/存储指令读写SPE的主存储器和本地存储器。
尽管有完整架构,但SPE并不是完全自主的,需要PPE对其进行启动,然后才能进行工作。由于整个系统的大部分计算力来自协处理器,一方面要使用DMA作为数据传输的方法,另一方面每个SPE又受限于较小的本地缓存,这对那些从未接触过Cell软件开发人员是一个非常大的挑战,需要对运行的软件进行非常细致的调整,才能最大程度地开发出这颗处理器的潜能。
事实上,IBM交出的这份答卷看似优秀实则复杂,光是要弄懂这颗处理器和其他普通处理器的区别就要花费不少功夫,而原型芯片过于庞大的规模也导致了最终量产一拖再拖,最终索尼迫于现实压力,无奈地向Cell挥起砍刀。
这一刀砍下去,就砍掉了不少性能,最终发布的首款Cell处理器只搭载了一个主频为3.2GHz的PPE主核心与8个SPE协处理器,为了保证生产良率,还屏蔽了1个SPE,还有一个SPE被分配给操作系统和音频,游戏只能调用6个SPE,其集成了2亿3400万个晶体管,采用IBM的90纳米SOI、Low -K工艺制造,核心面积为221平方毫米,芯片规模与Intel的双核Pentium D相当。
不过也不用太悲观, Cell芯片实际上并不是单纯的CPU,而是包含了一部分GPU的功能,SPE协处理器理论上可以对物理、音频、光源进行几何运算,甚至模拟GPU不支持的后处理特效,如曲面细分,computer shader等等,已经有了今天英伟达GPU中CUDA核心的雏形。
而在Cell开始研发时,索尼所希望的,就是用一颗Cell负责CPU的功能,另一颗Cell肩负起GPU的职能,看似异想天开,实际上并不是完全没有可能,日后还有Leadtek等厂商发布了基于Cell的PCI-E卡,用来加速视频解码。
另外,由于IBM开发之初就考虑到了服务器的需求,还用上服务器级别的256MB XDR高性能内存,因而Cell不仅浮点运算能力强劲,还对并行运算和分布式运算支持良好,只要有足够数量的搭载了Cell的PS3主机,就能组成超级计算机,这一点可以说是让其他桌面端处理器望尘莫及。
照理说,PS3在Cell芯片的指引下,已经是立于不败之地了,在索尼原本的设想中,称霸主机市场不用多说,抢占桌面市场更是指日可待,“索尼大法好”这句调侃仿佛已经变成了现实。
然而,索尼所有的美梦都在PS3发售的那一刻开始破灭。
Cell处理器的折戟和湮灭
为什么会破灭,原因还是出在PS3这台主机上。
前面我们有提到,Cell可以承担一部分GPU的职能,但这并不意味着能直接把Cell当成GPU来用,图形计算最终还是交给GPU来负责,IBM自然是不生产GPU的,索尼只能求助于当时的两大显卡厂商NVIDIA和ATI,加班加点地在PS3里塞入了一张定制的RSX,其基于Geforce7800系列改造而成,性能介于G70和G72之间。
但此时已经临近发售日期,Cell芯片的256M XDR内存,只能由CELL自己使用,RSX这颗GPU核心没办法共享这部分内存,为了赶快上市发售,索尼又额外塞入了256M GDDR3显存,一来一去,这成本已经高上了不少。
不止如此,为了兼容上一代PS1和PS2主机,索尼还额外塞进了一块EE+GS的芯片,用硬件兼容来保证上一代游戏能完美运行在PS3上,又是一次出血。
另外,索尼和松下电器等企业在2004年成立了“蓝光光盘联盟”,意在推动下一代光盘格式的普及,与HD-DVD推广协会分庭抗礼,PS3此时又承担着推广蓝光光盘,帮助索尼打赢光盘格式的重任,同时上一代PS2因为支持DVD而大获全胜,加上蓝光光驱也在情理之中。
这样一套加法算下来,PS3的成本已经到了相当恐怖的程度,根据拆解报告,每颗Cell芯片的成本约为89美元,RSX显卡的成本约为129美元,蓝光光驱的成本约为125美元,EE+GS的成本约为27美元,光是芯片和光驱的成本就已经来到了370美元,总成本甚至来到了805-840美元。
要知道PS3的起售价也不过499美元,这还没算上前期研发和后期营销成本呢,卖一台净亏300多美元,索尼家底再厚也经不起这样的折腾。
而由于各种芯片的不断加入,PS3的功耗也来到了一个恐怖的程度,在玩蓝光游戏时,PS3的总功耗轻松突破了200W,即使在菜单的待机页面,功耗也会保持在170W左右。
售价的高昂还在其次,Cell这颗被索尼寄予众望的芯片,真的发挥出之前宣传中的实力了吗?
实际上,围绕Cell芯片的最关键的六个SPE协处理器,一共有三种开发模式,其中能最大程度开发协处理器潜力的模式,也是最难开发和优化的一个模式,需要开发者自己绕过操作系统,API和运行,直接对SPE进行操作开发,效率低得可怕,其中六个SPE中只有四个支持这种模式,从PS3诞生到停产,就没有多少游戏是在这种模式下开发的,在双核处理器大行其道的2006年,Cell芯片这种本质仍为单核的处理器成为了开发人员的噩梦地狱。
更让人感到讽刺的是,索尼最大对头——微软,在Xbox 360上也用了IBM的处理器,不过微软没有像索尼一样煞费苦心地研发,而是直接像IBM定制了一颗集成了三个3.2GHz的PowerPC核心的xenon处理器,而这些核心不是别的,恰恰是Cell的PPE主核心。
另外配备了ATI的R500显卡,整体架构非常接近PC,开发难度大幅下降,大量PC游戏只需要简单移植就能登陆Xbox 360,对比PS3简直是天壤之别。
不过PS3整体并非没有可取之处,依靠着对并行运算和分布式运算的良好支持,在其他地方倒是能发光发热。
2010年美国空军研究实验室(The Air Force Research Laboratory,AFRL)组建了一套物美价廉的超算,其由1760台PS3、 168个独立图形处理单元及84个协调服务器组成,其代号为 “秃鹰群”(Condor Cluster),用于处理卫星图像、雷达以及研究AI,AFRL还向一些大学以及研究机构开放了秃鹰群的部分算力,据透露,这个超算总耗资约200万美元,运算性能为500TFlops,成本和耗电量均只有同等运算力常规超算的十分之一。
另外,索尼还在2007年宣布PS3正式加入Folding@home,这是一个研究蛋白质折叠,误折,聚合及由此引起的相关疾病的分布式计算工程,用户可以让自己的PS3在闲置时执行Folding@home分发的运算任务,截至2008年9月,参与的PS3游戏机提供了1.2PFlops的运算能力,占当时运算总数的近35%。
但Cell的步伐也仅限于此了,从发布到停止支持,除了PS3、IBM服务器和超算、东芝电视外,就再也没有电子产品用过这颗奇葩设计的处理器,走入桌面端更是完全没实现过,这款研发了四五年的处理器在半导体市场中以一个非常不体面的姿态入了土。
当然Cell的部分构想我们今天也能在各种处理器上找到,英伟达的CUDA核心, AMD的APU,苹果最新的M系列芯片,或许它们的部分灵感就出自IBM和索尼研发的这颗失败芯片呢?
曾为PS3开发独占画质代表作《杀戮地带》的Guerilla Games技术总监还曾在2021年缅怀了一下Cell,认为这颗处理器仍然要比Intel任何一颗CPU都要强大,它领先于时代 ,但就是在可用性与平衡性上难以把握。
所谓超前一步是天才,而超前两步乃至三步的,往往就变成了先烈,这句话用来诠释Cell的历程再合适不过了,或许日本厂商在半导体上的野望,那股赶超美国的决心,随着Cell的远去,也逐渐没了踪影吧。