那个想挑战Intel的中国芯片公司,背后都有什么故事?

随着天河2号成为全球运算最快的超级计算机,并在2015年国际超级计算机大会上蝉联5连冠,国防科大和飞腾CPU逐渐走进我们的视野。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 1

国防科大研究计算机技术起步于50年代末,50多年来,国防科大在心酸和泪水、鲜花与掌声交织之中,艰苦奋斗,自强不息,一步一个脚印地走出了从模仿到超越的旅程。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 2

一、国防科大

国防科大是国防部和教育部双重领导下的国家重点综合性大学,前身是1953年创建于黑龙江省的哈尔滨市军事工程学院。1970年学校主体南迁长沙,改名为长沙工学院,1978年改建为国防科技大学。

国防科大现有10个学院,下设40多个系、所、实验室,其中有国家重点实验室4个、教育部重点实验室1个,共有10个国家重点学科处于国内领先水平。在2007-2009年全国一级学科整体水平评估中,计算机科学与技术、信息与通信工程、系统科学、光学工程、管理科学与工程、航空宇航科学与技术等6个学科进入前5名。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 3

(国防科大)

二、国防科大计算机学院

计算机学院起步于1958年,1966年成立全国第一个电子计算机系,1971年扩建成计算机系兼研究所,1999年成立计算机学院。学院下设计算机科学与技术系、网络工程系、计算机研究所、软件研究所、微电子与微处理器研究所、网络与信息安全研究所、并行与分布处理国家重点实验室和银河计算机工厂。

计算机学院是研制国产计算机的老牌单位,在陈赓大将任哈军工校长期间,就开始着手计算机研发。在上世纪60-70年代,先后研发出安装有分时操作系统和汇编语言、FORTRAN语言及标准程序库的441B系列计算机,该型计算机在软件和硬件方面实现全部国产化,共生产100余台,在科研和教学领域稳定运行10年以上。

在80年代后又先后研发了银河系列、天河系列超级计算机,技术底蕴深厚。共获部委级三等奖以上科技进步奖500多项,其中国防科技成果特等奖1项、国家发明二等奖1项、国家科技进步一等奖6项、二等奖13项、部委级科技进步一等奖82项、二等奖151项。在国家5次教学成果评奖中,学院获得特等奖1次,一等奖2次,二等奖1次。“计算机体系结构”、“软件工程”、“编译原理”、“计算机网络”、“计算机原理”和“操作系统”6门课程被评为“国家级精品课程”。《计算机前沿领域的研究》获全国图书一等奖,《编译原理》获国家优秀教材一等奖,《并行算法》获第七届中国图书奖。

三、善于“借鉴”的国防科大

因80年代迷信“造不如买、买不如租”、“市场换技术”等理论,国防科大放弃了自主芯片的研发转而大量外购国外芯片。

在80、90年代,国防科大的银河1、银河2、银河3超算都没有中国芯。

因此,研发自己的CPU就成为国防科大的一项紧迫任务。相对于从零开始自主研发,“借鉴”国外的产品,将技术消化吸收后,站在巨人的肩膀上显然拥有更高的研发效率,而且国防科大科研任务多、时间紧、任务重、资金少、科研力量有限,当年在不考虑商业应用,主攻军用和超算领域的情况下,飞腾“借鉴”国外产品自然成为国防科大计算机学院的必然选择。

之后,国防科大和一直深耕Mips和Alpha并扩展了指令集,建设自主体系的龙芯和申威不同,飞腾一直没有一条很明确的技术路线,先后仿制过德仪、INTEL、SUN等公司的产品,前后产品基本没有多大延续性。

飞腾这种路线虽然在发展初期占优势,并能较短的时间内拿出性能不错的芯片,还能锻炼一批技术人才,但是因为缺乏技术延续性和技术积累,很容易导致后劲不足和难以构建自己的生态体系。

举例来说,国防科大先后仿制过德州仪器的DSP、Intel的安腾和Pentium MMX,在imagine基础上研制过流处理器,仿制过UltraSPARC T2,也有自主研发的飞腾ARM处理器和矩阵2000(DSP),先后换了X86、Epic(VLIW)、SPARC、ARM四个指令集,虽然这些产品都属于银河飞腾系列,但是彼此之间完全没有什么关系。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 4

(天河1号)

四、飞腾(Sparc)与天河2号

飞腾(Sparc)有飞腾1000和飞腾1500两款产品。Sun在被甲骨文收购前将UltraSPARC T2开源,国防科大遂对其进行仿制和改良,成功研发出飞腾1000和飞腾1500两款产品,并用于天河超算中作为计算节点前端处理器。

飞腾1000为65nm工艺制造,八核64线程,晶体管数目达到3.5亿个。芯片主频800MHz-1GHz,拥有3个HTT直连总线接口,4个独立的DDR3内存通道,带宽达到32GB/s,8个PCIE 2.0通道。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 5

飞腾1500是对飞腾1000的改进升级,是一款40nm的16和芯片,主频也提升到1.8G,最大功耗65W,双精浮点144G。

据统计,天河1号使用了2048片飞腾1000作为计算节点前端处理器,天河2号使用了4096片飞腾1500作为计算节点前端处理器。

相对于天河2大量采用的Intel芯片,为天河2号55Pflops超强运算能力打下坚实基础的架构设计——高效异构协同计算技术、高效易用的用户编程环境、网络连接等方面技术能力才更值得我们关注。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 6

四、飞腾(ARM)

自2012年开始,飞腾选择加入ARM阵营,虽然在发展权上会受制于ARM,还要花费不菲的ARM指令集授权费,但也有可以兼容AA体系的软件生态上的优势。

目前,飞腾(ARM)有“火星”和“地球”2款产品。

“地球”是一款4核CPU,微结构是国防科大自主研发的“小米”,是一款桌面CPU。“火星”的微结构也是“小米”,“火星”拥有64核心,主频达2G,制程工艺28nm,功耗120W,理论浮点计算能力是512G,拥有32M二级缓存、128M三级缓存和16通道内存,205G/s理论内存带宽。芯片上还有32个PCIe 3.0通道。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 7

虽然“火星”单核性能较弱,但依靠核心数量优势,在Spec 2006跑分中,多核整数分数达672,浮点分数585,足以和Xeon E5-2699v3相媲美。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 8

当然,目前的“小米”还无法与Intel的ivy、haswel相比,即使和龙芯GS464E也有一定差距。但在ARM阵营中,根据Spec 2006测试成绩,单核性能是强于ARM的A57的。在功耗方面和高通810做参照的话,28nm制程,2G主频功耗仅仅2W不到,显然比同样2G主频,20nm的A57功耗要小不少。

因此,“小米”显然是一个优于ARM公版设计的微结构。

国防科大虽然有很强的技术研发能力,但公关营销、市场推广能力远不能和海思、展讯相提并论。想要在ARM阵营立足,10%-20%的性能优势没有太多意义,市场营销能力强弱、芯片搭载平台稳定性和平台的数量等因素才是关键。毕竟,用ARM公版微结构照样能在市场上大卖。

国防科大真要想将自主研发的微结构推广出去,亲自上阵卖芯片显然是以己之短,攻敌之长。正途是和展讯、海思等购买ARM微结构的IC设计公司加强合作,向展讯、海思推销国防科大研发的IP核,使其能集成到展讯、海思的SOC中去。

五、GPU

国内做GPU的有两家公司,一家是兆芯,技术源自被VIA收购的美国S3公司;另一家是和国防科大有很深渊源的景嘉微电子(当然,十有八九是国防科大的马甲)。

景嘉微电子是国家火炬计划重点高新技术企业,和国防科大有很深的渊源。公司位于长沙,公司的三位创始人都毕业于国防科大,而且最初的一批骨干成员也大多来自国防科大。目前有员工300余人,共申请国家发明专利83项,其中已授权专利33项。产品涵盖芯片设计、板卡、整机和小型系统等,神舟飞船、军用战机等都曾搭载有景嘉微的产品。

2014年,景嘉微年产值超过2亿元,净利润达7600余万元,目前最好的产品是JM5400。虽然性能有限,但性能参数和已公开的资料怎么看都像军用GPU。

军用GPU更看重稳定性和可靠性,性能较弱。因此,就不多介绍了。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 9那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 10

下图为景嘉微的发展计划。一般这样的小公司三年以后的计划基本可以无视,但景嘉微的背景使本人对它多了几分期待。另外,景嘉微和龙芯是合作伙伴,5年后,没准市场上会出现龙芯CPU或飞腾CPU+景嘉微GPU的组合。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 11

六、天河2A和矩阵2000

在ISC 2015发布会上,国防科大公布了天河2A升级方案,用矩阵2000(DSP)替换被美国政府禁售的PHI。

DSP是数字信号处理器,广泛用于雷达、移动通讯、卫星导航、高清电视、网络摄像、可视电话、数码相机、图像与指纹识别、网络控制、数字硬盘等领域。

国防科大在DSP方面有较深厚的技术积累。国防科大早在2004年就研发过一款嵌入式数字信号处理器YHFT-Q,该处理器用130nm工艺制造,主频350MHz,双精浮点11.2Gflops,功耗2.99W。今年发布的矩阵2000采用40nm制程工艺,拥有16核,主频1G,双精浮点2.4T,功耗为200W。

那个想挑战Intel的中国芯片公司,背后都有什么故事?的照片 - 12

根据国防科大公布的资料,因保留了天河2号的主体I/O结构,计算节点处理器依旧使用E5-2692 V2,计算节点增加到18000个,按照一个计算节点需要2个E5和3个加速器来计算,天河2A需要36000片E5和54000片矩阵2000,仅54000片矩阵2000的理论浮点峰值就可以达到129.6Pflops。

在美国对华禁售用于超算的至强PHI后,国防科大接连对外发布足以替代E5的“火星”和可以替代至强PHI的矩阵2000,既是向美国禁售至强PHI的亮剑,也是公开了天河超算将来的发展方向——矩阵2000替代PHI,走GPDSP路线,创建超算GPDSP体系。

甚至在不远的将来,不排除会用“火星”或者“火星”的下一代产品替代E5,实现天河超算软件和硬件的全面国产化。

走GPDSP路线的难点不是芯片,而是软件堆栈——包括GPDPS驱动程序、操作系统、编译器、数学库等,这是一项工程量巨大的工作。

祝国防科大好运!

七、小结

相比于龙芯中科和总参56所,国防科大计算机学院就少了几分定力和毅力。在技术路线上存在朝令夕改、朝秦暮楚的问题,客观上使飞腾没能像龙芯、申威那样走出一条自己的路埋下了伏笔。

白璧微瑕,瑕不掩瑜。国防科大计算机学院技术成就可谓硕果累累,本文介绍的关于飞腾、天河超算、GPU仅为冰山一角。

自进入21世纪以来,国防科大以“借鉴”国外先进产品为突破口,学习技术、积攒内功,并在拥有一定技术实力后设计出了“火星”和矩阵2000等拥有自主知识产权的产品,在学习借鉴用GPU和众核处理器做加速器后,在超算领域探索出GPDSP道路,实现了从模仿到自主创新的飞跃。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:1   其中:访客  1   博主  0

  1. 寂静田园 5
    Google Chrome 45.0.2454.101 Google Chrome 45.0.2454.101 Windows 10 x64 Edition Windows 10 x64 Edition

    Intel最强大的是他的工艺技术,所以其他的竞争对手根本不可能和Intel去竞争

    湖南省衡阳市 北京百度网讯科技有限公司电信节点