CPU 是计算机系统的核心和大脑。
CPU,即中央处理器是计算机的运算和控制核心,其功能主要是解释计算机指令以及处理计算机软件中的数据。
CPU 主要由控制器、运算器、存储器和连接总线构成。其中,控制器和运算器组成 CPU 的内核,内核从存储器中提取数据,根据控制器中的指令集将数据解码,通过运算器中的微架构(电路)进行运算得到结果,以某种格式将执行结果写入存储器。
因此,内核的基础就是指令集(指令集架构)和微架构。指令集是所有指令的集合,它规定了 CPU 可执行的所有操作,微架构是完成这些指令操作的电路设计。相同的指令集可以有不同的微架构,如 Intel 和 AMD 都是基于 X86指令集但微架构不同。
指令集架构(Instruction Set Architecture),又称指令集或指令集体系,是计算机体系结构中与程序设计有关的部分,包含了基本数据类型,指令集,寄存器,寻址模式,存储体系,中断,异常处理以及外部 I/O。
指令集架构包含一系列的 opcode 即操作码(机器语言),以及由特定处理器执行的基本命令。
简单地来说,指令集一般被整合在操作系统内核最底层的硬件抽象层中,属于计算机中硬件与软件的接口,它向操作系统定义了 CPU 的基本功能。
CPU 按指令集的架构区分,分为 CISC( Complex Instruction Set Computing , 复 杂 指 令集 )型 和 RISC( Reduced Instruction Set Computing,精简指令集)型两类。
CISC 的设计者希望通过直接在硬件中构建复杂的指令从而使编程更方便、程序运行速度更快,其架构中每个指令可执行若干低端操作,诸如从存储器读取、存储、和计算操作,全部集于单一指令之中;与之相反,RISC 架构中只包含使用频率高的少量简单指令,并提供一些必要的指令以支持操作系统和高级语言。
CISC 阵营以 Intel、AMD 的 X86 架构为代表,而 RISC 阵营则包括 ARM、MIPS、Power PC 等架构
从硬件角度来讲,CISC 处理的是不等长指令集,而 RISC 执行的是等长精简指令集,在并行处理方面 RISC 明显优于 CISC。
由于 RISC 执行的是精简指令集,相比 CISC 在硬件层面需要更少的晶体管,所以它的硬件制造工艺更简单且成本更低廉。RISC 型 CPU 与 CISC 的CPU在软件和硬件上都不兼容,这是由指令集的特性而决定的。
从性能角度来说,CISC 与 RISC 并无绝对的孰优孰劣之分。
但在发展过程中,CISC 阵营的 Intel 和 AMD 在提升芯片性能上做出了持续的努力,芯片的功耗被放在了性能后的第二位;而 RISC 本身出现时间较CISC 晚十年左右(ARM 诞生于 1985 年,X86 诞生于 1978 年),ARM、MIPS 在创始初期缺乏与 Intel 产品对抗的实力,专注于以低功耗为前提的高性能芯片。RISC 阵营的 Power PC 架构最初是为个人计算机产品而设计,但其出现时已是 1992 年,此时 Intel 旗下的 80386和 80486 占据了大部分 PC 市场。
次年,Intel 赫赫有名的奔腾系列发布并助力 Intel 占领了绝大部分 PC 市场,这是第五代基于 CISC 的X86 架构微处理器,Intel 将其命名为“Pentium”。在整个 1990 年代中期,PowerPC 处理器均达到或超过了最快的 x86 CPU 的基准测试成绩。但由于 PowerPC 面向 Windows、OS / 2 和 Sun 的客户都存在应用软件极度缺乏的问题,所以最终并未在 PC 市场溅起水花。但其后 Apple 因为 PowerPC 处理器的更高性能,在 Macintosh 个人电脑系列使用了 PowerPC 处理器。2005 年,出于发热量和能源消耗有关的考虑,Apple 宣布不再在其 Apple Macintosh 计算机中使用 PowerPC处理器,转而支持 Intel 生产的处理器。此后 PowerPC 开始往超高性能服务器方向发展。
CISC 与 RISC 已逐步走向融合,两方处理器互相借鉴互相优化。例如,Intel 公司的 Pentium Pro 种内含三个能够把 x86 指令转换成 118 位定长的 RISC 风格微操作的译码器。
整体来看,在移动芯片领域,ARM 架构的芯片占据了 90%以上的市场份额,在计算 CPU 市场上,英特尔 X86 处理器占据超过 90%市场份额。MIPS 和 Power 虽然已经不是主流,却也有部分厂商仍在使用。
国产 CPU 与 X86 产品尚存在差距,主要体现在:
1)、专业人才是技术和水平的承载体,国内专业人才数量少、整体规模尚小;
2)、硬实力包括软硬件设计开发环境 EDA 等存在短板;
3)、软实力包括 CPU 的设计方法学、CPU的设计流程与规范等存在差距。
国产 CPU 的发展现状
中国自 2001 年开始启动处理器设计项目,至今将近 20 年,产生了以中科龙芯、天津飞腾、海光信息、上海申威、上海兆芯等为代表的国产 CPU,并且产品的性能逐年提高,应用领域不断扩展,使中国长期以来无“芯”可用的局面得到了极大扭转,为构建安全、自主、可控的国产化计算平台奠定了基础。目前,国产主要 CPU厂家有六家。
对指令集的掌控程度决定了国产化的程度。
对指令集的消化吸收和创新程度决定了 CPU 的创新可信的程度,通常自主研发国产 CPU 可以通过授权或者完全自研的方式,授权方式主要有两种:指令集架构授权、IP 内核授权。
国产芯片种类繁多,基于 ARM 架构授权的芯片厂商最有可能形成自主可控指令集。由于指令集的复杂性和重要性,自主研发一套全新的指令集难度较大且效益不高。
国产 CPU厂家大多选择购买国外授权,以实现不同程度的自主可控。
目前,国产 CPU架构大体可以分为三类:
第一类,是以龙芯为代表的 MIPS 指令集架构和以申威为代表的 Alpha 架构,申威已基本实现完全自主可控(申威 64 已经完全形成了自己的架构),龙芯部分关键技术需付专利费。
第二类,是以飞腾和华为鲲鹏为代表基于 ARM 指令集授权的国产芯片。
ARM 主要有三种授权等级:使用层级授权、内核层级授权和架构/指令集层级授权,其中指令集层级授权等级最高,企业可以对ARM 指令集进行改造以实现自行设计处理器,如苹果在 ARM v7-A 架构基础上开发出苹果 Swift 架构,其他如高通 Krait、Marvell 等都是基于 ARM指令集或微架构进行的改造。因此,已经获得 ARM V8 永久授权的海思、飞腾等厂家凭借自身的研发能力,亦有可能发展出一套自己的指令集架构。
第三类,是以海光、兆芯为代表的获得 x86 的授权(仅内核层级的授权),未来扩充指令集形成自主可控指令集难度较大。因此,可以看出,在自主可控程度上申威、龙芯>飞腾、鲲鹏>海光、兆芯,但未来鲲鹏和飞腾如果基于 ARM V8 发展出自己的指令集,则创新可信程度将显著提升。同时在未来 ARM V9 V10 等新架构拿不到授权的情况下,依然可以维持先进性。
综合对比六大国产 CPU 厂商,我们认为目前市场竞争格局进一步明晰,飞腾有望在党政信创和行业端市场均提升份额。
在党政信创领域,申威由于过去主要市场在军队,且其产品偏向底层应用及超算领域,Alpha
生态应用较少,预计其可获得的市场份额有限。海光、兆芯受制于 x86 内核层级授权,自主性较弱,且海光仅获得 AMD
服务器授权,暂未获得桌面应用授权,兆芯由于使用 台@@湾 威盛电子的 x86 早期授权,产品性能相对落后,且兆芯早期市场开拓不佳。
因此,在党政信创市场,我们预计飞腾、鲲鹏和龙芯三家将成为主导。
龙芯研发起步最早,党政市场原始份额较大(约占 70%以上),国产整机及应用适配厂商较多,但 MIPS 整体生态、性能是劣势,商用前景较一般,随着鲲鹏进入市场及飞腾逐步成熟,ARM 体系的生态和性能优势逐步体现,另一方面,在党政信创市场,通过投资给当地带来税收及就业机会是获得份额的一大途径,鲲鹏和中国长城均在多地成立了子公司,预计龙芯未来在党政信创领域的市占率会有所下降。鲲鹏当前因为海思受到美国制裁,未来存在一定不确定性,预计其在党政信创市场拓展会有所取舍。综合而言,我们判断飞腾在党政信创市场将逐步获得最大份额。
对行业市场而言,一方面行业市场规模是党政信创市场的数倍,另一方面行业市场对 CPU 性能、生态等的要求也远高于信创市场。
因此在此前行业国产招标中,基本只有鲲鹏、海光两家获得订单,鲲鹏作为华为海思旗下产品,性能已达到国际先进水平,而 ARM 生态亦在不断成熟,若不考虑美国制裁带来的负面影响,其前景最为光明;
海光因获得四年前 AMD 最先进产品授权,且经过不断改良加之 X86 架构的天然生态优势,在行业市场亦获得较多订单。除此以外,此前其他几款芯片在性能或市场能力上均有一定差距,不易获得行业端市场订单。
以飞腾为例,此前飞腾仅可提供单路服务器芯片,性能与鲲鹏有较大差距,因而难以拓展行业市场,而目前,飞腾已退出最新一代多路服务器芯片产品腾云 S2500,使得多路服务器产品性能提升数倍,预计 Q4 可规模化推向市场,飞腾在行业端拓展市场亦成为可能。
综上,我们看好飞腾在信创和行业端市场份额提升,未来发展可期。看好飞腾原因有三:
其一,飞腾基于 ARM 架构层级授权自主化程度高、ARM 应用生态不断丰富,市场空间广阔。
飞腾已获得 ARM v8 架构层级永久授权,其技术授权的确定性和可持续性较强,目前在移动终端市场,AA(ARM-Andriod)体系占据统治地位,虽然主机和服务器端与移动端授权有所差异,但不需要研发自己的编译器,可兼容 AA 体系的软件生态,大幅降低研发的技术门槛、时间和资金成本。
同时,国际厂商不断挑战Intel、AMD 等 x86 厂商在 CPU市场的垄断地位,如苹果将在 2021 年初发布第一款基于 ARM 的 Mac,完成向基于 ARM 的计算芯片的过渡。飞腾走了一条创新可信与国际化开放生态相互兼容的路线,未来市场空间广阔。
其二,飞腾产品谱系不断完善,产品性能大幅提升。
目前,飞腾产品谱系已全面覆盖高性能服务器、高效能桌面和高端嵌入式等领域,7 月发布的腾云 s2500 芯片补全了其在高端多路服务器领域的短板,基于腾云 2500S 的 8 路服务器是目前最高性能的国产服务器系统,多条产品线能为从端到云的各类设备提供核心算力支撑。
其三,合作厂商不断扩展,中国长城信创产业基地全国布局。
目前,飞腾合作伙伴数量超过 1000 家、累计研制了 6 大类 900 余种整机产品,已经适配和正在适配的软件和外设超过 2400 种,并发布了四大类、80 多个行业联合解决方案,覆盖信创、电信、金融、能源、交通、医疗、数字城市、工业制造等行业。
同时,2019 年以来,中国长城与各地方政府展开合作,共建信创产业生态基地。据不完全统计,截至2020 年 8 月,中国长城自主创新基地已先后在长沙、太原、温州、南通、泸州、烟台、合肥、郑州、重庆、哈尔滨、大理、拉萨、韩城、遵义等共 14 个城市落地。信创产业生态基地基于“飞腾+麒麟+安全”产业链全面构建从研发、生产、供应链及售前服务、售后服务的完整信创生态体系,助力飞腾快速发展。7 月 23 日,飞腾表示,预计2020 年全年芯片出货量将达 100 万片,营收达 10 亿元。
1、天津飞腾:创新可信主力芯片厂商,产业生态日益丰富,市场空间广阔。
天津飞腾是国产自主安全主力芯片厂商。
飞腾专注于 ARM 芯片研发,是中国最早获得 ARMv8 指令集架构授权的芯片设计厂商,主要致力于国产高性能、低功耗集成电路芯片的设计与服务,产品广泛应用于计算机终端与服务器。目前国内完全自主设计的芯片厂商仅飞腾、龙芯、海光、兆芯和申威等寥寥数家,飞腾在 CPU、JS 引擎性能、HTML5 兼容性等方面全面领先其他厂商。
飞腾产品覆盖高性能服务器 CPU、高能效桌面 CPU 和高端嵌入式 CPU 等。飞腾通过 20 年技术积累,已经形成完整的多样化算力产品谱系,是国内通用 CPU里面谱系最全的 CPU 厂家,包括高性能服务器 CPU、高效能桌面CPU、高端嵌入式 CPU,能为从端到云的各类设备提供核心算力支撑。目前,主推产品是面向服务器的 FT-2000+64、面向桌面终端的 FT-2000 四核和面向嵌入式的 FT-2000A 两核。
飞腾 CPU 是 PK 体系信息系统的核心。
飞腾的 CPU 芯片架构和国际主流ARM 指令集接轨,而内部则是完全自主研发的“飞腾内核”。架构和国际主流接轨,保证了芯片接口的通用性,产品能更好地融入国际市场和生态环境;自主研发内核,则保障了芯片的自主性和可控性。基于自主研发的处理器内核,飞腾拥有高性能服务器 CPU、桌面 CPU 和高端嵌入式 CPU完整的产品谱系,并与国内软硬件厂商完成适配和产品业化研发,使得基于飞腾芯片的产品性能上可以达到替代国外产品,为从端到云的各型设备提供核心算力支撑,为我国构建安全、自主、可控的国产化计算平台奠定了基础。
目前,飞腾已经与国内众多厂家开展合作,携手合作伙伴构建繁荣开放的生态,合作伙伴数量超过 1000 家、累计研制了 6 大类 900 余种整机产品,已经适配和正在适配的软件和外设超过 2400 种,飞腾已经建立起云端边和嵌入式全栈解决方案图谱。
2020H1,公司业绩大幅增长。
2020 年上半年,公司已实现营收 3.5 亿元,超过 19 年全年营收,下半年将继续保持增长势头,年底实现全年出货量100 余万片,营收 10 亿元目标。
飞腾新一代多路服务器芯片—腾云 S2500
今年以来,飞腾对高性能服务器 CPU、高效能桌面 CPU 和高端嵌入式 CPU 等三条产品线进行了全面品牌升级。高性能服务器 CPU 统一以飞腾腾云 S 系列命名(为服务器和数据中心提供强算力、高并发的计算服务)、高效能桌面 CPU 产品线统一以飞腾腾锐 D 系列命名(打造高性能、高安全的单用户极致体验)、高端嵌入式产品线统一以飞腾腾珑 E 系列命名(提供定制化契合各行各业嵌入式应用的解决方案)。腾龙、腾锐、腾珑并驾齐驱,三线齐飞。
2020 年 7 月 23 日,飞腾发布腾云系列第一代高可扩展多路服务器芯片——腾云 S2500。与 FT-2000+相比性能大幅提升,扩展支持 2 路-8路,一台服务器整机最多可以支持 8 颗 S2500 芯片直连构成多路服务器,片内集成 64MB 三级 Cache,支持 8 个 DDR4-3200 存储通道,功耗 150W,整个芯片面积接近 400m^2 毫米,封装尺寸 65x65nm。在整机性能方面,双路的 SPECint 分值为 1000+,增长至原来的 2 倍,四路的 SPECint 值为 1800+,是原来的 3.5 倍。在分布式数据库性能方面,双路服务器的 tpmC 值达到 98000,线性提升至原来的 2 倍,四路的 tpmC 值达到 176000,增长至原来的 4 倍。在云桌面支持方面,双路服务器支持虚拟机 70 个,增长至原来的 2.5 倍,四路服务器支持虚拟机 140 个,增长至原来的 5 倍。
未来三年的产品规划:腾云 S 系列将有两款核心产品(腾云 S5000 和腾云 S6000)、腾锐 D 系列有两款核心产品(腾锐 D2000 和腾锐D3000)、腾珑 E 系列(腾珑 E2000 和腾珑 E3000)。
2、华为鲲鹏 :基于 ARM 架构授权,卓越性能提供市场最强算力支撑
华为基于 ARM 架构,研发五大芯片族,实现全场景布局。
华为自研芯片产品主要包括服务器芯片鲲鹏系列、手机 SOC 芯片麒麟系列、人工智能芯片昇腾系列、5G 基站芯片天罡系列、5G 终端芯片巴龙系列等以及一系列专用芯片,如凌霄芯片、NB-IoT 芯片、视频编码解码芯片以及 SSD 控制芯片等。Kunpeng 处理器从指令集和微架构两方面进行兼容性设计,兼容全球 ARM 生态,并围绕 Kunpeng 处理器打造了“算、存、传、管、智”五个子系统的芯片族,实现全场景处理器布局。华为从 2004 年开始投资研发第一颗嵌入式处理芯片,历经 16 年,累计投入超过 2 万名工程师,形成了目前以“鲲鹏+昇腾”为核心的基础芯片族。
作为鲲鹏计算产业底座的 Kunpeng 处理器,华为持续重点投入以满足市场对于新算力的需求。目前鲲鹏系列已经实现量产的有 Kunpeng 912、Kunpeng 916、Kunpeng 920、Kunpeng 920s,而 Kunpeng 920Lite、Kunpeng 930 及 Kunpeng 930s 目前仍在研发中,Kunpeng 930Lite 尚在规划中。
最新鲲鹏 920 芯片已实现通用计算最强算力,性能优于其他厂商的同类型芯片。2019 年,华为发布最新鲲鹏 920 处理器。这款鲲鹏 920 基于ARMv8 指令集,是行业内首款 7nm 数据中心 ARM 处理器,由华为自主研发设计,采用多发射、乱序执行、优化分支预测等多种手段提升单核的性能。鲲鹏 920 拥有 64 个内核,集成 8 通道 DDR4,可以提供多个接口,主频可达 2.6GHz,总带宽 640Gbps,保证了 920 超强算力的高效输出。此外,在 Memory 子系统上也进行了大量的优化,采用当前典型的 3 级Cache 的架构,对 Cache 大小以及延时进行了优化设计。
鲲鹏 920 面向数据中心,主打低功耗强性能,性能达到业界领先水平,尤其是整型计算能力,业界标准 SPECint Benchmark 评分超过 930,超出业界标杆 25%,同时能效优于业界标杆 30%。并已经针对大数据、分布式存储、数据库及云服务等场景进行了欧化,通过软硬协同进一步提升处理器的性能。
鲲鹏 920 已实现性能超越 Intel 系列 X86 芯片。
鲲鹏芯片算力维度方面在非 X86 架构芯片中明显领先,且发展至目前已经达到可以与 X86 芯片相匹配的性能。
鲲鹏 920 芯片基于 ARM v8 架构,各方面性能优异。目前从整体性能上看,鲲鹏 920 与芯片龙头 Intel 公司所生产的芯片相比较而言,48核鲲鹏 920 与 Intel 至强 8180 性能相当,但鲲鹏 920 能耗比对方低 20%,而 64 核的鲲鹏 920 测试性能要远优于 Intel 至强 8180。这证明 ARM 架构已经具备赶超 X86 架构性能的能力。
华为积极适配其他操作系统,从底层构建好鲲鹏生态。
华为从 2019 年开始一直加速各行业生态的适配,在政府端进行得较为充分完善。目前在操作系统方面,华为推出了自主研发的欧拉服务器操作系统,但欧拉操作系统与鲲鹏产业合作伙伴诚迈科技的统信 UOS、中国软件的麒麟操作系统并不矛盾,华为将借助鲲鹏 920 与这些国产操作系统的适配来构建起强大的鲲鹏生态。目前基于统信 UOS、华为鲲鹏平台的整机、应用、外设的适配已经超过 1000 款,在日常办公领域已经完全具备替换 Windows 系统的能力。
华为目前是国际上 ARM 服务器芯片领域的领军企业,其产品历经考验已经服务于国内多个领域。移动领域,华为海思的麒麟芯片已经通过华为高端手机 Mate 系列、P 系列打响自身品牌;服务器与云计算领域,华为陆续发布的鲲鹏系列和昇腾系列芯片,基于 ARM 架构,分别用于服务器和云计算市场。然而,在不断加剧的国际封锁和美国制裁下,华为鲲鹏的发展蒙上了一层不确定性。
3、龙芯:国内最早自主研发芯片厂商,MIPS 架构体系自主化程度高
“龙芯”是我国最早研制的高性能通用处理器系列,于 2001 年在中科院计算所开始研发,得到了中科院、863、973、核高基等项目大力支持,完成了十年的核心技术积累。2010 年,中国科学院和北京市政府共同牵头出资,龙芯中科技术有限公司正式成立,开始市场化运作,旨在将龙芯处理器的研发成果产业化。
龙芯 CPU 采用 MIPS 体系结构,产品现包括龙芯1 号小CPU、龙芯2 号中 CPU 和龙芯 3 号大 CPU 三个系列,此外还包括龙芯7A1000桥片。产品方面,龙芯目前共推出 3 代 CPU产品, 2017 年 4 月发布面向桌面/服务器应用的龙芯 3 号处理器的最新升级产品龙芯 3A3000/3B3000,其中,龙芯 3A3000 基于中芯 28nm FDSOI工艺,自主 GS464E 架构(自主指令系统 LoongISA),设计为四核 64 位,主频 1.5GHz,功耗仅 30W,是目前国产 CPU 中单核 SPEC 实测性能最高的芯片之一。2019 年 12 月,龙芯推出首款基于 GS464v 微架构的四核处理器 3A4000 相比上一代产品实测性能提高一倍。预计 2020 年年底将推出 3A5000/3C5000,其工艺改进提高主频至 2.5GHz,核数提升至 16 核。
相比于龙芯 3A3000 处理器,龙芯 3A4000 性能翻倍。
龙芯 3A4000相比 3A3000 的 GS464e 微架构,进一步优化流水线,提升运行频率,加强对虚拟化、向量支持、加解密、安全机制等方面的支持。其芯片整体实测性能提升一倍左右。在某些测试项目中,龙芯 3A4000 的速度超过了 3A3000 的三倍,比如 hmmer 测试,3A4000 的速度是3A3000 的 3.6 倍,这是因为龙芯 3A4000 的向量指令在发挥作用。但与 Intel i5-7200U处理器相比,龙芯 3A4000 处理器性能还存在一定差距。从测试结果可以看到,3A4000 处理器单核整数性能只有 i5-7200U 的 60%, 浮点性能只有后者的 50%。但考虑到 Intel i5-7200U睿频频率高达 3.1GHz,处理器的每 GHz 性能为整数 10.64 分,浮点12.6 分;3A4000 处理器核的同主频性能已经能够达到 i5-7200U 处理器的 80%~90%了。
出货量不断增加,但生态可能是龙芯的制约。
出货方面,龙芯出货规模不断扩大,2016 年只有 1 万片,2017 年 2 万片,2018 年 6 万多片,2019年出货量 50 万片,龙芯出货量不断增加。但另一方面,龙芯所基于的MIPS 架构在国内外基本只有龙芯采用,龙芯需要完全依托自身实力建设完善生态,相对于强大的 X86 生态和有众多巨头共建的 ARM 生态,龙芯MIPS 生态发展前景相对有一定不确定。
4、海光:性能优越的 x86 架构芯片,商用市场极具潜力
海光信息技术有限公司成立于 2014 年 10 月,公司重要股东为中科曙光,持股 36.68%。海光信息主营高性能处理器,业务涵盖芯片领域的设计、制造和生产等环节,自主设计了“禅定”x86 中央处理器(CPU)。2016 年4 月,AMD 宣布将与海光信息成立合资公司,授权其生产服务器处理器,AMD 获得 2.93 亿美元的授权费。目前,海光资金以天津投资和曙光自有资金为主。
与 AMD 成立合资公司,变相获得 x86 内核授权。
由于 Intel 与 AMD 之间存在交叉授权协议,当 AMD 成立合资公司时,若 AMD 为非控股股东,则合资公司不能获得 X86 授权,只有 AMD 保持控股状态时,合资公司才能获得 X86 授权。因此最初合资的一项条件就是 AMD 控股合资公司。但如果由 AMD 控股了合资公司,那势必影响合资公司获得国家扶持的力度,而且一旦外资控股,其创新可信身份将存疑,很多国产项目将无法参与。于是,AMD 与海光达成了一个迂回的合作方案:首先,AMD 与海光信息成立合资公司成都海光微电子技术有限公司(简称“海光微电子”),AMD持股 51%,为控股股东,负责开发 CPU核(享有 AMD 现有的 x86 内核授权)。
然后海光与 AMD 另外成立一家由海光信息控股的合资公司成都集成电路设计有限公司(简称“海光集成电路”),海光信息持股 70%。由海光集成电路购买海光微电子的 IP 授权,以此为基础开发 CPU,最终实现ARM 卖 IP 核的翻版。从而,既规避了 Intel 的 X86 授权限制,又使得海光X86 CPU成为内资公司开发的产品,满足创新可信要求。
海光的最大优势是其产品性能和 x86 丰富的应用生态。
由于有 AMD 技术做后盾, AMD 授权给海光的是性能强劲的 Zen 的结构和代码,海光芯片性能优越,在国家级超算项目应用广泛。2018 年 7 月,AMD 与天津海光合作后首款 X86 处理器 Dhyana(禅定)启动生产,Dhyana(禅定)基于超微(AMD)Zen 核心架构开发,性能方面与 AMD EPYC 处理器相似,Linux维护者将 EPYC 支持代码转移到 Dhyana(禅定)处理器后可以成功运行,说明当时两款处理器差异相对较小。
2019 年 6 月,中科曙光与四川成都合作,建立成都超算中心。2020 年 5 月 10 日,中国电信 56314 台服务器集采华为鲲鹏 920 芯片、海光 HYGON Dhyana 系列处理器的 H 系列全国产化服务器,首次将全国产化服务器单独列入招标目录。2020 年 7 月1 日,Intel 停供服务器芯片,海光已开始向国内诸多服务器厂商供货。
海光产品当下确定性高。
受益于性能和生态两方面优势,且未受制裁影响,海光产品当下确定性高,可获得大量行业端国产订单。但 X86 架构的核心指令集仍然掌握在 Intel 和 AMD 手中,且海光未获得桌面产品授权,下一步海光将在现有架构基础上,持续迭代创新,维持国产先进性优势。
5、申威 :自主化程度最高的Alpha 架构芯片,主供军方与超算市场
申威最初基于 Alpha 指令集架构,形成三个系列国产处理器产品线。
成都申威科技有限责任公司,总投资 5 亿,注册资金 1 亿公司依托国家信息安全发展战略,主要从事对申威处理器的产业化推广,核心业务包括申威处理器芯片内核、封装设计、技术支持服务及销售,小型超级计算机研发、测试、销售、服务及核心部件生产,基于申威处理器的软件、中间件开发,嵌入式计算机系统定制化产品服务,集成电路 IP 核等知识产权授权。
申威处理器是在国家“核高基”重大专项支持下,由上海高性能集成电路中心,采用自主指令集,研制的具有完全自主知识产权的国产处理器系列。现已形成申威高性能计算处理器、服务器及桌面处理器、嵌入式处理器三个系列的国产处理器产品线,以及申威国产 I/O 套片产品线。
申威 CPU 长期创新可信,但生态建设存在难度。
2006 年,背靠科技部和上海市政府的上海高性能集成电路设计中心首次成功研制出基于 DEC 公司Alpha 架构的申威 1 单核 CPU,130nm 工艺,主频 900MHz。申威作为军方专供 CPU厂商,军队大部分机密设备均使用申威处理器,因此出于安全性能以及知识产权角度,申威在研发出第一代基于 Alpha 指令集的 CPU后,将指令集替换为自研的自主可控的申威 64 位指令集,完全区别于原有Alpha 指令集。
因此,基于完全自主指令集架构的申威 CPU 研发能力不受限制,不受美国制裁的威胁,可以为军队、党政机关等高机密、关键行业持续稳定提供支撑,并已经开展了产业化推广。但由于申威是唯一一个基于申威 64 位指令集打造的国产 CPU 厂商,因此后续在独立生态建设上将存在一定难度。
申威 SW26010 是中国首个采用国产自研架构且性能强大的计算机芯片。
出于安全自主可控角度不再使用 ALPHA 指令集后,申威推出了自研的申威 64 位指令集,并在此基础上,成功研发出中国首个采用自主架构,同时性能达到世界一流水平的计算机芯片申威 SW26010。SW26010 采用 260核心众核架构,乱序执行架构,频率 1.45GHz,整个处理器包括 4 个 MPE管理单元、4 个 CPE 计算单元及 4 个 MC 内存控制器单元组成,总计 260个核心。
申威在服务器领域向上至超算领域的应用场景中性能强大,优势较为明显。2016 年 6 月 20 日,搭载了申威 SW26010 以及国产操作系统神威睿思的神威?太湖之光获得全球超级计算机第一名,并持续 4 年。神威?太湖之光峰值计算速度达每秒 12.54 亿亿次,是全球首台峰值计算速度超过十亿亿次的超级计算机,软件硬件并行,均为申威自主设计。
申威与中国电科联手,首条服务器规模化生产线现已启用。
2020 年 1 月,中国电科首批申威服务器量产下线。申威在市场化探索初期,与中国电科进行了对接。基于申威的自主可控技术路线+电科的电子信息产业国家队,目前,中国电科已经成立中电科申泰公司,负责申威处理器的产业推广工作。2020 年 7 月 29 日,申威全国首条服务器规模化生产线在上海松江区正式启用。
这标志着中国电科贯彻落实国家战略要求,实现了申威服务器规模化生产。目前已建成的规模化生产线年产能超过 4 万台。
未来,中国电科将以更大批量生产满足服务器市场化需求,并将进一步加大投入,构筑电科申威技术体系、产品体系、应用体系。双方将共同扩大申威核心研发团队的规模,完善丰富申威 64 位指令集系统生态。
申威与多家厂商进行适配,全力构建申威生态。
国产处理器得以推广应用的关键在于生态的丰富与否。为应对这一问题,申威推出了自研的操作系统,实现了从处理器到操作系统,在到上层应用软件的国产化。
近期,多家厂商与申威处理器进行兼容认证,涉及操作系统、存储等软件硬件领域,例如统信、联想、大道云行、鼎甲等。目前,申威处理器适配的操作系统有中标麒麟、统信 UOS 及深度 deepin。未来,申威处理器将不断和国产自主可控厂商适配,构建起完善的生态。
6、兆芯 :国内 x86 主要入围芯片,业务主要覆盖上海地区
上海国资委持股 85.24%,拥有 x86 架构授权。
上海兆芯集成电路有限公司(简称“兆芯”)于 2013 年成立,由上海联合投资有限公司(隶属于上海市国资委)和 台@@湾 威盛电子共同成立,总部位于上海张江,在北京、西安、武汉、深圳等地设有研发中心和分支机构。目前,上海市国资委持股比例为 85.24%。威盛电子是 台@@湾 老牌芯片公司,是除 Intel、AMD 之外,唯一一家拥有 x86 架构授权的公司,也是除高通之外,唯一一家拥有CDMA 基带授权的公司。技术方面,截至 2020 年 4 月,兆芯已累计申请专利 1468 件,登记集成电路布图设计 34 件。
兆芯的技术源自 VIA,通过技术引进、仿制,再修改原始设计,最后自主创新,致力于通过技术创新与兼容主流的发展路线,为行业用户提供通用处理器和配套芯片等产品。
公司成立以来,兆芯已成功研发并量产多款通用处理器产品,并形成“开先”、“开胜”两大产品系列。2019 年 6 月,兆芯发布开先 KX-6000/开胜 KH-30000 系列处理器,是首款主频达到3.0GHz 的国产通用处理器,也是业内第一款完整集成 CPU、GPU、芯片组的 SoC 单芯片国产通用处理器,其单芯片性能相比上一代产品提升了多达 50%,同频下的性能功耗比则是上代产品的 3 倍,产品性能与国际主流的 Intel i5 水平相当。
CPU 按指令集架构区分,复杂指令集阵营以 X86 为代表,简单指令集阵营以 ARM 为代表。CISC 与 RISC 架构处理器各有千秋,CISC 架构芯片运行速度快、性能优越,但功耗大、价格较贵;RISC 架构芯片体积小、低功耗、性价比高。目前整体来看,在移动芯片领域,以 ARM 为代表的 RISC架构的芯片占据了 90%以上的市场份额,在计算 CPU 市场上,以英特尔X86 为代表的 CISC 架构处理器占据超过 90%市场份额。其他如 MIPS 和Power 等架构虽有部分厂商在用,但已不是市场主流。
对指令集的掌控程度决定了国产化的程度。
对指令集的消化吸收和创新程度决定了 CPU的创新可信的程度,通常自主研发国产 CPU可以通过授权或者完全自研的方式,授权方式主要有两种:指令集架构授权、IP 内核授权。获得指令集架构授权的厂商可以自主研发 CPU 内核,拥有较高的创新可信程度;获得 IP 内核授权的厂商,只能基于指令集进行 SOC 集成设计,CPU内核仍受制于人,创新可信程度相对较低。
基于 ARM 架构国产芯片有望实现完全创新可信。
目前,国内 CPU 企业大多选择购买国外的架构授权,大体可以分为三类:第一类,龙芯(MIPS 指令集)和申威(Alpha 指令集),创新可信能力最强,但使用群体小,应用生态缺乏;第二类,飞腾、鲲鹏均基于 ARM 架构,由于是架构层级授权,有机会形成自主指令集,而且应用生态不断成熟;第三类,以兆芯、海光为代表的 x86 架构,由于指令集仍掌握在海外厂商手中,完全创新可信难度大。因此,在创新可信程度上申威、龙芯>海思、飞腾>海光、兆芯,但是未来鲲鹏和飞腾有机会基于 ARM V8 永久指令集授权实现进一步创新可信。
综合对比六大国产 CPU 厂商,飞腾有望异军突起。
在党政信创市场,申威因主要面向超算领域且 Alpha 生态不成熟难以获得较多份额。海光、兆芯受制于 x86 内核层级授权,创新可信程度较弱且海光无桌面授权。我们判断飞腾、鲲鹏和龙芯将在党政市场占优。
龙芯研发起步最早,党政市场原始份额较大(约占 70%),国产应用适配厂商较多,但 MIPS 生态及性能不足,随着鲲鹏进入场及飞腾不断成熟,ARM 的生态和性能优势将逐步体现,同时因鲲鹏受制裁选择性布局党政市场,判断飞腾将逐步获得党政信创市场最大份额。行业端市场空间大,对性能要求高,鲲鹏、海光此前绝对领先,随着飞腾推出腾云S2500 多路服务器芯片产品,性能提升数倍,亦有望推进行业端市场。