256TOPS算力+超大存储带宽,燧原第二代云端AI推理卡来了,性能比肩7nm GPU

智东西(公众号:zhidxcom)

作者 | 心缘

编辑 | 漠影

智东西12月7日报道,今日,AI芯片独角兽燧原科技正式推出其第二代云端AI推理加速卡云燧i20。

这距离燧原科技发布其第二代云端AI训练加速卡“云燧T20”,仅仅相隔5个月。云燧i20的发布,标志着燧原科技在云端AI算力加速领域,从训练到推理的完整产品线已全面迭代到第二代。

▲燧原科技CEO赵立东和COO张亚林发布第二代云端AI推理产品

据悉,云燧i20是业内首个拥有超大存储带宽的AI推理加速卡,其单精度张量TF32峰值算力达128TFLOPS,整型INT8峰值算力达256TOPS

基于燧原科技的自主创新芯片架构,采用12nm工艺制造的新一代“邃思”AI推理芯片实现了媲美业内7nm GPU的计算能力,并可在相同性能表现下提供更高性价比

很难想象,仅用三年多的时间,燧原科技便凭借极强的团队执行力、高效的研发落地能力,连续迭代两代、三款云端AI芯片,在数十家云端AI芯片玩家中脱颖而出。

如今,搭载第一代邃思芯片的集群规模落地,第一代训练及推理产品已产生过亿订单及收入,云燧i20加速卡将于明年第二季度量产燧原科技累计融资超30亿元,其团队也完成新的组织调整,团队规模从年初的约400人增至逾650人。

它是怎样做到的?近日,智东西对话燧原科技创始人兼COO张亚林,以期更深层次地了解这个中国AI芯片赛道中尤为独特的样本。

▲燧原科技全新一代“邃思”云端AI推理芯片

一、对标业内旗舰 GPU ,训练 & 推理产品全面进入 2.0 阶段

新一代“邃思”云端AI推理芯片和云燧2.0加速卡,让燧原科技在2.0阶段完成了闭环。

“性能赶超业内旗舰GPU的云燧i20正是我们的关键成果之一。”燧原科技CEO赵立东说,“当前,我国芯片产业正处于激烈的成长与蜕变时代。燧原科技以「做大芯片,拼硬科技」时代使命,基于原始创新的软硬件架构,正在不断加速技术创新与产品迭代。”

从2018年3月成立至今,燧原科技整个团队像齿轮般严密地咬合转动,精准执行了产品路线图。

在燧原1.0阶段,燧原成立18个月即推出第一代云端训练产品,实现从0到1的破冰。如今其第一代训练及推理产品已规模化落地,它从客户处收集到的需求反馈,正被输入到第二代产品中。

2020年,“从1到N”的燧原2.0阶段顺利推进,陆续完成新融资、集群商用落地、第一代推理产品量产发布等重要节点。同年4月,燧原正式启动新一代“邃思”AI推理芯片及云燧i20的研发。

自立项起,燧原便定下目标,第二代推理产品性能要达到国际友商前一代旗舰的2.5倍以上,大部分打平甚至在某些方面超越友商的新旗舰产品。

为了达成一年流片的目标,燧原将从前期架构、设计、集成、验证、模拟、软件适配到量产等全流程分解成多个收敛阶段,通过全体工程团队高度协同、精准合作,确保每一步按期作业。

应对来自晶圆、基板、材料及测试设备等各层面的全球供应链挑战,燧原密集地与全球供应商进行前期沟通,努力解决意料之外的供应链问题,最终如期完成计划。

▲燧原科技第二代云端AI推理卡云燧i20

据张亚林分享,在多项基准测试中,云燧i20加速卡的模型性能、能效比均处于国内领先水平。

浪潮信息与燧原科技通过元脑生态联合创新,在AI整机系统、AI算力优化、场景方案落地等多方面深入合作。浪潮信息副总裁刘军评价道:“此次云燧i20的发布,标志着燧原从训练到推理全面进入2.0时代,这也是国产AI算力发展的里程碑。”

二、业内首个超大带宽推理加速卡,打出软硬协同系统组合拳

与第一代推理产品云燧i10相同,云燧i20主要面向泛互联网、传统行业和新基建等赛道。

该AI推理加速卡支持视觉检测跟踪分类、语音识别与合成、自然语言处理等主流AI应用场景,并进一步提升了模型覆盖和泛化支持能力。

搭载于云燧i20的新一代“邃思”采用12nm工艺、第二代高性能计算核心和数据引擎,通过升级其自研架构GCU-CARA(通用计算单元和全域计算架构),大大提高了单位面积的晶体管效率,实现堪与当前业内7nm GPU匹敌的计算能力。

得益于12nm成熟工艺带来的成本优势,云燧i20在相同性能表现下更具性价比优势,且供应链体系更加稳定成熟,能及时满足客户的业务需求

从算力规格来看,其目标实现得相当不错:

计算方面,云燧i20全面支持从FP32TF32FP16BF16INT8的计算精度,并在兼顾全精度算力的同时,大幅提高了整型运算。

其单精度FP32峰值算力达到32TFLOPS,单精度张量TF32峰值算力达到128TFLOPS,整型INT8峰值算力达到256TOPS

通过软硬件技术多重优化,云燧i20大幅提升了推理性能,浮点算力较云燧i10提升到1.8倍,整型算力提升到3.6倍。

与主流旗舰GPU相比,云燧i20的模型性能可以对标英伟达A10,是T42.5~3倍,并在性能深度优化能力、成本方面更具优势

存储方面,云燧i20拥有迄今业内最大的云端AI加速卡存储带宽。

此前燧原科技第二代云端AI训练芯片在国内率先支持HBM2E高带宽存储方案。如今云燧i20推理加速卡更进一步,基于HBM2E可提供超越同类产品水平的819GB/s超大存储带宽为各类云端推理业务提供高吞吐、低延时的性能。

如今神经网络参数越来越多,无论是语音识别、图片识别、视频内容分析等感知类应用,还是内容推荐、欺诈交易拦截等决策类AI应用,在云端大部分都是以实时在线的方式提供服务,对数据带宽的需求不断上涨。而速度更快、密度更高的内存,有助于高端处理器兼顾高带宽和低延迟,保障AI相关服务准确、平稳、高效的运行。

软件方面,根据客户反馈的需求,燧原将其推理软件栈驭算进一步升级,使其在性能、开发效率和模型覆盖面上得到大幅提升。

驭算引入了通用高层图优化和大规模算子融合技术,充分释放了大容量片内存储和高带宽存储的利用率,将模型平均性能提升3.5倍,硬件算力利用率平均提升2倍。

为了更加匹配客户开发习惯,驭算通过升级的编程模型以及算子自动分片、自动生成技术,使得自定义算子开发效率翻倍,大大降低模型迁移成本。驭算还增强了对动态性的支持,使云燧i20在检测、语音识别、语义理解等场景更具竞争力。

在经济效益和部署灵活性层面,基于虚拟化和多实例加速技术,云燧i20能够实现单卡多用户,同时支持6个业务互不干扰、安全隔离运行。这让更多云端推理应用同时享受专有的算力加速,为客户业务架构带来轻耦合、灵活可靠的实现方式,显著提升资源利用率与投入产出比。

作为一家数据中心基础设施提供商,燧原科技已经能提供包括算力、数据、存储、互联在内的一系列系统化解决方案。

三、一代落地、二代量产、三代设计,高效滚动式研发背后的三大核心竞争力

对于创业公司来说,云端AI芯片是难攻的高地。

一方面,芯片研发有高壁垒、高成本、低容错率等特征,任何一个环节出现差池,此前投入的数千万资金就可能通通打水漂。另一方面,NVIDIA独霸云端AI训练市场,英特尔不断强化CPU的AI推理性能,其技术和生态壁垒均十分深厚。

面对残酷的市场环境,燧原科技一路高举高打,快速迭代研发落地,第一代产品还未量产,第二代产品已经开始滚动式研发。

是怎样的底气,让燧原无惧风险,制定如此紧密的产品迭代周期?张亚林将燧原科技的核心竞争力归纳为三点:迭代快、系统化、成熟配置。

首先,天下武功,唯快不破。

云端AI产品具有共享的、多用户等特征,每个客户有差异化的场景及业务模型,与对AI芯片架构的通用性提出了更高要求。相比芯片采用几纳米工艺、什么技术,云端AI客户更关注迁移成本、降本增效和性价比是否能达到自身应用的要求。

“当我们开始工程化AI产品的时候,一定要把客户的终极诉求和用户使用习惯带进去,而不是一味地讲纸面参数。”张亚林认为,只有进入客户整个业务系统,才能够真正理解其需求。

因此,对于一家创业公司,最重要的不是产品参数,而是尽快触达客户,拿到反馈,再将其优化思路应用到下一代产品中,通过快速迭代,把芯片与工具链打磨至成熟,并构筑自家客户生态。

燧原科技即是按照这样的逻辑,紧锣密鼓地推进产品迭代:当前其第一代产品规模化落地,第二代产品走向量产,第三代产品已经启动设计。

随着其第二代训练及推理产品成熟,燧原科技可以针对客户的业务场景提供具有高性能及性价比的“训练+推理”完整解决方案,并支持国产服务器和操作系统,帮助客户进行云端系统部署。

其次,燧原科技已经成长为一家AI系统提供商,储备了比纯芯片供应商更广泛的能力。

在云端数据中心,AI的发展不再局限于单点的软件或硬件,计算范式正趋于系统化、集成化。这要求AI公司不仅能提供AI基础设施,也要能提供更高集成度、性价比和能效比的系统,更便捷易用的软件和用户界面,从而提升用户的生产力。

因此,燧原科技从系统的角度思考AI落地,持续布局整个数据中心的新技术,包括集群互连方式、分布式计算拓扑结构、高级封装、先进制程及软硬件全栈的高阶编译等。这些先进技术,构成了燧原快速迭代产品的护城河。

在此支撑下,燧原循序渐进地搭建出一支包含芯片、板卡、集群、软件全栈的完整建制团队,以超强执行力快速推进整体的系统优化,并通过计算、数据、存储、互联四个维度的平衡,将产品成本结构牢牢控制在自己手中。

在千卡液冷集群方面,燧原科技与之江实验室合作的1280卡高性能计算液冷集群方案正在部署,该集群采用燧原科技第一代人工智能训练产品“云燧T11”,计划打造符合国家碳中和政策导向的低碳绿色数据中心。张亚林称:“这是我们在整个系统化方面走出的坚实一步。”

燧原的第三重核心竞争力,是完成了燧原2.0组织、人才、流程、规范制度的全方位底层构建,已具备一家较成熟公司的配置。

AI芯片流片回来,仅仅走完芯片工程化的30%,另外70%的路要靠工程化、量产化,推动其走向业务落地和交付。这背后,要兑现对客户的承诺,离不开一个成熟组织架构的支撑。

目前燧原的研发组织、供应链、IT部门、商务部门、客户支持部门及运营支持团队均组建完备,使其运营底座能够支撑一、二、三代产品间的交叠,从而支持更大范围的客户落地。

这就形成了一个闭环。由客户需求驱动技术更新,将技术价值附着在产品价值上,随着产品规模化落地,再快马加鞭地将客户反馈融入下一代产品设计中,进而驱动产品价值的迭代升级。

四、下一代产品将采用更先进工艺,三个核心生态已打好地桩

自第一代云端AI推理加速卡云燧i10发布,燧原科技便着力构建原始创新的通用算力和自主生态。

以其国产AI算力产品为核心,以商业生态和科研生态为支撑,燧原科技的云端AI训练及推理产品已实现在国家重点实验室、互联网、智慧城市、智慧金融等多家客户的商业落地。

例如在智慧金融领域,燧原科技与上海银行展开战略合作,助力上海银行实现数字化、智能化转型,将金融科技融入银行服务的全流程来优化其客户体验和服务品质。

张亚林也透露了燧原科技的下一步计划。此前其第一代、第二代芯片均采用12nm工艺,第三代产品则将步入更先进的工艺及封装方式。

尽管头部IP厂商已经推出颇具竞争力的AI加速核心,但张亚林并不为此感到担心。相较会造成同质化的第三方IP,他相信:“AI最好的架构一定诞生在自己的软硬件联合设计和原生体系之中。”

明年燧原科技有两个重要目标:一是更大规模地落地燧原2.0产品,实现预期的客户泛化和商业价值;二是按照产品路线图推进产品迭代,用更好的技术和架构,在后续产品中更大化客户价值。

“我们希望用三年的时间,初步达成对整个数据中心解决方案的统一集成,再用五年,实现从整个用户界面来看,燧原的数据中心解决方案是易用、好用、可以迁移的。”张亚林说。

至于如何拓展生态,张亚林认为,从客户视角思考产品,实现产品可用性,然后才到易用性、可迁移性和可维护性,是为关键。

芯片公司必须非常关注需求端的前瞻趋势,包括新的AI算法和应用、新的软硬件技术,并将相应的前瞻性技术纳入到未来产品设计范畴中,与业内更加通用的、更加前瞻的技术生态接轨。

目前燧原科技聚焦于三个生态建设:客户生态、产品和行业生态、技术生态

其中,硬件技术生态是燧原一直以来的优势,燧原与EDA商、封装、测试、制造、晶圆商等紧密合作,在包含先进集成、封装及各种高端IP开发的整个技术生态上持续积累。燧原科技与上海交大、西安交大、之江实验室等高校在构建通用异构计算生态方面的合作,也都是有的放矢,将为其软件技术生态的增强提供助力。

客户生态方面,燧原尽快让更多不同类型的客户用起来,在泛互联网、传统行业、新基建以及产学研各业务线上均已逐步构建客户群和客户生态,并持续收集更多反馈。

产品和行业生态方面,燧原与芯片、板卡、服务器OEM/ODM提供商、云服务商CSP、算法集成商ISV等均有良好对接,随着客户生态不断扩大,整个行业生态也在不断泛化。

结语:云端数据中心日新月异,国产 AI 芯片大有可为

随着国家加大对科技创新的支持力度,AI芯片发展进入快速通道。无论是更多资本涌向创企,还是芯片巨头、互联网巨头及更多创业新秀悉数入局,都共同撑起云端AI芯片产业的繁荣。

云端数据中心日新月异,新的数据中心计算范式正在形成,各类计算、数据、存储、互联、视频加速等解决方案,均有长足发展空间。“因为这个市场足够大,我觉得机会和窗口都还在。”张亚林预测云端AI芯片市场未来两三年会出现头部效应,这将给新进入的厂商一定压力,但最终能否通过市场考验,还是要看产品赋能客户的速度。

在张亚林看来,任何技术路线都可能打造出优秀的用户产品,关键在于理解AI应用场景的本质和规律,选择与市场定位匹配的架构,真正为客户带来AI生产力的提升。因此,创业者们应更加关注客户价值及产品落地,尽早打磨产品基本面。“我很期待更多的AI公司走向商业化之后更好地满足客户需求,共同把这个行业的生态推动起来。”

主营产品:风机,工业空调