龙空技术网

破解大模型算力瓶颈,不能各自为战 | 代表委员议政录

新京报 93

前言:

此刻姐妹们对“中国科学院大学计算技术研究所”大致比较注重,大家都想要知道一些“中国科学院大学计算技术研究所”的相关知识。那么小编同时在网络上汇集了一些有关“中国科学院大学计算技术研究所””的相关资讯,希望大家能喜欢,你们快快来学习一下吧!

关注全国两会系列评论

2022年10月9日,“天河”新一代超级计算机系统在国家超级计算长沙中心正式运行启动。 图/新华社

大模型是实现新质智能生产力的重要手段,在习近平总书记强调的“推动高质量发展,构建新发展格局”中占有举足轻重的地位。而习近平总书记指出的“要深化科技体制改革,增强科技创新能力”,就是我们加快发展算力经济、促进大模型应用创新的指导方向。

近来美国在大模型领域持续发力:Meta公司拟采购35万片英伟达GPU发展自己的大模型,软银集团正尝试投入1000亿美元研发自己的AI芯片,OpenAI更是计划筹集7万亿美元研制生产新AI芯片。

但是,在美国的封锁之下,能够用于大模型训练的国产智能算力芯片的创新和供应显著落后,国产多模态大模型的训练受美国制裁的影响,尤其是在SORA短视频生成大模型推出后,更是被拉开了更大的差距。

当前,我国在大模型方面存在的问题,首先是大模型训练需要的国产高端AI芯片供应不足,生态建设严重落后,短期内难以缓解。

国内领先的AI芯片厂商因半导体工艺受限或进入美国实体清单的原因,难以使用最新工艺量产所设计的国产芯片。同时,由于英伟达公司采用了封闭的CUDA生态环境,国产芯片厂家不得不另起炉灶或被迫与CUDA兼容。全新的生态环境不但推广时间长,难度大,且用户学习成本高。即使与CUDA兼容能够得到一些生态兼容的好处,但长期还是受制于人且面临法律风险。

与此同时,国产AI芯片公司缺乏顶层设计,各自为战,无法形成合力,延误了能够替代英伟达高端训练GPU的国产AI芯片的尽快推出。

目前,国内虽然已形成了多家优秀AI芯片厂商方阵,但由于缺乏算力芯片国家或行业标准,各厂家各自为战,形成了自己的生态体系且互不兼容,使得用户在选择国产芯片时面临很大风险,学习和运营成本急剧上升,无法保证应用效果和运营前景。

这也直接导致,目前,国内尚未有任何一家AI芯片公司产品能够支持万卡并行大模型训练,更不用说未来的十万、百万甚至千万卡并行的挑战。

此外,大模型落地所需要的配套软件、服务生态及市场缺乏投资、引导与建设。所需要的低功耗芯片和算子库的开发与应用、配套技术等明显不足。大模型产品形式单一,运营成本高,运营模式死板,提高了传统企业应用大模型的门槛、增加了研发费用和成本。

为此,建议设立能够支持万亿级参数多模态大模型训练的专用超算攻关专项,快速缓解国产主权基础大模型训练的算力瓶颈。

过去的15年,我国超算的研制水平已经达到世界领先水平,形成了神威、天河和曙光三大世界级超算研制团队,夺得了十一次世界冠军和两次超算应用最高奖戈登贝尔奖,神威新一代超算证明可以支撑悟道万亿规模参数的大模型训练过程。

通过该专项计划的支持,可以充分利用超算领域多年积累的人才和技术优势,快速形成突破,尽快缩小我国在主权基础大模型训练领域与美国的差距,为研制更先进适用的大模型专用训练芯片和系统赢得时间。

同时要集中全国AI芯片研制力量,组建统一研发团队,优中选优,尽快研制出能够对标英伟达高端训练GPU的大模型训练专用国产芯片,软件和系统。

可以组建由业内权威专家和各主要AI芯片厂家参加的智能算力发展专项组,通过多轮竞争,确定最优的训练芯片研发技术路线和国家标准,择优集中投入资金和优秀人才资源,整合芯片产能,尽快研制出能够满足国产主权基础大模型训练的十万卡、百万卡并行算力需求的AI芯片和系统。

大力发展经济实用大模型推理产业链,也至关重要。通过投资引导低功耗推理芯片和算子库技术攻关,鼓励大模型压缩、适配和性能调优等技术研发,通过规模效应实现成本共担,降低模型推理算力成本,形成经济适用国产大模型推理产业链。

为大模型企业和愿意通过大模型手段智能化转型的传统企业提供必要的支持和配套服务,快速形成新质智能生产力,助力国产大模型平台企业生态建设和占领市场。总之是要集中力量、多路并进,才能解决我国大模型算力瓶颈问题。

撰稿 / 张云泉(全国政协委员、中国科学院计算技术研究所研究员)

编辑 / 何睿

校对 / 赵琳

标签: #中国科学院大学计算技术研究所