国产万卡系统究竟怎么样了?中国工程院院士郑纬民:国产万卡很重要,但也很难,异地卡联合训练不太可行
编辑 | 言征
出品 | 51CTO技术栈(微信号 :blog51cto)
临近年底,国产国工业内曝出了不少大新闻,系统训练比如大模型撞墙 、究竟谷歌的样中院士Gemini 2 Flash和量子芯片Willow ,再比如英伟达面临着中国反垄断调查的程院产万危机等 ,所有这些 ,郑纬让国产AI算力的民国话题再次成为圈内的热议点 。
那么,卡重可行国产算力中心构建究竟什么情况 ?但也地背后支撑大模型训练和推理的计算机系统现在都面临着怎样的难题 ?为什么包括ChatGPT在内的大模型时不时就会出现宕机的情况?
“为什么异地卡联合训练很难 ?数据从从北京到贵州需要5天,亿华云有了结果后再到上海又需要5天 。难异”
12月13日,联合中国工程院院士郑纬民教授在中科金主办的不太《大模型技术与应用创新论坛》上带来了一场信息密度极大的内容分享,既有干货,国产国工也有一些有趣的系统训练猛料 。
郑院士表示 ,究竟构建国产万卡系统非常重要但难度也很大,真相非常残酷——异构卡联合训练不如单一架构联合训练划算,而异地卡联合训练效果同样不佳。
此外 ,大模型完整的训练和推理过程不止GPU算力那么简单 ,还有很多的源码下载系统工作需要深入研究 ,比如存放训练数据的硬盘、再比如数据预处理 ,有消息称GPT4 ,1万块A100要训练11个月 ,有5个月的时间都在做预处理。
重要的是,对于中国国产而言 ,最大的难点之一还是在于国产计算系统的核心基础软件,源码库生态还不够。
郑院士还分享了当红大模型独角兽月之暗面的AI产品Kimi的一些进展和研发经历 ,他透露了初始时Kimi因为流量暴增宕机时,原来是“一死机就买(GPU)卡” ,现在采取了Mooncake架构之后 ,就再也没出现宕机的情况 。
摘要如下 :
为什么算力产业快速发展 ,一是全面启动东数西算 ,二是AI让智能算力需求爆发 。人工智能大模型生命周期五个过程,服务器租用每个过程都需要大存储、大算力 。万卡很重要 ,我们都希望有万卡,但现在做得不太好,很难。异地卡、异构卡训练效果非常差 ,暂时不要考虑。清华带队开发的“八卦炉“”是一个系统软件 ,装到卡里性能就会好了。如果效果好,可以少买30%的卡。免费模板料还很多,话不多说 。以下是郑院士的演讲全文:
1.大模型+ ,中国还是可以超过美国的
郑纬民:谢谢魏所长 ,喻总和各位朋友 ,今天用25分钟时间讲讲大模型训练机理的计算机系统怎么样了。
今年大模型有两个特点 ,第一是分析基础大模型进入多模态状态 ,不光有文本 ,还有图像 、建站模板视频 ,就是多种模式,多模态这是第一个特点 。第二个特点 ,真的用起来 。大模型+实际的东西 ,比如大模型+金融 ,大模型+医疗、大模型+汽车 、大模型+智能制造 、大模型+各行各业。
前几年不是说大模型没有用 ,也用了 ,但更多的是给它几段话 ,让它写一个PPT ,画一幅画出来 ,写一篇文章出来 。这也挺好的 ,但今年的应用真的是大模型跟国民经济GDP,跟生活水平提高密切结合。我一直认为基础大模型,我们的水平跟美国人比还是属于差一点 。他们比我们做得好。但“大模型+”这件事我们还是有希望超过美国的。
2.大模型生命周期的五个环节
大模型有五个过程 ,第一是数据获取,大模型就是训练数据,第一件事是把数据获取起来 ,从哪里来?从世界各地 。但取来的文件是小文件,小好 ,省硬盘,这是一个特点 。但是个数多得不得了,数百亿个文件。这些文件都放到硬盘里,但要记住放在硬盘的哪个位置里 。一百亿个文件有一百亿个位置 ,我们一般叫源数据处理,也就是说像个目录一样 ,数百亿个位置你要记住,对计算机来说比较麻烦 ,一台计算机搁不下 ,那就两台、三台 、五台、十台 。但随着位置多了,找位置要找一会儿,怎么让数据搁得下,找得快?这是数据获取比较麻烦的事。所以最后结论是把数据拿来放到硬盘里 ,多得不得了 。这是第一件事。
第二是数据预处理