大模型的算力竞赛,火山引擎给出了解决办法

图片

作者 |林小白

ChatGPT横空出世后,通用人工智能AGI成为新方向,大模型LLM成为AI技术的新明珠。

因为计算机真正开始理解人类的自然语言,各种大模型开始有了逻辑能力。

和之前的语音交互产品只能进行简单机械的对话不同,和ChatGPT的交谈中感受到的是对方是个拥有思想且大脑迅速运转的年轻人,不仅能写论文、写文案还能搞创作,编程、作图、写剧本样样精通。

如此强大的AI应用出道即顶流,仅用了2个月的时间,就达到了全球1亿用户。关于ChatGPT的话题讨论从去年年末延续至今。

图片

ChatGPT爆火后,随即掀起了一场大模型的探索热潮。“我们正处于AI的iPhone时刻”,我们在经历从Mobile时代进入到LLM时代。

国外微软、谷歌、meta等科技巨头不约而同加大对大模型的投资和布局,即便是一边担心“失控的人工智能”可能带来潜在的风险,马斯克也没能抵挡住人工智能的诱惑,近期被曝正在推特内部启动人工智能项目。

另一边,国内的大模型一夜之间“遍地开花”。

继百度打响国内大模型第一枪后,目前阿里、京东、华为、360等互联网大厂,商汤、昆仑万维、毫末智行等科技公司也纷纷推出了自家的大模型,与此同时同花顺、科大讯飞等也跑步入场。据民生证券的统计,国内目前已有超30个大模型亮相。

引发广泛关注的还有互联网大佬展开的大模型创业潮。目前已有多位互联网大佬官宣投身大模型创业,4月10日,在获得5000万美元启动资金后,王小川官宣AI大模型公司“百川智能”;王慧文的“光年之外”在A 轮融资后估值已达到10亿美元。

大模型还在继续吸引互联网大佬和公司为其前赴后继。4月14日,雷军宣布杀入大模型,在社交平台上首次发表小米对大模型和AIGC的看法,并定下“全力以赴、坚决拥抱”的发展基调,同时透露“正在研发一些有趣的技术和产品”。

 

但这场大模型狂欢中,依然要依赖数据、算力、算法。数据可以积累、算法可以调试,但算力,是一场需要实力才能开展的“军备竞赛”。

如何解决算力和成本难题?

对于大模型企业来说,想要做出大模型,大量算力和成本的消耗是不得不跨越的门槛。在有了算力之后,如何应用算力,提高算力的使用效率,也是另一个需要解决的难题。

据国盛证券估计,类ChatGPT的大模型训练一次就要烧掉200万-1200万美元,仅每日的电费消耗就高达4.7万美元;仅2022年,OpenAI公司净亏损高达5.45亿美元。

事实上,外界可能更多关注与各家大模型对话的“答案”是否正确、是否有价值,但这个的答案背后是对大模型的喂养、训练、优化、调整,需要大量的算力成本投入。

“大模型势必将带动云上AI算力急剧增长。”火山引擎总裁谭待认为,AI算力的工作负载与通用算力的差距会越来越小,这会为各家云厂商带来新的机会。

而大模型的大爆发,对于云厂商来说是机遇也是挑战,算力需求大增的同时,也会对数据中心、软硬件栈、PaaS平台带来新的挑战。

谭待以数据中心的算力结构为例:“大模型需要大算力,虚拟化会带来资源损耗,规模越大就损耗越多。”

不做大模型的火山引擎如何给大模型企业提供算力供给的同时解决资源损耗,进一步提升效率?对此火山引擎给出了一套自己的解决方案。

首先在底层技术上,谭待认为,未来3年内,大规模的算力中心,都将形成CPU+GPU+DPU的混合算力结构,CPU负责通用计算,GPU负责AI计算,DPU负责资源卸载、加速和隔离,提升资源效率。

因此在2023“原动力大会”上,火山引擎发布了自研DPU(数据处理器)等系列云产品,比如新一代自研DPU能够实现计算、存储、网络的全组件卸载,释放更多资源给业务负载。

 

目前其自研DPU已经显现出强大的实力。据介绍,网络性能高达5000万pps转发能力、延迟低至20us。基于自研DPU的各类计算实例性能也有显著提升,例如适用于大模型分布式并行训练场景的GPU实例,相较上一代实例集群性能最高提升3倍以上。

而为了给大模型企业提供高稳定性和高性价比的AI基础设施,火山引擎还进一步升级了机器学习平台。

 

去年7月,基于公司统一的机器学习系统,火山引擎正式发布了机器学习平台,据谭待介绍,今年的机器学习平台主要有三个升级点。

一是能带来全新的实验管理-模型效果对比功能,仅需极少代码改动,用户就可以通过该功能实时跟踪和对比训练效果,观察趋势,加速模型迭代;

二是GPU弹性计算实例也能实现灵活资源调度,随用随取,最高可节省70%的算力成本。

三是平台针对大模型训练场景进行了全面优化:目前平台可以支持万卡级别大模型训练场景,微秒级超低延时网络,让大模型训练更稳更快。

字节跳动副总裁杨震原认为,业务创新需要试错,试错要大胆、敏捷,但试错也一定要控制成本。

支持万卡级大模型训练、微秒级延迟网络,让大模型训练更稳更快,这是火山引擎给出的解决办法。

火山引擎自研DPU+机器学习平台的策略,会给大模型公司带来什么变化?

自己不做大模型的火山引擎

为什么大模型企业不约而同的选择火山引擎?归根结底在于“好用”。

火山引擎机器学习平台已经经过抖音等海量用户业务长期打磨。通过潮汐、混部等方式,火山引擎实现资源的高利用率和极低成本。

以抖音推荐系统为例,工程师用15个月的样本训练某个模型,5小时就能完成训练,成本只有5000元。

而火爆全网的抖音“AI绘画”特效,从启动到上线只用一周多时间,模型由一名算法工程师完成训练。

另一个不可否认的事实是,虽然在国内云厂商中火山引擎“年纪尚小”,火山引擎却成为了多数大模型企业的首选。

“国内有数十家做大模型的企业,大多已经在火山引擎云上。”谭待表示。

MiniMax是一家成立于2021年的AGI初创公司,目前MiniMax大模型在文本、视觉、声音三种内容形态上,已经拥有非常全面的基础能力。

图片

比如文本大模型拥有着业界领先的多轮记忆和逻辑处理能力,不仅能够完成跨任务、跨语种的文本创作,还拥有代码生成的能力;视觉大模型,除了文本生成图像的能力以外,还能够实现零样本的风格迁移,以及同一人物的连续创作,而声音大模型仅需提供数10秒的说话语音,便可以高保真的完成声音的复刻。

但据MiniMax联合创始人杨斌透露,从起步阶段公司就面临着“技术如何启动?产品怎么做?三算力从哪里来?”的问题。

“对于一家创业公司来说我们无法在一开始就拥有大量的算力,但是我们非常幸运的发现,中国的公有云市场已经积累了,大量的算力和经过验证的基础设施。我们或许是国内第一家,在公有云上实现千卡以上并行训练的公司。”杨斌表示。

从去年开始,MiniMax与火山引擎建立了长期的战略合作伙伴关系,依托火山引擎机器学习平台,研发了超大规模的大模型训练平台。

据杨斌介绍,这高效支撑着其三个模态的大模型,每天千卡以上的常态化稳定训练。在并行训练上实现了99.9%以上的可用性。而除了训练以外,还同步自研了超大规模的推理平台,目前拥有近万卡级别的GPU算力池,稳定支撑着每天上亿次的大模型推理调用。

“去年和火山引擎一起为大模型训练搭建了高性能计算集群。接着一起致力于提升大模型训练的稳定性,提供自研的AI调度引擎和故障检测能力,保证了千卡训练的任务稳定运行。”杨斌表示。

此外,火山引擎在自动驾驶领域的合作也有了新进展。

今年4月11日,自动驾驶人工智能公司毫末智行发布了应用于自动驾驶生成式大模型,DriveGPT“雪湖·海若”。而DriveGPT的诞生同样离不开大算力。

据了解,今年1月,毫末智行携手火山引擎联合打造了智算中心雪湖·绿洲(MANA OASIS),用于毫末智行的自动驾驶大模型训练。基于火山引擎的端到端的智算云解决方案,MANA OASIS算力达670PFLOPS(每秒浮点运算达到67亿亿次),助力毫末智行的模型训练效率提升了100倍。

图片

毫末智行CEO顾维灏称,有了这个智算中心,以及智算中心上面训练框架持续的保障、持续的迭代,才能让我们的大模型能够连续、稳定、高效的训练出来。

在大模型涌现的当下,火山引擎却多次强调不做大模型,火山引擎要做的是为大模型客户提供高稳定性和高性价比的AI基础设施。

谭待认为多模型也一定会是未来趋势,多云多模型是长期的IT格局,“对于火山引擎而言,在多云多模型的时代服务好模型企业和应用企业,是我们的关键使命。”

人已赞赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索