曙光存储的“引力弹弓”,让AI向产业宇宙加速狂奔

《流浪地球》中,科学家利用木星的“引力弹弓”效应,为地球加速,成功脱离危机,是整部电影最激动人心的高潮段落。加速,不仅在科幻电影中揪人心弦,对AI行业也十分重要。


比如说,千亿级大模型必须写容错点checkpoint,一旦数据存储发生灾难性故障,导致AI训练中断,对于一些着急上线的企业来说,时间就是生命线,可能造成难以弥补的损失。所以说,确保AI快速稳定地进行,是产业智能化的必要条件。为AI加速,存储也可以起到“引力弹弓”效应。试想一下,当你正在滑滑板,有一个速度很快的人从你旁边经过,拉了你一把,就如同弹弓弓弦一样,给了你一个加速前进的力。存力之于AI,就起到了类似的作用。存力和算力互相协同,通过存力来缩短数据读写时间,减少算力的空转等待时间,可以有效提升AI大模型的训练效率。不过,想充分释放存力的“引力弹弓”效应,传统存储的性能、可靠性等,就有些力不从心了。锻造一张最适合AI的“引力弹弓”,曙光存储出手了。此前,曙光推出的智存产品搭载五级加速方案,已经在政务、科研、金融、医疗等行业场景,相继落地。就在近期,又宣布与智元机器人合作,成为具身智能领域的存力伙伴。在曙光存储的存力底座上,越来越多的AI模型/能力,正加速奔向产业宇宙。我们就跟随这张“引力弹弓”的发射方向,来一场奔赴星辰大海的AI之旅吧。“引力弹弓”效应,利用了宇宙中天体的引力,当航天器进入引力影响范围时,被拉了一把,行程就会开始加速。对AI来说,存储也自带加速“引力”吗?答案是肯定的。至少从四个方面,存储可以“拉”AI一把:首先是性能。计算越复杂,对存储性能和带宽的要求越高,存储必须足够快,才能匹配上GPU或AI芯片,否则就会导致算力空载、空转或等待。在模型训练中断时从checkpoint快速写回,也可以提高AI计算效率。其次是质量。“garbage in,garbage out(垃圾进,垃圾出)”,存储承载的数据质量,直接影响到大模型训练的效果,随着大模型需要“咀嚼”的数据规模、类型越来越多,AI存储必须具备对海量规模、异构等数据的高效吞吐和处理能力。第三是安全。存储系统的管理审计、权限管理等,从数据I/O通路上保证用户数据的安全可靠,不会有篡改、不可追溯等问题,也是AI用户十分看重的。第四是优化。存储可以结合用户业务,进行一些个性化的微调与适配,比如了解到业务数据中的大文件多还是小文件多,随机访问多还是顺序访问多,在此基础上进行参数调整,可以针对性优化,提升业务体验。因此,存储在AI基础设施中的优先级不断提高。去年大模型爆火初期,AI行业用户一开始只关注存储产品的容量,后续则慢慢意识到存储的性能、开放兼容性、AI应用适配性等更多维度指标的重要性。从能用到智用,存储之于AI的“引力”正越来越大,起到了越来越重要的加速作用。AI存储对行业用户的吸引力,越来越大,但动辄万亿参数、万卡集群的AI大模型,对存储的要求也指数级上升。市面上是否有超强AI存力的产品,像木星推动地球一样,发挥出强大天体才具备的“引力弹弓效应”呢?曙光决定来打造一个。曙光ParaStor分布式全闪存储,作为最懂AI的存储产品,核心特点就是一个字:快。可以将AI整体表现提升20倍以上,让数据无需等待,AI也就快人一步。具体是怎么做到的?曙光存储运营总监石静向我们解密。这张最适合AI的“引力弹弓”,有两大核心:一是最强的数据底座,二是最佳的AI应用加速套件。可以这样理解,数据底座就像是天体本身的引力足够大、足够强。曙光存储的ParaStor分布式全闪存储,在整个硬件层面进行提升,可以发挥出极致性能。带宽倍数提升,单个节点可以做到最高150GB/s带宽,一秒钟提供150G的数据吞吐。IOPS十倍提升,一秒钟可以处理320万个I/O请求,实现高效吞吐。而应用套件,就像是在原有引力基础上再…


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

曙光存储的“引力弹弓”,让AI向产业宇宙加速狂奔

https://www.gptnb.com/2024/09/01/2024-08-31-auto4-QgHhPJ/

作者

ByteAILab

发布于

2024-09-01

更新于

2025-03-21

许可协议