中国AI长卷(二):框架立基
2021年正值科技摩擦之际,我采访到一位工业机械公司的技术负责人,向他问到:“制造领域有没有一些“卡脖子”的情况?”他提到,“工业智能制造的核心要素,可以归纳为“三软三硬”。三软主要是指大数据、人工智能和工业软件,三硬主要是指核心装备、制造工具和材料。
卡脖子这个问题,在各行各业各个领域都普遍存在”。 “反倒是深度学习框架,现在的情况还好,没有卡脖子。TensorFlow是开源框架,虽然也是国外的,但目前还没有封闭,不过也不排除它后期还会封闭。这也是为什么我们公司选择国产深度学习框架,一是使用门槛更低,二是防患于未然。客观地说,国产框架离TensorFlow还有一定的差距,但这个差距在肉眼可见地缩小。”
从传统的深度学习模型时代,到方兴未艾的大模型时代,都离不开AI框架的平台化支撑,其重要性不亚于芯片。但和芯片不同的是,与大模型发…
这是基础技术领域一个非常大的进步,也是中国为什么没有错过这一轮大模型AI热潮的原因之一。2021-2024的短短数年,从机器学习到大模型,新旧技术“沧海桑田”,科技行业风云变幻,但AI框架之于产业的重要性,却从未改变。如果说,从信息化、数字化到智能化的漫长进程,就像鱼类走向陆地的进化变迁,那么AI框架,就处于算力层与应用层的中间地带,犹如海洋与陆地之间的那道“海岸”,支撑着各行各业与智能浪潮的交融。
那么,究竟什么是大模型所需要的AI框架?AI框架是如何满足产业链需求的?国产AI框架与海外框架的差距或差异又在哪里?本文就让…
鱼要经由海岸,进化成两栖动物,适应陆地,才能具备在新环境的生存能力,拓宽种群的边界。同理,AI模型从训练到推理的全流程落地,开发者也需要一种基础设施作为助力,这就是AI框架。
一个底层AI框架,至少具备几个特质:
1. 通用性。AI框架作为基础设施,广泛覆盖各类模型,同时简化了AI开发过程,对多种算法进行模块化封装,让开发者不需要“重复造轮子”,可以快速搭建AI模型。比如对多元异构计算硬件的适配兼容,支持大分发多类型任务调度的分布式能力,核心算子库等,是开发各类算法模型都需要的,都要在框架层去解决…
- 生态化。从产业链全局来看,AI框架下接芯片,上承应用,是芯片厂商、应用开发者、软件服务商等多个行业主体都汇聚的中枢地带,形成了非常关键的AI生态系统。拥有一个集聚产业链的自研AI框架,就如同拥有了一条生态丰富、自主可靠的海岸线,是一企乃至一国守住AI疆域的关键。
因此,当ChatGPT代表的大模型爆火之后,焦虑无处不在,“我们没有大语言模型怎么办?”“高端算力卡被禁了怎么办?”“基础软件卡脖子怎么办?”但同样至关重要的底层AI框架,却没有出现“什么时候才能有自己的框架”的焦虑。试想一下,如果国计民生重点行业的大模型,建立在海外企业的框架上,开源许可证的断供风险、数据安全风险可想而知。幸好,国产AI框架,早就做好了准备。
目前,国际有两大主流AI框架TensorFlow(谷歌)、PyTorch(Meta),而中国自研的AI框架,按照其厂商可以分为三类:
一是以百度为代表的AI头部科技企业推出的,如飞桨paddlepaddle,基于先进模型和产业生态积累,布局AI框架,建立智能业务的体系化优势。 中国软件产业40年功勋人物、“国家卓越工程师”称号、百度CTO的王海峰,曾回忆文心一言的开发过程:2023年要在算力需求爆发、供应紧缺的条件下,快速跟上ChatGPT的趋势,正是基于百度的深度学习框架飞桨paddlepaddle,下游跟主流的芯片厂商做了适配,任何好的算力,我们都能用得起来,很快完成了大模型训练。
二是以华为云为代表的AI云服务厂商推出的,如昇思mindspore,通过AI框架,在云基础设施和行业云用户之间搭建起桥梁,提供完整的云端大模型服务。 去年大模型的百花齐放,就是很多ToB企业和软件公司,利用华为云上的AI框架昇思mindspore,以及盘古大模型、昇腾AI云服务等,支持国内各类开发者、服务商等结合行业应用场景,做出原创模型,支撑了国内多个领域训练并首发大模型,加速了大模型走向产业化的进程。
三是垂类AI服务商、研究者推出的深度学习框架,具备某些独特的技术特性或应用场景,比如旷视科技(Megvii)在计算机视觉领域的专长,使其MegEngine框架在图像处理任务上表现突出;清华大学计算机系推出的Jittor,特别适合于研究和教育领域,便于快速实验和算法原型开发;腾讯优图的NCNN框架专为移动端和嵌入式设备优化,适合资源受限的环境或边缘计算;一流科技的Oneflow,也是业内完整的深度学习框架类产品。
不同于英伟达基于芯片构建的软件生态体系,国产AI芯片厂商受限于产品规模,自研软件配套的应用范围比较有限,有待发育,就不详述了。综上,面对大模型掀起的这一轮AI浪潮,海外框架平台生态蓬勃,起到了一个“海阔凭鱼跃”的作用。国产AI框架也没有缺席,为各行各业探索大模型,奠定了基础,汇聚了力量。
AI框架之所以没有缺席,是中国产学界人士“板凳甘坐十年冷”,一点一滴地构筑而成的。这个过程,遵循了技术领域的“双漏斗”规律,是一个从扩散到收敛,从收敛到扩散的过程,其间经由开发者不断选择和淘汰,最终演化成了今日格局。
第一阶段:早期时期的扩散漏斗(Diversity Phase)
新技术出现的初期,由于技术尚未成熟,新的想法和产品层出不穷,市场和用户对于哪种技术会最终胜出存在很大的不确定性,因此会出现多样化的技术流派。 PC操作系统、移动互联网OS都经历过百花齐放、多家争鸣的阶段,AI框架也不例外。深度学习大行其道的时候,数据、算法和算力激增,工程复杂度提高,开发者非常需要…
同一时期,国内还没有互联网企业或科技公司做框架,部分高校在学术科研角度做了一些零散的工作。构建完整的深度学习框架,是2013年百度开始。因为很早就关注到深度学习技术,百度更早遇到了深度学习应用上的一些挑战,比如所有的算法从头写,开发效率低,经常出错;每个深度学习开发团队写的程序差异很大,模块无法复用,兼容性也不高,急需一个统一框架。于是2013年,百度开始在框架上投入。据了解,当时百度内部也是框架百花齐放,开发了多个深度学习框架,解决不同业务的不同问题。 值得注意的是,早在此时起,国内外的框架就已经显露出差异化的特质。以Caffe、Torch为代表的海外框架,更偏向于学术、工程师使用;以百度为代表的国內框架,从产业土壤上生长出来,一开始就很注重实用性、功能性、分布式训练、硬件优化等产业特性。
第二阶段:竞争时期的收敛漏斗(Consolidation Phase)
随着时间的推移,更主要是AI巨头如谷歌、Facebook、百度的优势框架相继开源,其他框架逐渐被淘汰、合并,多样化的框架格局开始向几家主导“收敛”。 2015年开始,谷歌大脑宣布TensorFlow开源,2016年百度飞桨宣布开源,2017年Meta人工智能研究院(FAIR)宣布PyTorch开源。开发者逐渐集中到几个主导者生态中。
曾经的热点框架如Theano、CNTK(微软)、Keras、Caffe2都相继停止维护,或被主流框架收编,百度内部也开始将多款框架收敛为paddlepaddle,并正式对外开源。
这一阶段,海内外并不“同此凉热”。
一方面,PyTorch凭借极强的学术灵活性、易用性,迅速崛起,已经发布很快成为爆款,成为围剿谷歌“框架霸权”(TensorFlow不兼容其他开发框架)的生…
另一方面,当时国内很多企业的AI意识还没有觉醒,以计算机视觉为代表的深度学习技术,很难满足产业落地的精度需求。因此,当海外AI巨头围绕框架“火星四溅”的时候,中国的深度学习框架依然是“冷板凳”,企业中只有百度一家在坚持做。 如果说,当时海外框架是因竞争而主动收敛,那国内框架就是因为遇冷而被动孤守。
第三阶段:摩擦时期的再生漏斗(Renewal Phase)
当主导框架不再适应时代需求,就会出现新的创新浪潮,导致技术的多样性再次增加。“TensorFlow、PyTorch两分天下”的局面被改变,国产AI框架的创新再生大爆发,是在2019-
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。