900个开源AI工具背后,我看到的趋势

四年前,我对开源机器学习生态系统进行了分析。自那时起,情况就发生了变化,所以这次我打算重新讨论这个话题,本次主要关注的是基础模型的技术栈。


我把完整的开源AI代码库列表放在了“llama-police”(https://huyenchip.com/llama-police,该列表每6小时更新一次。其余大部分也放在了我的GitHub“cool-llm-repos”(https://github.com/stars/chiphuyen/lists/cool-llm-repos)列表中。

(本文作者Chip Huyen是实时机器学习平台Claypot AI的联合创始人。本文经授权后由OneFlow编译发布,转载请联系授权。原文:https://huyenchip.com//2024/03/14/ai-oss.html)

数据

如果你现在觉得AI发展十分火爆,那是因为它确实如此。我在Github上以GPT、LLM和Generative AI为关键词进行检索,仅与GPT相关的就有约11.8万条结果。

为减少工作量,我将搜索范围限定在拥有至少500 star数的代码库。结果显示,与LLM相关的有590个,与GPT相关的有531个,与Generative AI相关的有38个。此外,我偶尔会查看GitHub Trending和社交媒体上的新代码库。

经过长时间的搜索,我找到了896个仓库。其中,有51个是教程(例如dair-ai/Prompt-Engineering-Guide)和聚合列表(例如f/awesome-chatgpt-prompts)。尽管这些教程和列表都很有帮助,但我更感兴趣的是软件,不过我还是将其放进了最终列表,只是最后的分析是基于其余845个软件库(截止本文发布)。

这个过程虽然痛苦,但很值得,因为我更深入地了解了人们正在研究的内容,开源社区的合作程度之高令人惊叹,也让我意识到中国的开源生态系统与西方存在很大差异。

(毫无疑问,我也遗漏了很多库。你可以在这里(https://forms.gle/1ijNSnizgWQaVYK16)提交缺失的代码库,该列表每天会自动更新。欢迎提交star数少于500的代码库,我会持续关注这些仓库,并在它们达到500 star时将其添加到列表中!)

新的AI技术栈

我认为,AI技术栈包含四个层级:基础设施层、模型开发层、应用开发层和应用层。

Technology Stack

1. 基础设施层
基础设施是AI技术栈的底层,包括用于Serving的工具(例如vLLM、NVIDIA的Triton)、计算管理(例如SkyPilot)、向量搜索和数据库(例如Faiss、Milvus、Qdrant、LanceDB)等。

2. 模型开发层
模型开发层提供了开发模型的工具,包括建模和训练框架(Transformers、Pytorch、DeepSpeed…

请继续阅读完整内容,以了解更多关于AI技术栈的趋势和发展。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

900个开源AI工具背后,我看到的趋势

https://www.gptnb.com/2024/05/17/2024-05-16-auto4-8LxzrJ/

作者

ByteAILab

发布于

2024-05-17

更新于

2025-03-21

许可协议