900个开源AI工具背后,我看到的趋势

四年前,我对开源机器学习生态系统进行了分析。自那时起,情况就发生了变化,所以这次我打算重新讨论这个话题,本次主要关注的是基础模型的技术栈。


我把完整的开源AI代码库列表放在了“llama-police”(https://huyenchip.com/llama-police,该列表每6小时更新一次。其余大部分也放在了我的GitHub“cool-llm-repos”(https://github.com/stars/chiphuyen/lists/cool-llm-repos)列表中。

(本文作者Chip Huyen是实时机器学习平台Claypot AI的联合创始人。本文经授权后由OneFlow编译发布,转载请联系授权。原文:https://huyenchip.com//2024/03/14/ai-oss.html)

数据

如果你现在觉得AI发展十分火爆,那是因为它确实如此。我在Github上以GPT、LLM和Generative AI为关键词进行检索,仅与GPT相关的就有约11.8万条结果。

为减少工作量,我将搜索范围限定在拥有至少500 star数的代码库。结果显示,与LLM相关的有590个,与GPT相关的有531个,与Generative AI相关的有38个。此外,我偶尔会查看GitHub Trending和社交媒体上的新代码库。

经过长时间的搜索,我找到了896个仓库。其中,有51个是教程(例如dair-ai/Prompt-Engineering-Guide)和聚合列表(例如f/awesome-chatgpt-prompts)。尽管这些教程和列表都很有帮助,但我更感兴趣的是软件,不过我还是将其放进了最终列表,只是最后的分析是基于其余845个软件库(截止本文发布)。

这个过程虽然痛苦,但很值得,因为我更深入地了解了人们正在研究的内容,开源社区的合作程度之高令人惊叹,也让我意识到中国的开源生态系统与西方存在很大差异。

(毫无疑问,我也遗漏了很多库。你可以在这里(https://forms.gle/1ijNSnizgWQaVYK16)提交缺失的代码库,该列表每天会自动更新。欢迎提交star数少于500的代码库,我会持续关注这些仓库,并在它们达到500 star时将其添加到列表中!)

新的AI技术栈

我认为,AI技术栈包含四个层级:基础设施层、模型开发层、应用开发层和应用层。

Technology Stack

1. 基础设施层
基础设施是AI技术栈的底层,包括用于Serving的工具(例如vLLM、NVIDIA的Triton)、计算管理(例如SkyPilot)、向量搜索和数据库(例如Faiss、Milvus、Qdrant、LanceDB)等。

2. 模型开发层
模型开发层提供了开发模型的工具,包括建模和训练框架(Transformers、Pytorch、DeepSpeed…

请继续阅读完整内容,以了解更多关于AI技术栈的趋势和发展。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

8000万美元巨额融资:DEEPX如何改写AI芯片游戏规则?

来源:元宇宙之心MetaverseHub

本周,OpenAI发布其新款AI模型GPT-4o,这款模型是AI交互领域的一个重大突破。GPT-4o不仅支持实时音频、图像、文本的无延迟交互,而且在多模态能力、使用成本、生成速率等方面较GPT-4 Turbo有了显著优化。


这些令人瞩目的技术进步离不开背后的算力、芯片技术的支持。在AI的发展过程中,算力技术与算法模型是其中的核心关键,众多芯片领域的公司也逐渐崭露头角。

比较出彩的莫过于AI芯片公司DeepX,该公司在新一轮融资中斩获1100亿韩元(约合8000万美元),估值已超7000亿韩元(约合5.29亿美元)

1.项目速览

  • 项目名称:DeepX
  • 成立时间:2018年
  • 产品简介:DeepX的产品主要包括四款AI芯片:DX-V1、DX-V2、DX-M1和DX-H1。
  • 创始人团队:Lokwon Kim:DeepX的首席执行官
  • 融资情况:
    • 5月10日,DeepX宣布其在C轮融资中筹集了8000万美元,目前估值5亿美元左右;
    • 此前曾获Skylake Equity Partners 4500万美元、Timefolio Asset Management 2200万美元投资,投资时间未披露;
    • DeepX目前在与另一家投资者进行最后谈判,有望在下个月之前获得约2200万美元投资。

2.树立全球AI芯片标准

DeepX是韩国的一家AI芯片初创公司,为电子设备中的各种AI应用制造硬件和软件,由首席执行官Lokwon Kim创立于2018年。

公司成立于一个“AI技术像电力和Wi-Fi一样无处不在”的时代,致力于开发高性能AI芯片和计算解决方案的底层技术,以实现所有电子设备的智能化。

该公司目前的AI芯片产品线利用了DX-GEN1技术,覆盖了从2.4 TOPS的DX-L1到22 TOPS的DX-H1,支持2K/4K/8K MAC组合,以支持最新的AI算法。其技术创新和产品性能已经获得了业界的广泛认可,并荣获了CES 2024的三项创新奖,在计算机硬件、嵌入式技术和机器人技术等核心领域得到了表彰。

DeepX的首款NPU IP,DX-GEN1,还获得了2023年Vision System Design杂志的创新虚拟金奖,这进一步巩固了DeepX在全球机器视觉技术焦点市场中的声誉。

在此前的采访中,DeepX的首席执行官Lokwon Kim表达了公司的未来愿景,即在利用其核心技术占领全球市场、树立标准的同时,也为韩国国内芯片生态系统的增长做出重大贡献。

3.边缘AI芯片再升级

作为全球领先的AI芯片制造商,DeepX一直致力于推动AI技术在数据中心之外的应用,特别是在机器人制造和各类电子设备智能化方面

DeepX凭借其超间隙源技术,彻底改变了边缘AI应用格局,提供了最新AI算法支持技术、GPU级别的AI高精度以及全球最高效的功耗性能比。

具体来说,DeepX的AI芯片基于人工神经网络模型设计,其内部处理单元模拟了生物神经元的工作机制。每个处理单元都能独立进行复杂的数学运算,如权重乘以输入信号并累加,形成神经元的激活输出。同时,激活函数决定了信号如何转化为有意义的结果,这是AI芯片中不可或缺的一部分。

与此同时,DeepX的AI芯片在硬件架构上进行了独特的设计,以满足不同AI应用的需求。例如,DX-V1和DX-V2两款芯片,分别针对视觉系统和自动驾驶、机器人视觉等需要处理3D传感器的应用进行了优化。

“高性能与低功耗的完美结合:

  • 全球最高效的功耗性能比:DeepX采用超间隙源技术,使得AI芯片在保持高性能的同时,具有极低的功耗。这大大降低了AI设备的运行成本,同时也减少了对环境的影响。
  • GPU级别的AI高精度:DeepX的AI芯片在精度上达到了GPU级别,能够满足各种复杂AI应用的需求。

灵活的应用场景:

  • DeepX的AI芯片适用于多种应用场景,包括物理安全系统、机器视觉、智慧交通、机器人平台和AI服务器等。这使得DeepX的AI芯片能够广泛应用于各个领域,满足不同客户的需求。

4.芯片行业“AI化”

“生成式AI”无疑是科技行业最热门的术语。OpenAI推出的生成式应用程序ChatGPT引发了市场狂潮,促使各大科技巨头加入竞争。

初创企业迅速布局AI芯片产品:
根据TechNews的一份报告,目前,NVIDIA通过提供AI加速器主导市场,但这导致市场上的AI加速器短缺。甚至OpenAI也打算研发自己的芯片,以避免受到紧张的供应链的限制。

与老牌半导体、芯片巨头不同,与AI有关的初创公司在运营方面具有一定程度的灵活性,他们能够快速调整以应对新技术进步或市场需求。这种敏捷性使他们能够比大型同行更快地开发创新的AI芯片设计并将其推向市场,而不受传统产品的阻碍。

通过专注于特定细分市场,例如针对边缘AI应用优化的芯片,或为自然语言处理和计算机视觉等特定AI功能设计的芯片,这些AI初创公司可以开发高度优化的解决方案,其性能优于更通用的产品。

这些公司还通过将先进的机器学习模型等尖端技术直接集成到芯片上进行创新,从而减少了对大量外部硬件的需求,并实现了更智能、更自主的设备。他们的方法通常包括开发软件和硬件协同设计,确保AI芯片得到优化调整,以确保能有效运行最先进的AI算法。

DeepX推动AI芯片商业化落地:
作为AI芯片领域的佼佼者,DeepX计划利用新一轮融资资金加速其旗舰产品线的大规模生产。该产品线由四款针对人工智能工作负载优化的芯片组成,处理器的性能范围从5到400 TOPS。

除了提高芯片的量产外,DeepX还将利用其新宣布的一轮融资与合作伙伴建立分销协议。同时,该公司正在与120多家产品设计公司合作,以支持其商业化工作。在芯片进入大规模生产之前,DeepX计划在大约100家早期采用者中进行测试,其中包括汽车制造商现代汽车公司和起亚公司。

未来,DeepX计划通过更多芯片扩大其产品组合。随着这些处理器的不断优化,以运行更高层次的大型语言模型。

参考链接:

  1. https://deepx.ai/
  2. https://techcrunch.com/2024/05/09/ai-chip-startup-deepx-secures-80-5m-series-c-at-a-529m-valuation/
  3. https://siliconangle.com/2024/05/10/deepx-raises-80-5m-fresh-funding-mass-produce-ai-chips/


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI拉货挣钱,已经绕地球2500圈了

文章来源:量子位

允中 发自 凹非寺

图片来源:由GPTNB生成

AI拉货,已经绕着地球跑2500圈了

上至京津冀、下至珠三角,在连接全国 7大经济区 的高速公路上,拉着快递、食品、饮料、服装,甚至是汽车配件的智能重卡就穿梭其中。


说不定你最近吃的穿的用的,就是AI从别的城市拉过来的。

这个国产玩家是谁?

嬴彻科技。其卡车NOA商业里程已经 超过1亿公里

并且在AI的帮助下,物流公司每辆车最高可节省 一半人力成本、每百公里节油 3-5升,个体司机也能提升 20%的安全行驶里程,每月增收2500元以上

嬴彻卡车NOA安全运营里程从0公里到5000万公里,用了一年半;但从5000万公里到1亿公里,时间缩短到8个月,商业化进程加速了一倍。

同时实现整个干线物流行业全面覆盖,快递快运、零担专线、合同物流等各个细分领域的客户也实现卡车NOA的上车。

乘用车自动驾驶商业化进程尚且还不太明朗,怎么商用车却早已走在前面——搭载嬴彻卡车NOA的智能重卡,在商业化进程中加速快跑了?

嬴彻秘诀:找准商业化核心

一直以来,商业化都是在自动驾驶技术领域最艰难的一关,它要求的不仅仅是技术的成熟,更涉及到安全保障、成本控制、用户体验等方面。

除此之外,智能重卡所代表的商用车与乘用车赛道还有个本质区别,那就是 用户价值的不同

乘用车面向C端用户,产品和功能亮点千姿百态,用户购买是非完全理性的,但用户黏性有高有低。据业内人士介绍,乘用车智驾实际使用场景 **可能只占10%**。

而商用车本质上是面向B端物流领域,需要精确的计算成本和收益,追求的是商业价值,解决生产和经营中的痛点,这就需要对行业的深入洞察,同行业的深度融合才能做到。

再来看干线物流领域的B端用户,他们考虑的是什么呢?

是安全、是时效,是人力成本、油耗、购车成本等这些精细化需求。这其中,重卡全生命周期成本(TCO)成了关键考量指标,包括司机和燃油成本,约占50%左右。其余还包括维修保养、事故保险等等。只有算清楚“经济”账才会掏出真金白银的购买。

当前在使用嬴彻智能驾驶重卡的物流客户,看重的就是嬴彻卡车NOA“安全、省力、省人、省油”的多重用户价值,进而带来的“安全、降本、提效、增收”的商业价值。

大家有没有想过,从珠三角的快递包裹送到北京,2千多公里30多个小时的车程是可以由货车司机全程单驾安全送达的?

比如,嬴彻的快递快运客户,包括中通、圆通、申通、京东、顺丰等头部企业,已经在500公里-1200公里路段规模化实现双人驾驶变单驾,将每车人力成本下降 **40-50%**。

而在1300公里-2500公里甚至更长的多条传统双驾线路上,快递快运行业也在智能重卡实践中,通过设置驿站式接力点,成功实现了全程安全单驾。

同一条线路司机配备要求从3车头6-8司机降为3车头5司机,从4车头8-10司机降为4车头6司机等等,大幅降低人力成本,同时司机休息时长得到保证,对排班的满意度大幅提升。

在使用嬴彻智能驾驶重卡的司机每天十几个小时的单驾运输作业里,百公里的前碰撞预警、车道偏离预警、急减速等核心指标上,智能驾驶相较人工驾驶可降低75%以上;相比传统卡车驾驶员,智能卡车驾驶员的生理疲劳度下降约35%,心理疲劳度下降约11%;智能节油降幅可达2%-10%。

使用嬴彻智能驾驶系统的里程占比已经到 **90%-95%**,用户黏性极强。

这也是一亿公里背后展现出来的实际意义,嬴彻卡车NOA正通过自动驾驶技术带来的显著价值变革着干线物流这个领域,成为了深度融入到干线物流中不可或缺的新型生产工具。

闯入“主流”市场

快递快运代表着干线物流时效要求最高、经营管理水平最高的头部企业,他们对智能重卡价值的认可,对规模更大、场景更丰富的干线物流市场产生了很强的示范作用。

嬴彻卡车NOA已经成功拓展到干线物流中的众多细分领域,包含零担专线、合同物流,涵盖冷链、汽配、酒类、快消等多重类型。既有大型承运商,也有中小微车队和个体司机。这部分群体,实际上才是购买重卡的“主流”。

干线物流本质上是按运输里程挣钱,在“安全”这一核心前提下,“降本”、“多拉”、“快跑”才能多赚钱。

示意图

比如为新能源汽车提供零部件物流运输的 华太物流,线路平均里程数约为1500公里,在批量投用智能重卡后,每百公里智能驾驶油耗比人工驾驶油耗可降低3-5升,部分线路人车比从2降至1,每公里TCO降低7-15%。因为智能重卡优秀的安全表现与省力舒适的驾驶体验,车辆出勤率显著提升,月均单车运营里程可提升10%。

个体司机关注点更为实在:

怎么才能再省几升油?怎么避免疲劳驾驶,安全地多跑几百公里?怎么让家人放心,让卡嫂回归家庭?

因为智能重卡在安全、省力方面的革命性提升,部分个体司机的月均安全行驶里程提升了 **10-20%**,每月的净收益可提升 2500-5500元。同时,智能卡车更加省油的优点对于个体司机群体非常明显。

示意图

这些数字算明白了一笔实实在在的“安全”“经济”账,也因此嬴彻的商业化进程才会加速这么快,在整个干线物流领域的客户也全面铺开。

数据驱动的技术与研发

客户的需求、产品的价值最终还是要落在技术与研发上来实现。

自动驾驶本质上是人工智能,当前不可否认的是,算法架构基本已经确定,算力方面的创新短期内也依然有限,数据侧也就成为技术能力提升的关键指标。

嬴彻科技的“技术+运营”战略,以及领先的商业化闭环积累了一亿公里真实数据资产。能拥有这等体量的运营数据,放眼海内外都是极为稀缺的。

而通过车端精准、高效的数据采集,云端高性能、自动化的数据处理,以及场景挖掘与自动标注等核心技术的领先,嬴彻科技已经建立商用车领域最成熟的数据驱动的研发体系。

示意图

嬴彻数据资产的规模和质量优势,加速嬴彻自动驾驶算法的迭代更新,带来卡车NOA能力不断提升,给用户也会带来明显的体验提升,吸引到更多领域的客户,更多场景数据又在运营中产生,形成独特的数据闭环,进一步放大嬴彻自动驾驶技术的领先优势。

而在此同时,嬴彻内部一些关键举措也加强了对用户、对行业的需求洞察,进一步强化着嬴彻卡车NOA的用户体验。

比如, “和司机交朋友”活动

主要面向研发人员,通过“跟车”(真实长途货运)等形式,让工程师们既懂需求,又懂场景,然后持续优化算法。

商用车驾驶需要专门的驾照和资质。和乘用车不同,商用车的研发人员很难驾驶自己的产品,感受到真实的表现。

示意图

嬴彻科技CEO曾在公开采访中表示,研发人员要理解用户的使用场景,理解用户价值

而每天在电脑面前,或者只看后台的数据,其实取代不了每一个工程师对用户场景、司机行为,包括产品在道路上实际运行过程中的直接感受。

也正因直击痛点的产品设计,强化了嬴彻智能卡车的落地优势,卡车自动驾驶技术也迎来了它的“嬴彻时刻”。

卡车自动驾驶迎来“质变时刻”

“自动驾驶还能成吗?”,“落地还有希望吗?”,是在自动驾驶行业曾经进入 低谷期 后提及最多的问题。

市场不再愿意看PPT、demo,而更想看到“自动驾驶车辆上路了多少?”,“用这个技术能降低多少成本,带来多少收益?”等更实际问题的答案。

在这背后,有一批公司杀了出来。

随着对技术研究不断深入,行业形成基本共识:讨论自动驾驶能否商业化,就是讨论 能否量产和规模化部署,真正被主流市场认可

乘用车方面,虽然全球自动驾驶头号玩家 特斯拉 今年终于全量推送了FSD v12,但依旧要通过免费试用和试驾争取向用户证明自身价值。

现在在商用车领域,嬴彻已经用一亿公里先达一步,通过合作对象和涵盖领域在主流客户群中证明了自身价值,并获得很高的用户黏性。

1亿公里的商业里程,就是自动驾驶卡车技术商业化走出低谷,向高速增长周期迈进的最好证明。

自动驾驶的质变时刻,可能率先会在货运发生,在嬴彻发生。

这一次,将由中国玩家带路。


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI拉货挣钱,已经绕地球2500圈了

文章来源:量子位

允中 发自 凹非寺

图片来源:由GPTNB生成

AI拉货,已经绕着地球跑2500圈了。
上至京津冀、下至珠三角,在连接全国7大经济区的高速公路上,拉着快递、食品、饮料、服装,甚至是汽车配件的智能重卡就穿梭其中。


说不定你最近吃的穿的用的,就是AI从别的城市拉过来的。

这个国产玩家是谁?
嬴彻科技。其卡车NOA商业里程已经超过1亿公里
并且在AI的帮助下,物流公司每辆车最高可节省一半人力成本、每百公里节油3-5升,个体司机也能提升20%的安全行驶里程,每月增收2500元以上

数据驱动的技术与研发

客户的需求、产品的价值最终还是要落在技术与研发上来实现。
自动驾驶本质上是人工智能,当前不可否认的是,算法架构基本已经确定,算力方面的创新短期内也依然有限,数据侧也就成为技术能力提升的关键指标。
嬴彻科技的“技术+运营”战略,以及领先的商业化闭环积累了一亿公里真实数据资产。能拥有这等体量的运营数据,放眼海内外都是极为稀缺的。

本文链接:https://www.aixinzhijie.com/article/6845792
。转载请注明文章出处



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

中文 AI 社区迎来了一个好消息:与 Sora 同架构的开源文生图大模型来了!

5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

官网地址:https://dit.hunyuan.tencent.com/
GitHub 项目地址:https://github.com/Tencent/HunyuanDiT
Hugging Face 模型地址:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
技术报告地址:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

据了解,这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。


升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,即全新的 Hunyuan-DiT 架构,不仅可以支持文生图,也可以作为视频等多模态视觉生成的基础。

为了全面比较 Hunyuan-DiT 与其他文生图模型的生成能力,腾讯混元团队构建 4 个维度的测试集,邀请专业评估人员进行评估,包括文本图像一致性、排除 AI 伪影、主题清晰度、审美。

从下表结果可以看到,采用 Hunyuan-DiT 架构的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型,整体能力属于国际领先水平。

更多内容请查看原文。图片链接如下:

此外,混元文生图大模型在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,达更满意的效果。

更多多轮对话生成示例如下图所示。

中文原生也是腾讯混元文生图大模型的一大亮点。此前,像 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的文化习俗理解不够。

作为首个中文原生的 DiT 模型,混元文生图具备了中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。我们可以看以下一些生成示例。

图片13

评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过了 20%,在语义理解、画面质感与真实性方面全面提升,而且在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

这一次,腾讯混元选择全面开源文生图模型。腾讯混元文生图能力,已被用于多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台,提供多场景创意工具,有效提高了广告生产及投放效率。

腾讯文生图负责人芦清林表示:「腾讯混元文生图的研发思路就是实用,坚持实践中来,实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业发展。」

基于腾讯开源的文生图模型,无需从头训练,可直接用于推理,并可基于混元文生图打造专属的 AI 绘画应用及服务,节约人力及算力。透明公开的算法,也让模型的安全性和可靠性得到保障。

此外,基于开放、前沿的混元文生图基础模型,也有利于丰富以中文为主的文生图开源生态,推动中文文生图技术研发和应用。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Ilya官宣离职,超级对齐负责人Jan直接辞职,OpenAI还是走散了

今天,OpenAI 联合创始人、首席科学家 Ilya Sutskever 发推宣告离职。

在 OpenAI 工作近 10 年后,我做出了离开的决定。


OpenAI 的发展轨迹可以称得上是奇迹,我相信 OpenAI 会在 Sam Altman、Greg Brockman 和 Mira Murati 的领导下,以及 Jakub Pachocki 的出色研究领导下构建安全有益的 AGI。
能够一起工作是一种荣幸,我会非常想念大家。这么久了,感谢你们大家所做的一切。我对接下来发生的事情感到兴奋,接下来从事的这个项目对我来说非常有意义,我会在适当的时候分享细节。
图片

OpenAI CEO 奥特曼在推特上发文表示,Ilya 与 OpenAI 的分道扬镳令人非常难过。
图片

Ilya 无疑是我们这一代最伟大的思想家之一,是我们领域的指路明灯,也是我的挚友。他的才华和远见众所周知;他的温暖和同情心不那么广为人知,但同样重要。

没有他,OpenAI 就不会是今天的样子。尽管他有一件对他个人意义重大的事情要去做,但我永远感激他在这里所做的一切,并致力于完成我们一起开始的使命。我很高兴在这么长时间里,我能如此接近这样一个真正非凡的天才,以及一个如此专注于为人类带来最佳未来的人。

Jakub Pachocki 将成为我们的新首席科学家。Jakub 同样无疑是我们这一代最伟大的思想家之一;我很高兴他将在这里接过接力棒。他负责过我们许多最重要的项目,我非常相信他将带领我们快速而安全地朝着确保通用人工智能(AGI)惠及所有人的使命前进。

即将成为下一任 OpenAI 首席科学家的 Jakub Pachocki 也对自己的前任 Ilya 表达了感谢。
图片

OpenAI 表示:「他在重新调整公司愿景以扩展深度学习系统方面发挥了重要作用。」

至此,Ilya Sutskever 和 OpenAI 八年的故事结束了。

与 Ilya 同步宣布离开的,还有超级对齐团队的共同领导者 Jan Leike。
图片

而我们都还记得,超级对齐团队在 2023 年 7 月才成立,目标是「在 OpenAI 大量计算的支持下,到 2027 年解决这个(对齐)问题。」

如今,两人同时离开,只留下未竟的事业。在 Ilya 的下一步计划中,会将「超级对齐」进行到底吗?

童年生活动荡,本科期间拜入 Hinton 门下
事实上,即使在一个没有 OpenAI 的世界里,Ilya Sutskever 仍会载入人工智能史册。

Ilya Sutskever 是以色列裔加拿大人,出生于前苏联,五岁随家人移民耶路撒冷(因此他精通俄语、希伯来语和英语),2002 年搬到加拿大生活。

在多伦多大学读本科期间,Ilya Sutskever 从一个叫做「改进随机邻域嵌入算法」的项目开始,开始了与 Geoffrey Hinton 的合作,后来在攻读博士学位时正式加入了 Hinton 的团队。

后来的事情我们都熟悉:2012 年,Hinton 带着 Ilya Sutskever 和另一名研究生 Alex Krizhevsky 建立了一个名为 AlexNet 的神经网络,其识别照片中物体的能力远远超过了当时的其他系统。
图片

Geoffrey Hinton、Yann LeCun、Yoshua Bengio 成为了深度学习三巨头,并在 2018 年获得了图灵奖,获奖理由就是「在神经网络方面的研究成果」。

但当 Ilya Sutskever 在 21 世纪初加入 Hinton 团队时,大多数人工智能研究者都认为神经网络是一条死胡同。

「由于与 Geoffrey 合作,我有机会研究这个时代一些最重要的科学问题,并追求大多数科学家极不认可、但事实证明完全正确的想法,」Ilya Sutskever 后来在一次采访中说道。

AlexNet 是深度学习的爆发时刻。经历了多年的失败之后,他所在的团队最早证明了模式识别问题可以被解决 —— 秘决就是一个经过大量数据和算力训练的深度神经网络。

这种思路从计算机视觉延伸到了自然语言处理领域,同样是 ChatGPT 取得如今成就的重要因素,包括 Sora 在视频生成领域的成功也离不开这两点。

2012 年毕业后,Ilya Sutskever 在斯坦福大学跟随吴恩达做了两个月的博士后,随后返回多伦多大学并加入了 Hinton 研究小组的衍生公司 DNNResearch 。

2013 年 3 月,Google 收购了 DNNResearch,聘请了 Ilya Sutskever 担任 Google Brain 的研究科学家。

「Ilya 一直对语言很感兴趣,」现任谷歌首席科学家 Jeff Dean 说:「他对事物的发展方向有很强的直觉。」

在谷歌,Ilya Sutskever 展示了如何深度学习的模式识别能力应用于数据序列,包括单词、句子。他与 Oriol Vinyals 和 Quoc Le 合作创建了序列到序列(Seq2seq)学习算法,深度参与了 TensorFlow 的研究,也是 AlphaGo 论文的众多作者之一。

加入 OpenAI,牵头 GPT 系列研发
对语言的浓厚兴趣,或许推动了 Ilya Sutskever 加入 OpenAI 的脚步。

2015 年 7 月,Ilya Sutskeve 参加了 Y Combinator 总裁 Sam Altman 在 Sand Hill Road 一家餐厅举办的晚宴,在那里遇到了 Elon Musk 和 Greg Brockman。

那场晚宴上诞生了 OpenAI。在场的人就一件事达成了一致:它需要是一个非营利组织,没有任何竞争性的激励措施来淡化其使命,还需要世界上最好的人工智能研究人员。

2015 年底,Ilya Sutskever 以「研究总监」的头衔开始领导 OpenAI 的研究和运营,这个组织还吸引了几位世界知名的人工智能研究者,包括「GAN 之父」 Ian Goodfellow、UC 伯克利的 Pieter Abbeel 以及 Andrej Karpathy。

这家新公司拥有 10 亿美元的资金支持,来自 Sam Altman、Elon Musk、Peter Thiel、Microsoft、Y Combinator 和其他公司,从一开始就把目光投向了 AGI,即使当时很少有人认真对待这一前景。

然而,最初的 OpenAI 却举步维艰。Ilya Sutskever 说:「在我们启动 OpenAI 的时候,有一段时间我并不确定将如何继续取得进展。但我有一个非常明确的信念,那就是不能与深度学习对赌。不知怎的,每次遇到障碍,研究人员都会在半年或一年内找到绕过它的方法。」

2016 年,OpenAI 的第一个 GPT 大型语言模型问世。从 GPT-2 到 GPT-3,模型的能力越来越强大,证明了这条路线的实际正确性。每一次发布,OpenAI 都在不断提高人们的想象力上限。

但 Ilya Sutskever 却透露,真正让 OpenAI 出圈的 ChatGPT 发布时,公司内部对此的期望值很低:「你问它一个事实性的问题时,它会给你一个错误的答案。我以为它会很平淡无奇,人们会说:你为什么要做这个?这太无聊了!」

将 GPT 模型封装在一个易于使用的界面中并免费开放,让数十亿人第一次了解到 OpenAI 正在构建的东西。在此之前, ChatGPT 背后的大型语言模型已经存在了几个月。

ChatGPT 的成功,让创始团队受到了前所未有的关注。

2023 年,OpenAI 的首席执行官 Sam Altman 花了大半个夏天的时间,进行了长达数周的外联之旅 —— 与政客们交谈,在世界各地座无虚席的礼堂发表演讲。

作为首席科学家,Ilya Sutskever 保持着低调的风格,也不经常接受采访,不像公司的其他创始成员那般是个公众人物,而是把更多的精力放在了 GPT-4 上。

What did Ilya see?
关于 Ilya 离开 OpenAI 的传闻其实已经传了很久。在 OpenAI 发生「宫斗」、Sam Altman 被赶出 OpenAI 之际,有人传言说 Ilya「看到了一些东西」,这些东西足够强大,让他对 AI 的未来产生了担忧,并重新思考 AI 的发展。但他究竟看到了什么,目前还无人知晓。

其实,Ilya 的这种担忧并不是 ChatGPT 出来之后才有的。在拍摄于 2016 年至 2019 年的一段视频中,Ilya 曾表示,在 AGI 实现的那一天,AI 未必会仇恨人类,但他们对待人类的方式可能会像人对待动物一样。人可能无意伤害动物,但如果你想修一条城际高速,你不会征询动物的意见,而是直接去做。当面临这种情况时,AI 可能也会自然而然地做出类似的选择。这是 Ilya 的 AI 哲学观。
图片

Ilya Sutskever 认为,世界需要清醒地认识到 OpenAI 和其他公司正在努力创造的技术的真正威力。他还认为,总有一天人类会选择与机器融合。

一旦人工智能的水平超过人类,人类又该如何监督比自己聪明得多的人工智能系统?

OpenAI 在 2023 年 7 月成立了「超级对齐」(Superalignment)团队,目标是在四年内解决超智能 AI 的对齐问题。Ilya Sutskever 是该项目的牵头人之一,OpenAI 表示会将 20% 的算力专门用于该项目的研究。

在一次访谈中, Ilya Sutskever 大胆预言,如果模型能够很好地预测下一个词,那么意味着它能够理解导致这个词产生的深刻现实。这意味着,如果 AI 按照现有路径发展下去,也许在不久的将来,一个超越人类的人工智能系统就会诞生。但更加令人担心的是,「超级人工智能」可能会带来一些意想不到的负面后果。这就是「对齐」的意义。

这个团队的第一篇成果发布于 2023 年 12 月:使用 GPT-2 级别的小模型来监督 GPT-4 级别的大模型,能获得接近 GPT-3.5 级别的性能,开辟了对超人类模型进行实证对齐的新研究方向。

同时,OpenAI 宣布与 Eric Schmidt 合作,启动了一项 1000 万美元的资助计划支持技术研究,以确保超人类人工智能系统的一致性和安全性。

随着两位团队领导者的离开,超级对齐团队的未来变得有些缥缈。

与 OpenAI 创始团队决裂
从今天的结果来看,Ilya Sutskever 应该是与 Sam Altman 所代表的

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

18个月,OpenAI这支团队搞出了GPT-4o

奥特曼:如果没有他(Prafulla Dhariwal)的远见、才华、信念和决心,就不会有 GPT-4o。
“GPT-4o 的诞生离不开 @prafdhar 的远见、才华、信念和长期以来的坚定决心。


正是这些努力(以及许多其他人的工作)促成了我希望会成为计算机使用方式革命的成果。”

在 OpenAI 发布新一代旗舰生成模型 GPT-4o 后的两天,OpenAI CEO 奥特曼对参与该项目的其中一位负责人评价道。

紧随其后,联合创始人 Greg Brockman 表示:「GPT-4o 是整个团队努力的结果。特别要感谢 @prafdhar,他坚信能够构建一个全能模型,并在过去 18 个月里通过与 OpenAI 的多个团队展开合作,从而实现了这一目标。」

看到这,估计大家都很好奇,prafdhar 到底是谁,他就是 Omni 团队负责人 Prafulla Dhariwal,也是 GPT-3、DALL-E 2 共同创造者。Dhariwal 表示「GPT-4o(o 代表 omni)是 Omni 团队推出的首个模型,也是 OpenAI 首个原生的全多模态模型。这次发布是整个组织共同努力的结果」。同时,Dhariwal 提到他想特别感谢团队中一些出色的成员,正是他们让这个神奇的模型成为可能!

Dhariwal 口中出色的团队成员到底有谁,整个团队贡献者都有哪些,接下来我们将为大家一一揭晓。

Prafulla Dhariwal

Prafulla Dhariwal 是 OpenAI 的一名研究科学家(也是前文奥特曼特别感谢的人),研究方向主要是生成式模型和无监督学习。他在 2017 年加入 OpenAI,至今已有 7 年多的时间。

Prafulla Dhariwal 本科毕业于麻省理工学院。在 MIT,Prafulla Dhariwal 主要学习计算机科学、数学、物理学,并在 MIT 大脑、思维和机器中心担任本科生研究员。

根据 Google Scholar 显示,Dhariwal 论文引用次数达到 72200 多次,参与的研究包括 DALL-E 2、DALL-E 3、Glow、Consistency Models 等,都是大家比较熟悉的。

James Betker

James Betker 是 OpenAI 的研究工程师,主要研究图像和音频的生成式建模。

在加入 OpenAI 之前,James Betker 在 GARMIN 国际航电瑞士有限公司担任了 12 年的软件工程师,并曾在谷歌担任软件工程师。

Rowan Zellers

Rowan Zellers 是 OpenAI 的研究员,致力于构建通过语言、视觉和声音理解人类和世界的机器。 Prafulla Dhariwal 表示:「Rowan Zellers 的研究工作让 GPT-4o 能够像人类一样自然地观看视频。」Rowan Zellers 也是 GPT-4 研究团队成员之一。

Alexis Conneau

Alexis Conneau 现在为 OpenAI 音频 AGI 研究负责人。Dhariwal 表示 Conneau 比 OpenAI 的任何人都更早地提出了 HER 的愿景,并坚持不懈地执行!

……

(更多团队成员信息请参阅原文链接)

完整名单地址:GPT-4o-contributions

其中,语言方面的核心贡献者包括:

多模态核心贡献者包括:

感兴趣的读者,可以查看完整名单了解更多信息。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

专访文青松|AI时代的教育革新:深度融合,驱动未来

在人工智能科学的先锋领域,尤其是深度学习与决策智能的探索中,文青松博士凭借其在学术研究与实际应用方面的卓越贡献,已然成为业界领军人物。在最近举行的国际深度学习研究顶会 ICLR 上,文青松博士作为松鼠 Ai 首席科学家及 AI 研究院负责人,其提交的七篇论文成功获选收录,这一成就不仅充分展示了他在深度学习领域的深厚造诣,也体现了松鼠 Ai 在人工智能领域持续创新的不凡实力。


为深化探究文青松博士在人工智能领域研究前沿的最新贡献,并洞悉其对于这些技术在实际应用场景中未来展望的独特视角,机器之心近期与文青松博士进行了一场深度学术交流。访谈过程中,文博士不仅揭示了他对当前深度学习、大语言模型发展趋势的深邃理解,并详尽分析了他的研究成就在教育领域的广泛应用潜力,为该领域的学者与实践者奉上了极具价值的启迪与借鉴。

深度学习领域的前沿探索

文青松博士在美国佐治亚理工学院(Georgia Tech)获得电子与计算机工程博士学位,在此期间深入探究人工智能、决策智能及信号处理等前沿领域。他已在包括 NeurIPS、ICML、ICLR、KDD、PIEEE、TPAMI 等国际顶级会议和期刊上发表了上百篇高质量论文,并凭借其卓越贡献多次荣获学术殊荣,如 IJCAI 最具影响力论文第一名、AAAI 人工智能系统部署应用奖等。…

AI + 教育创新,展望大模型未来

在科技与教育的深度融合趋势下,我们进一步与文青松博士就 AI 教育产品的未来发展趋势进行了探讨。谈及未来教育的进步空间,文青松博士认为中国教育在知识传授与掌握方面有着扎实的根基,而西方教育则卓越于培养学生的批判性思维和创造力。为此,松鼠 Ai 致力于将这两大教育体系的优势融合,借助前沿技术,全方位提升学生的综合素养。松鼠 Ai 的智适应教育大模型与学习系统,正是这一创新理念的杰出体现。…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

用GAI定义手机,联发科和朋友们在行动

天玑旗舰芯片,正在引领 AI 手机新时代。

最近一段时间,端侧生成式 AI 上游的「军备竞赛」异常激烈。


上个星期,联发科技(MediaTek)举行了首届天玑开发者大会 2024( MDDC 2024 ),正式发布最新一代芯片与 AI 工具。苹果为新一代 iPad Pro 首次搭载了 M4 芯片,AI 算力相较第一代提升了 60 倍。

本周一,vivo 发布的旗舰手机 vivo X100S 系列搭载天玑 9300+,再次刷新了 AI 手机性能的上限。

距离 vivo X100 的发布仅过去半年,在这次的升级版上,vivo 带来了 AI 视效,蓝心 AI 也接入了 QQ、钉钉、飞书等聊天会议软件,实现了跨 App 的智能录音识别等能力,展示了端侧生成式 AI 能力的无限可能性。

图片

一键换季节:vivo X100S 上首发了 AIGC 和影像能力结合的「四季人像」功能。

一系列生成式 AI 能力的背后,联发科从芯片到软件上的全面布局引发了人们的关注。

在 MDDC 大会上,联发科公布的一系列新技术和产品应用,为生成式 AI 技术落地提供了方向。

提前布局,构建先进端侧 AI 算力

端侧部署生成式 AI,意味着无需连接云端,直接在移动设备上进行大模型的 AI 推理,有低延迟、高灵活度等优势,同时保护了用户的隐私数据。

如今,端侧生成式 AI 的落地已成为全球科技公司竞争的重点。在过去一年时间里,国内外大部分手机厂商都在推动生成式 AI 模型的端侧落地,希望能为智能手机带来革命性的 AI 体验,甚至形态的转变。在 AI 创业公司一侧,也不断有面向端侧优化的大模型出现,一些最新的轻量级模型已拥有了多模态能力。

但归根结底,为了实现端侧 AI 应用落地,首先需要强大的 AI 算力。这就离不开联发科强大的芯片实力。

天玑 9300+ 是联发科重磅发布的最新旗舰 5G 生成式 AI 移动平台,其采用 4nm 工艺打造,八核 CPU 包含 4 个 Cortex-X4 超大核,最高频率可达 3.4 GHz,是安卓阵营中性能表现最强的手机芯片。

在新一代 SoC 上,联发科着重提升端侧 AI 能力:天玑 9300 + 内置第七代 AI 引擎 APU 790,率先支持 AI 推测解码加速技术,生成速度可提升 120%。同时支持天玑 AI LoRA Fusion 2.0 技术,生成效率提升 100%,内存空间节省 50%。天玑 9300 + 还支持 AI 框架 ExecuTorch,可加速端侧生成式 AI 应用的开发进程。

图片

这款旗舰芯支持多种业内主流的先进 AI 大模型,包括阿里云通义千问大模型、百川大模型、文心大模型、谷歌 Gemini Nano、零一万物终端大模型、Meta Llama 2、Llama 3 等。联发科表示,搭载天玑 9300+ 的工程机已在端侧跑通了 Llama 2 7B,推理速度达到 22 token/s。

走概念领先的全大核路线,具备多项业界领先的生成式 AI 技术,承载共同合作实现的优质游戏体验,这些特性聚集在一起,让天玑 9300 系列成为了驱动当下 AI 手机的最强芯片。

自天玑 9000 发布以来,联发科旗舰芯片的 AI 能力就十分亮眼,屡屡占据 AI BenchMark 榜单的头名位置。冲击高端的联发科在 AI 领域持续发力,已逐渐获得了用户的认可。其实,联发科的目标一直是面向 AI 大幅投入,做最具前瞻性的那一个。

图片

随着大模型技术的不断发展,以及芯片算力的提升,生成式 AI 技术正在延伸到更为广阔的领域。联发科还在围绕端侧多模态生成式 AI、专家系统等方向进行探索。

从创造产品到定义标准,联发科将引领端侧 AI 生态

从积极提供高端芯片,到率先引领端侧生成式 AI 生态,第一届天玑开发者大会 2024(MDDC 2024)是联发科的一个重要转折点。

在开发者大会上,联发科与众多手机厂商、科技大厂和 AI 公司联合发布了《生成式 AI 手机产业白皮书》,对 生成式 AI 手机进行了定义。白皮书提出生成式 AI 手机需要具备如下必要特征:

  • 支持大模型的本地部署,或是通过云端协同的方式执行复杂的生成式 AI 任务;
  • 具备多模态能力,即可以处理文本、图像、语音等多种形式的内容输入,以生成各种形式的输出;
  • 确保流畅、无缝的用户体验,设备能够以自然而直观的交互方式,快速响应用户的请求;
  • 拥有实现上述特征的硬件规格。

受益于强大的移动计算平台,不断进步的模型技术,以及配套工具链的推动,生成式 AI 手机将在未来几年保持高速成长。分析机构 Counterpoint 预测,生成式 AI 手机的存量规模将在 2027 年突破 10 亿大关。联发科董事、总经理暨营运长陈冠州则表示,随着 2024 年生成式 AI 即将在消费级市场普及,到 2027 年全球智能手机端侧整体 AI 算力会达到 50000 EOPS。

而在其中,联发科的贡献势必越来越大 —— 最近的分析报告显示,联发科在 2023 年第四季度表现强劲,智能手机应用处理器(AP)以 36% 的出货量市场份额位列全球第一,已经连续多个季度处于领先位置。

毫无疑问,随着用户基数的不断增长,在生成式 AI 大规模落地的过程中,联发科将占据越来越重要的地位。AI 生态将成为人们社交、工作、娱乐和出行的载体。新类型的应用,会逐渐改变我们的生活,变得不可或缺。

端侧的生成式 AI,即将为我们带来颠覆性的体验。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

GPT-4o delivers human-like AI interaction with text, audio, and vision integration

OpenAI推出了其新的旗舰模型GPT-4o,无缝集成了文本、音频和视觉输入和输出,承诺增强机器交互的自然性。图片{ width=50% }


GPT-4o,其中的“o”代表“omni(全能)”,旨在为更广泛的输入和输出模式提供服务。OpenAI宣布:“它可以接受任何文本、音频和图像的组合作为输入,并生成任何文本、音频和图像的组合作为输出。”
用户可以期望快速的响应时间,与人类对话速度相匹配,平均响应时间令人印象深刻,为320毫秒。
开创性功能
GPT-4o的推出标志着它跨越了之前版本的巨大进步,通过一个单一神经网络处理所有输入和输出。这种方法使得该模型能够保留先前在较早版本使用的单独模型管道中丢失的关键信息和上下文。
在GPT-4o之前,“Voice Mode”可以处理音频交互,对于GPT-3.5而言延迟时间为2.8秒,对于GPT-4则为5.4秒。先前的设置涉及三个不同的模型:一个用于将音频转录为文本,另一个用于文本回复,第三个用于将文本转换回音频。这种分段导致丢失了诸如语调、多个发言者和背景噪音等细微差别。
作为一个综合解决方案,GPT-4o在视觉和音频理解方面有明显的改进。它可以执行更复杂的任务,如和声歌曲、提供实时翻译,甚至生成带有笑声和唱歌等表现元素的输出。其广泛功能的示例包括为面试做准备、即时翻译语言以及生成客户服务回复。

Superintelligent的创始人兼首席执行官Nathaniel Whittemore评论道:“产品发布本质上比技术发布更具争议性,因为在实际与其互动之前很难判断产品是否真正不同。尤其是在涉及一个不同的人机交互模式时,对于它的实用性是否高有更多的看法空间。
“也就是说,宣布没有GPT-4.5或GPT-5也让人们分散注意力,而不注意到这是一个本质上是多模态模型。它不是一个带有声音或图像附加功能的文本模型;它是一个多模态的token输入,多模态的token输出。这开启了大量需要一些时间才能被认识到的用例。”

性能和安全性
GPT-4o在英文文本和编码任务方面与GPT-4 Turbo性能水平相匹配,但在非英语语言方面明显优秀,使其成为一个更具包容性和多功能性的模型。它在推理方面设定了一个新的基准,0-shot COT MMLU(通用知识问题)达到了88.7%的高分,5-shot no-CoT MMLU达到了87.2%。
该模型在音频和翻译基准上表现出色,超越了以往的最先进模型,如Whisper-v3。在多语言和视觉评估中,它展示了出色的性能,增强了OpenAI的多语言、音频和视觉能力。

OpenAI通过设计将强大的安全措施纳入到GPT-4o中,包括通过训练数据过滤技术和后期安全保障来细化行为。该模型已通过一套准备框架进行评估,并符合OpenAI的自愿承诺。在领域如网络安全、说服力和模型自主性方面的评估显示,GPT-4o在任何类别中均不超过“中等”风险级别。
进一步的安全评估还涉及在各个领域的70多位专家进行广泛的外部红队测试,包括社会心理学、偏见、公平性和虚假信息。这种全面的审查旨在减轻GPT-4o引入的风险。

可用性和未来集成
从今天开始,GPT-4o的文本和图像功能可在ChatGPT中使用,包括免费版和增强功能版。由GPT-4o提供支持的新Voice Mode将在未来几周内进入ChatGPT Plus的Alpha测试。

开发人员可以通过API访问GPT-4o进行文本和视觉任务,在速度翻倍、价格减半以及与GPT-4 Turbo相比增强速度限制方面受益。
OpenAI计划通过API将GPT-4o的音频和视频功能扩展给一组值得信赖的合作伙伴,预计不久的将来会有更广泛的推出。这种分阶段发布策略旨在确保在将全面功能公开之前进行彻底的安全性和可用性测试。
“他们已经向所有人提供了这个模型的免费试用,同时还把API的价格降低了50%。这增加了它的可访问性,这是一大飞跃,” Whittemore解释道。
OpenAI邀请社区反馈以持续完善GPT-4o的功能,强调用户输入在确定和弥补GPT-4 Turbo可能仍然表现优异的领域中的重要性。

(图片来源:OpenAI)

另请参阅:OpenAI采取措施提升AI生成内容的透明度

想从行业领袖那里了解更多有关AI和大数据的知识吗?查看在阿姆斯特丹、加利福尼亚和伦敦举行的AI & Big Data Expo。这个全面的活动与其他领先的活动同期举行,包括智能自动化会议、BlockX、数码转型周和网络安全与云计算博览会。

探索由TechForge推动的其他即将举行的企业技术活动和网络研讨会。

标签:人工智能、api、人工智能、基准、chatgpt、编码、开发人员、开发、gpt-4o、模型、多模态、openai、性能、编程。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB