大摩:关于火爆的“AI供电股”,这是几个关键的问题

5月10日,摩根士丹利研究团队发布研报,就全球投资者关心的生成式AI话题进行了分析讨论。报告显示,目前,投资者主要关心AI数据中心的碳排放、发电方式、电价等问题。


摩根士丹利认为,随着AI技术的发展,数据中心的建设将会推高电价、利好相关的清洁能源股,如果电力短缺问题持续发酵,可能导致包括英伟达在内的高价芯片股出现回调。

01
“AI供电”中有哪些领域值得重视?
摩根士丹利在报告中建议,可以关注那些“帮助数据中心缩短供电时间”的领域。
具体而言,包括:具备大型互联能力并拥有多元供应链的可再生能源存储开发商、可转换为数据中心的大型加密货币挖矿场,以及一些目前被低估的电力开发商。

02
未来数据中心的碳排放情况将如何?
报告认为,数据中心的碳排放将低于预期。
理由如下:
1)到2030年,超级计算机有望实现去碳化的目标;
2)未来,超级计算机将开启新的大型可再生能源项目和储能项目。
报告还表示,可再生能源供电的潜力可能会超出市场预期:
我们构建的模型显示,到2027年,如果美国数据中心的电力增长中有70%将由可再生能源提供动力(并通过使用储能在更符合数据中心功率曲线的时间向电网供电),那么届时,用于数据中心的可再生能源/储能技术的总功率将达到约18千兆瓦,相当于我们对美国数据中心电力需求预测的基础值的约33%。
按照报告的估算数据,这意味着到2027年,可再生能源能够满足AI数据中心三分之一的新增电力需求。

03
将如何影响电力价格?
报告认为,电力价格可能会被推高,电力公司毛利率将显著改善。
目前,在数据中心发展潜力巨大的几个美国电力市场,摩根士丹利发现远期电力曲线已经有所上移:
在两个美国典型的电力市场:宾夕法尼亚马里兰州联合电力系统(PJM)和德克萨斯州电力可靠性委员会(ERCOT),以今年5月初的峰值电力价格为基准,预计未来1-2年的同期电价大多会有所上涨。

另外,考虑到许可、设备采购、工厂建设时间,燃气发电厂完全落地可能需要数年。因此,报告预计,短期内电力市场的供给紧张状况不会得到缓解。
这对供电公司来说是一大利好。美国NRG电力公司公布的数据显示,到27年电价将上涨25%。该公司根据远期价格,预计运行毛利润将增加4.2亿美元,比当前增长27%。

04
如果“电力荒”得不到缓解,哪些股票受负面影响最大?
根据投资者的反馈,报告表示,如果“电力荒”持续,投资者最担忧是正处于高速增长中的芯片股。
报告称,在电力紧缺状态下,数据中心的业务将会放缓,这意味着AI芯片的销量增长也会放缓,而诸如英伟达这类大型AI芯片制造商当前较高的股票定价,已经包含了投资者对其未来快速增长的预期,届时公司股票回调的风险将会大幅增加。

05
是否存在可能导致数据中心发展放缓的“尾部风险”?
资本支出可能是一大风险。
华尔街见闻此前提及,在最近的季度财报电话会上,微软报告其资本支出同比增长了50%以上,并表示计划在2025年之前继续增加对人工智能的支出。Meta、Alphabet也暗示资本支出增长了40%至50%,预计今年的资本支出将大幅增长。
报告表示,部分投资者认为这会给公司带来潜在的风险。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代

ChatGPT 问世才 17 个月,OpenAI 就拿出了科幻电影里的超级 AI,而且完全免费,人人可用。

太震撼了!

当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。


5 月 14 日凌晨,OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。这一次,技术颠覆了产品形态,OpenAI 用行动给全世界的科技公司上了一课。

今天的主持人是 OpenAI 的首席技术官 Mira Murati,她表示,今天主要讲三件事:

第一,以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。

第二,因此 OpenAI 此次发布了桌面版本的程序和更新后的 UI,其使用起来更简单,也更自然。

第三,GPT-4 之后,新版本的大模型来了,名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户。

ChatGPT 的这次更新以后,大模型可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。

最近,ChatGPT 不用注册也可以使用了,今天又增加了桌面程序,OpenAI 的目标就是让人们可以随时随地的无感使用它,让 ChatGPT 集成在你的工作流中。这 AI 现在就是生产力了。

值得一提的是,上个星期奥特曼在一次采访中表示,虽然全民免费收入(universal basic income)难以实现,但我们可以实现「全民免费计算 universal basic compute」。在未来,所有人都可以免费获得 GPT 的算力,可以使用、转售或捐赠。

「这个想法是,随着 AI 变得更加先进,并嵌入到我们生活的方方面面,拥有像 GPT-7 这样的大语言模型单元可能比金钱更有价值,你拥有了部分生产力,」奥特曼解释道。

GPT-4o 的发布,或许就是 OpenAI 朝着这方面努力的一个开始。

是的,这还只是个开始。

最后提一句,今天 OpenAI 博客中展示的「Guessing May 13th’s announcement.」的视频,几乎完全撞车谷歌明天 I/O 大会的一个预热视频,这无疑是对谷歌的贴脸开大。不知道看完今天 OpenAI 的发布,谷歌有没感到巨大压力?

参考内容:



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

监管要求减少采购英伟达芯片,并提升国产芯片占比

文章来源:有新Newin

根据 The Information 消息,近几个月来,国内监管机构已要求字节跳动、腾讯、阿里巴巴和百度等大科技公司减少购买外国制造的 AI 芯片,转而购买更多国产芯片。

尤其是英伟达 GPU 一直是大多数国内科技科技公司的首选,但监管希望科技公司为新的互联网数据购买同等数量的国产和外国制造的 AI 芯片,这是监管首次为企业在购买 AI 芯片制定具体指引。


另一方面,这些指引可能会影响英伟达最新 AI 芯片的销售,该芯片旨在遵守拜登政府去年实施的更严格的出口管制,阻止向中国公司出售某些芯片。

自发布以来,国内的科技公司一直在测试和评估新的 GPU(称为 H20、L20 和 L2),以确定购买多少个。

根据监管,如果国内公司选择订购更多的外国芯片而不是本土芯片,他们必须以书面形式详细说明订购美国芯片进行部署的数量,并证明其合理性。

此外,使用国产芯片也意味着放弃使用英伟达的 CUDA 软件,而 CUDA 软件与英伟达芯片配合使用,可以帮助开发人员提高应用程序的性能,但还不能很好地与一些国产芯片配合使用。

据悉,国内公司已订购至少 35 万块 H20 芯片,价值约 40 亿美元,将于 2024 年交付,这比去年国内公司向英伟达订购的价值 50 亿美元的订单有所下降,尽管其中一些订单在美国收紧出口管制后并未交付。

例如,腾讯已经开始构建多个英伟达新型 H20 芯片集群,最大的计算集群可能由超过 60000 个 H20 GPU 组成。

Reference:
- https://www.theinformation.com/articles/chinese-regulators-tell-local-tech-firms-to-buy-fewer-nvidia-chips?rc=z9mejq

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

百万级ChatGPT对话曝光!AI竟然经常被"调戏"?

近年来,随着ChatGPT、Claude等大型对话模型相继问世,它们已经开始为数以百万计的用户提供服务。这些强大的AI助手可以与人进行流畅的多轮对话,完成写作、编程、分析等各种任务,展现出广阔的应用前景。


然而目前公开的人机对话数据集大多由专家根据特定场景设计生成,与真实用户的自然交互存在差异,导致研究者难以深入了解用户与AI助手的实际交互模式。

最近,艾伦人工智能研究所发布了WildChat数据集,包含100万个真实用户与ChatGPT的对话。研究发现,WildChat涵盖编程、创意写作、数学等多样化主题,支持68种语言,并且用户提问和模型回复的平均长度超过现有数据集。值得关注的是,其中超10%对话涉及不当言论,为研究AI应对恶意输入提供了样本。此外,在WildChat上微调语言模型,可显著提升模型的多轮对话能力。

WildChat为对话AI研究提供了真实而丰富的数据。相信基于该数据集的进一步研究,将有助于打造更智能、安全、贴近用户的AI对话系统,推动人机交互技术发展。

论文标题:WildChat: 1M ChatGPT Interaction Logs in the Wild

论文链接:
https://arxiv.org/pdf/2405.01470

WildChat:对话AI研究的”游戏规则改变者”

不按套路出牌:野生数据打破AI对话固有模式
传统的人机对话数据集,如Alpaca、Dolly等,主要由专家根据特定场景设计问答对生成。这类数据虽然质量较高,但与真实用户的自然交互存在差距。用户在实际使用中的提问方式、语言风格、关注点往往更加多样化,而且对话往往是多轮互动,而非简单的一问一答。
WildChat的出现为对话AI研究带来了新的突破。这个数据集包含了100万个由真实用户与ChatGPT的多轮对话,总token数超过8亿,是目前最大的公开人机对话数据集之一。更重要的是,这些对话都是用户在实际使用中自然产生的,涵盖了编程、写作、数学、角色扮演等…

… (以下省略,原文内容过长,请完整阅读原文)

文章来源:夕小瑶科技说
作者 | Richard

图片来源:由GPTNB生成

图片1
图片2

图片3

图片4

图片5

图片6

图片7

图片8

图片9

图片10

图片11

图片12

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代

文章来源: 机器之心

图片来源:由GPTNB生成


“ChatGPT 问世才 17 个月,OpenAI 就拿出了科幻电影里的超级 AI,而且完全免费,人人可用。”

太震撼了!

当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。


图片

5 月 14 日凌晨,OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。这一次,技术颠覆了产品形态,OpenAI 用行动给全世界的科技公司上了一课。

今天的主持人是 OpenAI 的首席技术官 Mira Murati,她表示,今天主要讲三件事:

图片

  • 第一,以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。
  • 第二,因此 OpenAI 此次发布了桌面版本的程序和更新后的 UI,其使用起来更简单,也更自然。
  • 第三,GPT-4 之后,新版本的大模型来了,名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户。

ChatGPT 的这次更新以后,大模型可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。

最近,ChatGPT 不用注册也可以使用了,今天又增加了桌面程序,OpenAI 的目标就是让人们可以随时随地的无感使用它,让 ChatGPT 集成在你的工作流中。这 AI 现在就是生产力了。

图片

GPT-4o 是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快还带有感情,也很通人性。

在现场,OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。最重要的是实时语音对话,Mark Chen 说:「我第一次来直播的发布会,有点紧张。」ChatGPT 说,要不你深呼吸一下。

  • 好的,我深呼吸。

图片

ChatGPT 立即回答说,你这不行,喘得也太大了。

如果你之前用过 Siri 之类的语音助手,这里就可以看出明显的不同了。首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。其次,你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。

随后是视觉能力。另一个工程师在纸上现写的方程,让 ChatGPT 不是直接给答案,而是让它解释要一步步怎么做。看起来,它在教人做题方面很有潜力。

ChatGPT 说,每当你为数学焦头烂额的时候,我就在你身边。

接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。

输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。

图片

最热的月份在几月,Y 轴是摄氏度还是华氏度,它都能回答得上来。

OpenAI 还回应了一些 X/Twitter 上网友们实时提出的问题。比如实时语音翻译,手机可以拿来当翻译机来回翻译西班牙语和英语。

又有人问道,ChatGPT 能识别你的表情吗?

看起来,GPT-4o 已经能够做到实时的视频理解了。

接下来,就让我们详细了解下 OpenAI 今天放出的核弹。

全能模型 GPT-4o

第一次,OpenAI 在一个模型中集成了所有模态,大幅提升了大模型的实用性。

OpenAI CTO Muri Murati 表示,GPT-4o 提供了「GPT-4 水准」的智能,但在 GPT-4 的基础上改进了文本、视觉和音频方面的能力,将在未来几周内「迭代式」地在公司产品中推出。

图片

「GPT-4o 的理由横跨语音、文本和视觉,」Muri Murati 说道:「我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与 GPT 的协作。」

GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

它最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。在 GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

这种语音响应模式是由三个独立模型组成的 pipeline:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。但 OpenAI 发现这种方法意味着 GPT-4 会丢失大量信息,例如模型无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

而在 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。

「从技术角度来看,OpenAI 已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究,但总体来说是一个数据和系统优化问题(大多数事情都是如此)。」英伟达科学家 Jim Fan 如此评论道。

图片

GPT-4o 可以跨文本、音频和视频进行实时推理,这是向更自然的人机交互(甚至是人 - 机器 - 机器交互)迈出的重要一步。

OpenAI 总裁 Greg Brockman 也在线「整活」,不仅让两个 GPT-4o 实时对话,还让它们即兴创作了一首歌曲,虽然旋律有点「感人」,但歌词涵盖房间的装饰风格、人物穿着特点以及期间发生的小插曲等。

此外,GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多,此前很多不可能的任务都变得「易如反掌」。

比如,你可以让它帮忙把 OpenAI 的 logo 印到杯垫上;

图片

经过这段时间的技术攻关,OpenAI 应该已经完美解决了 ChatGPT 生成字体的问题。

同时,GPT-4o 还拥有 3D 视觉内容生成的能力,能够从 6 个生成的图像进行 3D 重建:

图片

图片

这是一首诗,GPT-4o 可以将其排版为手写样式:

图片

图片

更复杂的排版样式也能搞定:

图片

图片

图片

与 GPT-4o 合作,你只需要输入几段文字,就能得到一组连续的漫画分镜:

图片

而下面这些玩法,应该会让很多设计师有点惊讶:

图片

这是一张由两张生活照演变而来的风格化海报:

图片

图片

还有一些小众的功能,比如「文本转艺术字」:

图片

GPT-4o 性能评估结果

OpenAI 技术团队成员在 X 上表示,之前在 LMSYS Chatbot Arena 上引起广泛热议的神秘模型「im-also-a-good-gpt2-chatbot」就是 GPT-4o 的一个版本。

图片

在比较困难的 prompt 集上 —— 特别是编码方面:GPT-4o 相比于 OpenAI 之前的最佳模型,性能提升幅度尤其显著。

图片

具体来说,在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上实现了新高。

图片

推理提升:GPT-4o 在 5-shot MMLU(常识问题)上创下了 87.2% 的新高分。

图片

音频 ASR 性能:GPT-4o 相比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。

图片

GPT-4o 在语音翻译方面取得了新的 SOTA 水平,并且在 MLS 基准测试中优于 Whisper-v3

图片

M3Exam 基准测试:M3Exam 基准测试既是多语言评估基准也是视觉评估基准,由来自多个国家 / 地区的标准化测试多项选择题组成,并包括图形、图表。在所有语言基准测试中,GPT-4o 都比 GPT-4 更强。

未来,模型能力的提升将实现更自然、实时的语音对话,并能够通过实时视频与 ChatGPT 进行对话

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新

在 OpenAI 发布会的前一天,来自中国的大模型公司零一万物,让开源大模型社区活跃了起来:Yi 大模型家族新成员「Yi-1.5」模型正式开源。在项目主页可以看到,Yi-1.5 包括一系列预训练和微调模型,分为 6B、9B、34B 三个版本,采用 Apache 2.0 许可证。


据了解,Yi-1.5 是 Yi-1.0 的持续预训练版本,使用 500B 个 token 来提高编码、推理和指令执行能力,并在 300 万个指令调优样本上进行了精细调整。

刚一发布,就已经有开发者跃跃欲试:

与前序模型相比,Yi-1.5 系列模型进一步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出,Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B,几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。

重磅消息当然不止这一个。

在成立一周年之际,零一万物宣布面向国内市场一次性发布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保证客户能够在不同场景下都能找到最佳性能、最具性价比的方案,Yi API Platform 英文站同步对全球开发者开放试用申请。

其中,千亿参数规模的 Yi-Large API 具备超强文本生成及推理性能,适用于复杂推理、预测,深度内容创作等场景,每百万 token 的价格是 20 元,是 GPT-4-turbo 的三分之一。

Yi-Large-Turbo API 则根据性能和推理速度、成本,进行了平衡性高精度调优,适用于全场景、高品质的推理及文本生成等场景。Yi-Medium API 优势在于指令遵循能力,适用于常规场景下的聊天、对话、翻译等场景;如果需要超长内容文档相关应用,也可以选用 Yi-Medium-200K API,一次性解读 20 万字不在话下;Yi-Vision API 具备高性能图片理解、分析能力,可服务基于图片的聊天、分析等场景;Yi-Spark API 则聚焦轻量化极速响应,适用于轻量化数学分析、代码生成、文本聊天等场景。

其中特别要提到的是发布会现场正式亮相的千亿参数 Yi-Large 闭源大模型。Yi-Large 面世的同时即正式进军全球 SOTA 顶级大模型之首。可以看到,与 GPT-4、Claude3 Sonnet、Gemini 1.5 Pro 以及 Llama 3-70B-Instruct 等当前顶级模型的较量中,Yi-Large 在绝大多数情况下取得了优势。

同时,在斯坦福大模型排行榜 AlpacaEval 的英语评测中,Yi-Large 达到全球大模型 Win Rate 第一。在中文通用大模型综合性基准 SuperCLUE 的中文语言理解排名中,Yi-Large 一跃成为国产大模型 No. 1。

中文能力方面,SuperCLUE 更新的四月基准表现中,Yi-Large 也位列国产大模型之首,Yi-Large 的综合中英双语能力皆展现了卓越的性能。

在发布会上,李开复还宣布,零一万物已启动下一代 Yi-XLarge MoE 模型训练,将冲击 GPT-5 的性能与创新性。从 MMLU、GPQA、HumanEval、MATH 等权…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新

在 OpenAI 发布会的前一天,来自中国的大模型公司零一万物,让开源大模型社区活跃了起来:Yi 大模型家族新成员「Yi-1.5」模型正式开源。

在项目主页可以看到,Yi-1.5 包括一系列预训练和微调模型,分为 6B、9B、34B 三个版本,采用 Apache 2.0 许可证。


图片

据了解,Yi-1.5 是 Yi-1.0 的持续预训练版本,使用 500B 个 token 来提高编码、推理和指令执行能力,并在 300 万个指令调优样本上进行了精细调整。

刚一发布,就已经有开发者跃跃欲试:

图片

并收获了好评:

图片

与前序模型相比,Yi-1.5 系列模型进一步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出,Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B,几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。

图片
图片
图片
图片

重磅消息当然不止这一个。

在成立一周年之际,零一万物宣布面向国内市场一次性发布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保证客户能够在不同场景下都能找到最佳性能、最具性价比的方案,Yi API Platform 英文站同步对全球开发者开放试用申请。

图片
Yi 大模型 API 开放平台 (https://platform.lingyiwanwu.com/)

其中,千亿参数规模的 Yi-Large API 具备超强文本生成及推理性能,适用于复杂推理、预测,深度内容创作等场景,每百万 token 的价格是 20 元,是 GPT-4-turbo 的三分之一。

图片

Yi-Large-Turbo API 则根据性能和推理速度、成本,进行了平衡性高精度调优,适用于全场景、高品质的推理及文本生成等场景。Yi-Medium API 优势在于指令遵循能力,适用于常规场景下的聊天、对话、翻译等场景;如果需要超长内容文档相关应用,也可以选用 Yi-Medium-200K API,一次性解读 20 万字不在话下;Yi-Vision API 具备高性能图片理解、分析能力,可服务基于图片的聊天、分析等场景;Yi-Spark API 则聚焦轻量化极速响应,适用于轻量化数学分析、代码生成、文本聊天等场景。

其中特别要提到的是发布会现场正式亮相的千亿参数 Yi-Large 闭源大模型。Yi-Large 面世的同时即正式进军全球 SOTA 顶级大模型之首。可以看到,与 GPT-4、Claude3 Sonnet、Gemini 1.5 Pro 以及 Llama 3-70B-Instruct 等当前顶级模型的较量中,Yi-Large 在绝大多数情况下取得了优势。

图片

同时,在斯坦福大模型排行榜 AlpacaEval 的英语评测中,Yi-Large 达到全球大模型 Win Rate 第一。在中文通用大模型综合性基准 SuperCLUE 的中文语言理解排名中,Yi-Large 一跃成为国产大模型 No. 1。

图片

中文能力方面,SuperCLUE 更新的四月基准表现中,Yi-Large 也位列国产大模型之首,Yi-Large 的综合中英双语能力皆展现了卓越的性能。

在发布会上,李开复还宣布,零一万物已启动下一代 Yi-XLarge MoE 模型训练,将冲击 GPT-5 的性能与创新性。从 MMLU、GPQA、HumanEval、MATH 等权威评测集中,仍在初期训练中的 Yi-XLarge MoE 已经与 Claude-3-Opus、GPT4-0409 等国际厂商的最新旗舰模型互有胜负。

图片
Yi-XLarge 初期训练中评测(2024 年 5 月 12 日)

至此,零一万物已经建立了「双轨模型策略」。

图片

近期上线的一站式 AI 工作站「万知」(wanzhi.com/ 微信小程序「万知 AI」)则是零一万物基于世界领先的闭源模型 Yi-Large 所做出的「模应一体」生产力应用。

图片

而对于大众和行业最关心的「大模型落地如何产生价值」的命题,李开复指出,国内大模型赛道的竞跑从狂奔到长跑,终局发展将取决于各个选手如何有效达到「TC-PMF」(Product-Market-Technology-Cost Fit,技术成本 X 产品市场契合度)。大模型从训练到服务都很昂贵,算力紧缺是赛道的集体挑战,行业应当共同避免陷入不理性的 ofo 式流血烧钱打法,让大模型能够用健康良性的 ROI 蓄能长跑。

在李开复博士看来,自研 AI Infra 是零一万物必然要走的路,零一万物也自成立起便将 AI Infra 设立为重要方向,着力于实现计算效率的优化。AI Infra(AI Infrastructure  人工智能基础架构技术)主要涵盖大模型训练和部署提供各种底层技术设施。这也基于一个既定事实,很多大模型公司没有美国大厂的 GPU 数量,因此要采取更务实的战术和战略。

零一万物着力于实现计算效率的优化,经过多方面优化后,零一万物千亿参数模型的训练成本同比降幅达一倍之多。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

微软让MoE长出多个头,大幅提升专家激活率

MH-MoE 能优化几乎所有专家,实现起来非常简单。
混合专家(MoE)是个好方法,支持着现在一些非常优秀的大模型,比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。


稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一个 SMoE 模型,其包含 8 个专家(共 7B 参数),而其表现却可以超过或比肩 LLaMA-2 70B 和 GPT-3.5。
但是,它也有两个问题。一是专家激活率低 —— 也就是搞不好会出现下图这种情况:
图片
具体来说,就是在优化时只有一小部分专家会被激活,如图 1a 所示(8.33% 的激活率),这会导致在学习应对复杂任务的大量专家时,会出现性能次优和效果不佳的问题。
二是无法细粒度地分析单个 token 的多重语义概念,比如多义词和具有多重细节的图块。
近日,微软研究院和清华大学提出了多头混合专家(MH-MoE)。顾名思义,MH-MoE 采用了多头机制,可将每个输入 token 分成多个子 token。然后将这些子 token 分配给一组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式。
图片
- 论文标题:Multi-Head Mixture-of-Experts
- 论文地址:https://arxiv.org/pdf/2404.15045
- 代码地址:https://github.com/yushuiwx/MH-MoE
图 2 展示了 MH-MoE 的工作流程。可以看到,当输入单个 token 时,MH-MoE 会将其分成 4 个子 token,进而激活 4 个专家,而 SMo…

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

微软让MoE长出多个头,大幅提升专家激活率

MH-MoE 能优化几乎所有专家,实现起来非常简单。

混合专家(MoE)是个好方法,支持着现在一些非常优秀的大模型,比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。


稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一个 SMoE 模型,其包含 8 个专家(共 7B 参数),而其表现却可以超过或比肩 LLaMA-2 70B 和 GPT-3.5。

但是,它也有两个问题。一是专家激活率低 —— 也就是搞不好会出现下图这种情况:

图片

具体来说,就是在优化时只有一小部分专家会被激活,如图 1a 所示(8.33% 的激活率),这会导致在学习应对复杂任务的大量专家时,会出现性能次优和效果不佳的问题。

二是无法细粒度地分析单个 token 的多重语义概念,比如多义词和具有多重细节的图块。

近日,微软研究院和清华大学提出了多头混合专家(MH-MoE)。顾名思义,MH-MoE 采用了多头机制,可将每个输入 token 分成多个子 token。然后将这些子 token 分配给一组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式。

图片

图 2 展示了 MH-MoE 的工作流程。可以看到,当输入单个 token 时,MH-MoE 会将其分成 4 个子 token,进而激活 4 个专家,而 SMoE 仅激活 1 个专家。

图片

如图 2 所示,分配给专家 3 和 2 的子 token 包含对图块内每个角色动作的详细理解,而分配给专家 1 和 4 的子 token 则显式地建模了错误的同源词「camera」的语义。

专家处理完成后,再将子 token 无缝地重新整合进原来的 token 形式,由此可以避免后续非并行层(例如注意力层)的任何额外计算负担,同时还集成从多个专家捕获的语义信息。

这样的操作可让 MH-MoE 从整体上关注来自不同专家内不同表征空间的信息,从而可以加深上下文理解能力,同时提升专家激活率。该项目的代码也将发布。

MH-MoE 的具有以下优势:

  1. 专家激活率更高且扩展性更好。MH-MoE 能优化几乎所有专家,从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率,如图 1a 所示实现了 90.71% 的激活率,这能让模型能力获得更高效的扩展。
  2. 具有更细粒度的理解能力。MH-MoE 采用的多头机制会将子 token 分配给不同的专家,从而可以联合关注来自不同专家的不同表征空间的信息,最终获得更好更细粒度的理解能力。举个例子,如图 1b 的明亮区域所示,子 token 会被分配给更多样化的一组专家,这有助于捕获语义丰富的信息。
  3. 可实现无缝整合。MH-MoE 实现起来非常简单,而且与其它 SMoE 优化方法(如 GShard)无关,反而可以将它们整合起来一起使用以获得更好的性能。

方法

图 3 给出了 MH-MoE 的整体架构,其使用了多头机制将每个 token 分拆为子 token,然后将这些子 token 路由给不同的专家。

图片

多头混合专家

为了能清楚说明,这里仅描述单层 MH-MoE。

首先,通过一个多头层将输入 token 序列投射成一个新序列。

之后,沿 token 维度将新序列中的每个 token 分拆为多个子 token,并根据原始 token 序列并行排布这些子 token,进而构成一个新的特征空间。

然后将所有这些子 token 输送给一个门控函数。将特定子 token 路由到第 p 个专家的门控值的计算方式为:

图片

对于路由方法,这篇论文关注的重点方法是 top-k 路由,也就是激活路由分数最大的 k 个专家。然后让这些激活的专家处理子 token。

之后,按子 token 原来的顺序重新排布并整合所得结果。

然后,通过一个 token 合并操作将所得整合结果转换回原始 token 形式。

最后,使用一个融合层将转换后的结果投射成多个特征的有效整合形式,此时这些特征已捕获了不同专家表征空间的详细信息。这样便可得到单层 MH-MoE 的最终输出。

训练目标

MH-MoE 的训练目标是最小化两个损失:针对具体任务的损失和辅助性的负载平衡损失。

实验

实验设置

为了进行比较,该研究的实验采用了两种基准模型:(1) Dense,这是没有整合稀疏激活的并行模块(SMoE 层)的 Transformer 解码器。(2) X-MoE,基于 Chi et al. (2022) 的论文《On the representation collapse of sparse mixture of experts》提出的方法的实现。

实验中的 MH-MoE 基于 X-MoE 并使用了与其一样的设置。

实验任务有三个:以英语为中心的语言建模、多语言语言建模、掩码式多模态建模。

更多有关数据集和模型架构的设置请参阅原论文。

困惑度评估

他们在两种专家设置(8 个专家和 32 个专家)下研究了所有预训练模型和预训练任务的验证困惑度曲线。图 4 给出了困惑度趋势,表 1 是最终的困惑值。

图片

图片

据此可以看出:

  • 相比于基准,MH-MoE 的困惑度总是更低,这说明其能更有效地学习;
  • 在三个不同的设置中,MH-MoE 的困惑度是最低的;
  • 当专家数量增多时,MH-MoE 的困惑度会下降,这说明随着专家数量增多,其表征学习能力会提升,模型也能从中受益。

这些结果表明 MH-MoE 在多种预训练范式下都有更优的学习效率和语言表征能力。

下游任务评估

为了验证 MH-MoE 的效果,该团队也为每个预训练任务执行了对应的下游任务评估。

以英语为中心的语言建模

这里使用了 9 个不同的零样本评估基准,可以评估模型解决多种不同自然语言任务的能力,比如常识推理、一般语言理解和知识理解。评估框架为 LLM Evaluation Harness。结果见表 2。

图片

可以看到,相比于 Dense 模型,X-MoE 有明显优势,这说明较大的模型能让 SMoE 模型(如 X-MoE)受益。总体而言,MH-MoE 在所有基准上都表现最佳。

多语言语言建模

他们在跨语言自然语言推理(XNLI)语料库(14 种语言)上评估了新的多语言语言模型。评估框架依然是 LLM Evaluation Harness,同样使用了零样本设置。结果见表 3。

图片

MH-MoE 依然表现最佳,这体现了多头机制在建模跨语言自然语言方面的有效性。

掩码式多模态建模

他们也在社区广泛使用的视觉 - 语言理解和生成基准上执行了评估,包括视觉问答、视觉推理和图像描述。评估结果见表 4。

图片

可以看到,MH-MoE 在这三个任务上有着全面的优势。这些结果表明 MH-MoE 具有更强的视觉信息理解能力,这也验证了新提出的多头机制在捕获视觉数据中的不同语义和详细信息方面的有效性。

消融研究

为了验证 MH-MoE 各组件和参数的效果,该团队也进行了消融研究。他们研究的内容包括头的数量、多层感知器层(包括多头层和融合层)、token 拆分与融合操作、MLP 层的数量。

表 5、6、7 给出了研究结果。整体而言,MH-MoE 各组件的效果得到了验证,并且他们也得到了一些有趣的结果,比如从表 7 可以看出单层 MLP 足以实现 token 分割和融合。

图片

图片

图片

分析

专家激活分析

最后该团队还通过可视化分析等方法对 MH-MoE 进行了分析。

图 5 给出了 X-MoE 和 MH-MoE 中专家激活的分布情况。

![图片](https://mmbiz.qpic.cn/sz_mmbiz_png/KmX

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

微软让MoE长出多个头,大幅提升专家激活率

MH-MoE 能优化几乎所有专家,实现起来非常简单。

混合专家(MoE)是个好方法,支持着现在一些非常优秀的大模型,比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。


稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一个 SMoE 模型,其包含 8 个专家(共 7B 参数),而其表现却可以超过或比肩 LLaMA-2 70B 和 GPT-3.5。

但是,它也有两个问题。一是专家激活率低 —— 也就是搞不好会出现下图这种情况:

图片

具体来说,就是在优化时只有一小部分专家会被激活,如图 1a 所示(8.33% 的激活率),这会导致在学习应对复杂任务的大量专家时,会出现性能次优和效果不佳的问题。

二是无法细粒度地分析单个 token 的多重语义概念,比如多义词和具有多重细节的图块。

近日,微软研究院和清华大学提出了多头混合专家(MH-MoE)。顾名思义,MH-MoE 采用了多头机制,可将每个输入 token 分成多个子 token。然后将这些子 token 分配给一组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式。

图片

图 2 展示了 MH-MoE 的工作流程。可以看到,当输入单个 token 时,MH-MoE 会将其分成 4 个子 token,进而激活 4 个专家,而 SMoE 仅激活 1 个专家。

图片

如图 2 所示,分配给专家 3 和 2 的子 token 包含对图块内每个角色动作的详细理解,而分配给专家 1 和 4 的子 token 则显式地建模了错误的同源词「camera」的语义。

专家处理完成后,再将子 token 无缝地重新整合进原来的 token 形式,由此可以避免后续非并行层(例如注意力层)的任何额外计算负担,同时还集成从多个专家捕获的语义信息。

这样的操作可让 MH-MoE 从整体上关注来自不同专家内不同表征空间的信息,从而可以加深上下文理解能力,同时提升专家激活率。该项目的代码也将发布。

MH-MoE 的具有以下优势:

  1. 专家激活率更高且扩展性更好。MH-MoE 能优化几乎所有专家,从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率,实现了 90.71% 的激活率,这能让模型能力获得更高效的扩展。
  2. 具有更细粒度的理解能力。MH-MoE 采用的多头机制会将子 token 分配给不同的专家,联合关注来自不同专家的不同表征空间的信息,获得更好更细粒度的理解能力。
  3. 可实现无缝整合。MH-MoE 实现简单,可与其他优化方法整合使用以获得更好性能。

方法

图 3 给出了 MH-MoE 的整体架构,其使用了多头机制将每个 token 分拆为子 token,然后将这些子 token 路由给不同的专家。

图片

多头混合专家

为了能清楚说明,这里…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB