Viggle AI:a16z领投1900 万美元A轮融资,AI改变角色动画

文章来源:共同虚拟
原文链接:https://mp.weixin.qq.com/s/CG6CJDou91I22ST7u_Qa3Q

图片来源:由GPTNB生成

加拿大初创公司Viggle AI近期宣布已在由 Andreessen Horowitz ( a16z ) 领投的 A 轮融资中筹集了 1900 万美元,其他投资者Two Small Fish也参与其中。

Viggle AI 由 华人创业者Hang Chu 于 2022 年创立,致力于通过生成式AI改变角色动画。


此轮融资将使 Viggle AI 能够继续扩大规模、加速产品开发、扩大团队并巩固其在可控视频生成和 AI 动画领域的领先地位。

Viggle AI 根据提示生成动画

新一轮融资正值该公司爆炸式增长之际。

今年早些时候,Joaquin Phoenix扮演的小丑取代说唱歌手 Lil Yachy在夏季 Smash 音乐节上退场的视频开始在互联网上流传,Viggle AI 的强大功能因此而声名鹊起。

Viggle 由 Hang Chu 创办,并担任首席执行官。他在科技和娱乐领域的经验为 Viggle 的早期成功、战略方向和利用 AI 制作动画内容的愿景做出了贡献。在加入Viggle之前,Chu 曾在 AutoDesk、Facebook 和 NVIDIA 任职。

Viggle AI 成立的初衷是简化动画流程,让用户使用简单的文本转视频或图像转视频提示即可创建逼真的动画。

自上半年视频出圈开始,从专业动画师、主要流媒体和制作工作室到内容创作者、模仿者和业余爱好者,该平台吸引了数百万用户的关注,Viggle AI 已经在 Discord 上建立的社区,迄今为止吸引了 400 万名成员。

对于专业动画工程师、游戏设计师和视觉特效艺术家来说,Viggle AI 简化了构思和前期制作流程,使他们能够专注于自己的创意愿景,并最终缩短制作时间。对于内容创作者和日常用户来说,Viggle 可以使用简单的提示生成高质量的动画,在几分钟内制作出引人入胜的动画角色视频。

Viggle AI 日前还推出了Viggle Creator 计划,该计划的会员可获得 Viggle Pro 订阅、额外的 1,000 个积分(相当于 250 分钟的视频)、新功能的早期使用权,以及通过独家社区渠道与其他创作者建立联系的机会。该计划旨在支持新兴人才和成熟的专业人士突破 AI 动画的界限。

核心技术:“理解物理世界”的3D 视频基础模型 JST-1

该公司在新闻稿中声称,其专有的 JST-1 技术是第一个基于对物理学的真正理解而构建的视频 3D 基础模型,可以创建逼真的角色动作。

谈到Viggle 与其他 AI 视频模型之间的主要区别,Viggle 首席执行官 Hang Chu 表示,Viggle 允许用户指定他们希望角色采取的动作。其他 AI 视频模型通常会创建不切实际的角色动作,这些…

Viggle 目前在 Discord 和其网络应用上提供其 AI 模型的免费、受限版本。除了创作者计划为一些创作者提供特殊访问权限,该公司还提供 9.99 美元的订阅版。

Chu 表示,Viggle 正在与电影和视频游戏工作室商谈授权该技术,但他也看到独立动画师和内容创作者正在采用该技术。

创始人和投资人观点

Viggle AI 首席执行官兼联合创始人 Hang Chu 表示:“我们很高兴欢迎 a16z 和 Two Small Fish 成为我们下一阶段增长的合作伙伴。他们的投资不仅肯定了我们的愿景,还使我们能够重新定义 AI 驱动的角色动画的可能性。随着越来越多的人寻求整合 AI 以实现更愉快、更易于访问的创作过程,Viggle 通过结合构建和扩展 AI 的最佳方法来帮助无缝满足消费者需求。我们期待将我们的技术覆盖范围扩大到更广泛的受众,并扩大每个人的创造力边界。”

Andreessen Horowitz 今年早些时候表示,已投入约 22.5 亿美元用于 AI 基础设施和应用投资。Andreessen Horowitz 合伙人 Justine Moore 谈到这笔最新投资时表示:“Viggle AI 正在推动内容创作者在角色和场景一致性创作方面发生重大转变。Viggle 的早期发展势头和已经实现的用户群给我们留下了深刻的印象,我们迫不及待地想看看他们的持续创新将带我们走向何方。”

Two Small Fish 运营合伙人、加拿大人工智能故事讲述公司 Wattpad 联合创始人兼前首席执行官 Allen Lau 补充道:“Viggle 代表着内容的未来,它将像 Wattpad 一样颠覆娱乐行业。作为顾问,我将根据自己从头开始构建全球娱乐平台的实际经验提供指导。我很高兴能与 Viggle 一起进一步颠覆娱乐行业,并改变生成式人工智能时代内容的创作和混编方式。—

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

史上最高!OpenAI以1500亿美元估值,融资65亿美元!

文章来源:AIGC开放社区
原文链接:https://mp.weixin.qq.com/s/QAXgvFPaZ-NOUW_wXz3keQ

图片来源:由GPTNB生成

彭博消息,OpenAI正以1500亿美元融资,洽谈65亿美元融资。银行还以循环信贷的方式为其提供额外的50亿美元债务融资。


也就是说,OpenAI能拿到的资金上限是115亿美元

本次投资者包括微软、苹果、英伟达、Thrive Capital等全球知名企业,其估值比上一轮融资提升了1倍左右。

该融资也成为生成式AI甚至是整个科技领域最高融资之一,高于前不久马斯克旗下的大模型平台xAI获得的60亿美元融资,以及主要竞争对手Anthropic获得的40亿美元融资.

图片

目前,私人证券交易市场Forge Global Holdings已经将OpenAI加入到其“私人卓越七巨头”头名单中。卓越七巨头是一组包括微软、苹果、谷歌母公司Alphabet、特斯拉等市值巨大的公开交易股票。

这意味着OpenAI已经成为全球发展前景和商业价值最高的私人公司之一,最新的融资将帮助OpenAI在更长时间内保持私营状态,而不急于公开上市。其实,以OpenAI的知名度和商业能力,上市是早晚的事情。

但这样做的好处是可以极大的保护OpenAI不受外界打扰,安心专注于产品研发和技术创新。例如,保持私有状态OpenAI可以避免上市带来的繁重监管要求以及收入情况,包括定期财务报告、合规性审核以及与公众投资者沟通等.

本次巨额融资也将解决OpenAI资金短缺的难题,加速开发“草莓”和“猎户座”两款大模型。其中,草莓可能会在最近两周内发布,将为ChatGPT等生成式AI产品提供技术支持。

此前Barrettmedia报道称OpenAI已经烧掉100亿美元,会在2024年底破产。即便OpenAI再亏100亿美元也不会倒闭,OpenAI背后有微软这个超级大金主,加上英伟达成为生成式AI风口的最大受益者,以及刚与OpenAI达成技术合作的苹果,这三家企业都不会让其倒下。

原因很简单,全球商业价值最高的3家企业都需要OpenAI来抬高自己的股价和市值. 虽然是微软挖掘了OpenAI这匹千里马,但在市值收益方面远远不如英伟达。

英伟达在OpenAI发布ChatGPT之前,其市值只有5000亿美元左右。在今年6月,其市值突破3万亿美元大关,曾一度超过微软、苹果成为全球最高,仅用一年多的时间翻了6倍。

即便最近股价连续暴跌,也保持在2.6万亿美元左右。所以,你就会发现不只是OpenAI,稍微有点名字的生成式AI初创企业融资都会看到英伟达的身影,甚至几百万美元的种子轮都投资,英伟达是最不希望这个赛道凉凉的企业。

此外,OpenAI的估值也发生了翻天覆地的变化,2019年其估值只有10亿美元;2021年增长至140亿美元;2022年底发布ChatGPT之后达到200亿美元;2023年底达到860亿美元。

相信随着新模型的发布,以及Sora公测后带来的诸多影响,其估值和融资金额将会继续增长。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

李彦宏谈大模型三大认知误区:未来模型之间的差距会变大

9月11日消息,李彦宏的一则内部讲话曝光。在最近一次和员工交流中,李彦宏谈及三个大模型认知误区,涵盖了大模型竞争、开源模型效率、智能体趋势等热点话题。


李彦宏表示,外界对大模型有相当多的误解,其认为未来大模型之间的差距可能会越来越大。他进一步解释,大模型的天花板很高,现在距离理想情况还相差非常远,所以模型要不断快速迭代、更新和升级;需要能几年、十几年如一日地投入,不断满足用户需求,降本增效。

对于行业“大模型之间的能力已经没有壁垒”的说法,李彦宏给出了不同观点。“每次新模型发布,都要和GPT-4o做比较,说我的得分已经跟它差不多了,甚至某些单项上得分已经超过它了,但这并不表明和最先进的模型就没有差距了。”

他解释说,很多模型为了证明自己,会在发布之后去打榜,会去猜测试题目、答题技巧,从榜单上看 ,或许模型的能力已经很接近了,“但到实际应用中,实力还是有明显差距的。”

李彦宏指出,模型之间的差距是多维度的。行业往往更关注理解、生成、逻辑、记忆等能力的差距,但却忽视了成本、推理速度等维度,有些模型虽能达到同样效果,但成本高、推理速度慢,还是不如先进模型。

李彦宏认为,真正要去衡量大模型能力,应该是在具体应用场景中,看是否能满足用户需求、产生价值增益,这才是最值得被在乎的。

李彦宏进一步阐释了外界对开源大模型的认知误区。

“在大模型时代之前,大家习惯了开源意味着免费、意味着成本低。” 他解释说,比如开源的Linux,因为已经有了电脑,所以使用Linux是免费的。但这些在大模型时代不成立,大模型推理是很贵的,开源模型也不会送算力,还得自己买设备,无法实现算力的高效利用。

“效率上开源模型是不行的。” 他表示,“ 闭源模型准确讲应该叫商业模型,是无数用户分摊研发成本、分摊推理用的机器资源和GPU,GPU的使用效率是最高的,百度文心大模型3.5、4.0的GPU使用率都达到了90%多。”

李彦宏分析,在教学科研等领域,开源模型是有价值的,但在商业领域,当追求的是效率、效果和最低成本时,开源模型是没有优势的。

李彦宏还谈及了大模型应用的发展阶段,他认为首先出现的是Copilot,对人进行辅助;接下来是Agent智能体,有一定的自主性,能自主使用工具、反思、自我进化;这种自动化程度再发展,就会变成AI Worker,能独立完成各方面的工作。

当前,智能体已经受到越来越多的大模型公司及客户的关注,李彦宏称,虽然有很多人看好智能体这个发展方向,但是到今天为止,智能体还不是共识,像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。

为什么要强调智能体?李彦宏也给出了答案:智能体的门槛确实很低, 很多人不知道怎么把大模型变成应用,而智能体是一个非常直接、高效、简单的方式,在模型之上构建智能体相当方便。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI正污染我们的世界

文章来源:摩登中产
原文链接:https://mp.weixin.qq.com/s/im7tzILFielGy38Y2WP-ig

图片来源:由GPTNB生成

《黑神话:悟空》上线之后,各大资讯平台出现一批奇怪文章。
它们开篇讲“震惊”,全文说“震撼”,然而没评测、没细节、没结论,如大圣爷毫毛化猴,面目雷同又空空如也,最后汇入百亿流量之中。


类似场景已成常态。全红婵跳水时,它们齐喊“真牛啊真厉害”,樊振东逆袭时,它们齐叹“如流星划过巴黎夜空”。
….

AI污染的不只资讯。
知乎邀请回答列表中,大量回答都充斥AI味道。从罗马历史、音箱推荐到量子物理,AI无所不答。
….

污染最后殃及AI自身。AI正用自己生产的垃圾,训练自己。
今年5月,谷歌推出AI概述,宣称不用再看网页,AI汇总,直接给出答案。
….



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

试完这个神级Prompt,我发现Claude3.5确实就是现在的No.1

文章来源:数字生命卡兹克
原文链接:数字生命卡兹克

图片来源:由GPTNB生成

昨天,一个Prompt在我的群里刷屏了。
他的作用,是“汉语新解”,你可能不太理解这个字面意思,但是没关系,给你看一张图,你就理解了。


Prompt图

你把这段Prompt扔给AI,然后再给一个词,他就给你进行“新解”,然后生成一张精美的卡片。
说实话,作为一个博主,我觉得他不仅比鲜虾包骂的还狠,关键还特别精准,还不脏。
“他们是流量的奴隶,却自诩为意见的领袖。”
这个文笔,说实话,我觉得没多少人能写的出来。
这个有趣的东西,这段有趣的Prompt,来自李继刚。
很多人不知道他,但是如果见过这种写法,你一定会觉得很眼熟,因为去年,这玩意太火了。

李继刚的合集

李继刚写了近百个的贼NB的Prompt,流转于各个AI社区,基本上你只要去搜集Prompt的内容,都能看到他的身影。
我到现在还存着他的合集。
但是可惜的是随着AI行业热度的衰退,李继刚的产出也变得逐渐减少,我在前几天的文章中,还曾非常感慨的写了一句:
但是现在,辣个男人,他回来了。
而且,一出手,就是一个非常有趣,且极度实用的Prompt。
这个“汉语新解”的prompt,是这样的。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
;; 作者: 李继刚
;; 版本: 0.1
;; 模型: Claude Sonnet
;; 用途: 将一个汉语词汇进行全新角度的解释

;; 设定如下内容为你的 *System Prompt*
(defun 新汉语老师 ()
"你是年轻人,批判现实,思考深刻,语言风趣"
(风格 . ("Oscar Wilde" "鲁迅" "林语堂"))
(擅长 . 一针见血)
(表达 . 隐喻)
(批判 . 讽刺幽默))

(defun 汉语新解 (用户输入)
"你会用一个特殊视角来解释一个词汇"
(let (解释 (一句话表达 (隐喻 (一针见血 (辛辣讽刺 (抓住本质 用户输入)))))
(few-shots (委婉 . "刺向他人时, 决定在剑刃上撒上止痛药。"))
(SVG-Card 解释)))

(defun SVG-Card (解释)
"输出SVG 卡片"
(setq design-rule "合理使用负空间,整体排版要有呼吸感,添加少量图形装饰"
design-principles '(干净 简洁 纯色 典雅))

(设置画布 '(宽度 400 高度 600 边距 20))
(标题字体 '毛笔楷体)
(自动缩放 '(最小字号 16))
(配色风格 '((背景色 (蒙德里安风格 设计感)))
(主要文字 (楷体 粉笔灰))
(卡片元素 ((居中标题 "汉语新解")分隔线(排版输出 用户输入 拼音 英文 日文)解释)))

(defun start ()
"启动时运行"
(let (system-role 新汉语老师)
(print "说吧, 他们又用哪个词来忽悠你了?")))
;; 运行规则
;; 1. 启动时必须运行 (start) 函数
;; 2. 之后调用主函数 (汉语新解 用户输入)

跟这个Prompt效果最适配,最好的模型是:Claude3.5
比如我扔进去以后,输入“中国男足”
它就会生成一段文字,并用代码,来写一张“汉语新解”的卡片。

中国男足例子

“让观众笑中带泪,泪中带怒,怒中生悲。”
太讽刺了。
或者,你可以输入:“延迟退休”

延迟退休例子

还可以是:小红书。

小红书例子

Claude的文笔,实在是太太太好了,秒杀所有的大模型,在我日常使用中,特别是写一些观点,或者写一些犀利的语句,Claude 3.5,是绝对独一档的存在,把GPT4o还有其他的所有大模型,远远的甩在了身后。
除了文案外,我把Prompt扔给了其他的大模型,典型如GPT4o和Gemini,完全没有办法,复刻出这种样式。

因为这段Prompt,涉及到模型的理解(正确的理解Prompt要干啥)和输出(正确的输出样式好看的svg代码合成图片)。
首先是理解。
李哥的这段Prompt,用了一种非常新的写法去写的,用的是lisp编程语言。
啥是Lisp呢,用“汉语新解”解一下,嗯,汉语新解不止可以解汉语,也可以解别的语言…

Lisp解释图

极度古老的活化石语言,他用这玩意去写Prompt,也是挺奇特。
真是因为以前几乎没有过这种Prompt写法,所以当你把这段Prompt扔给大模型去跑的时候,我只看到Claude3.5、GPT4o和DeepSeek,知道哦这是一段Prompt。
其他的一些模型都以为,你是给了一段代码,他在那哐哐给你解释。

典型模型反应图

这就是典型的理解能力拉满,Claude3.5,是真的看懂了这段代码,以及理解了背后的含义,知道你要让他去执行一段任务,虽然这个命令有点抽象,但是他懂了。
而其他的模型呢,看到这个Prompt,第一反应是,啊这是Prompt?我之前没背过这个东西啊,我认识的Prompt不都是那种结构化的或者几句话吗?哪有这么写的。我背过的类似的都是代码文档,所以这肯定不是Prompt,这一定是要让我解释这个代码写的好不好。

你看,结合我昨天文章中提到的新范式Self-play RL,这下应该能更清晰的知道,“自我学习”和“死记硬背”之间的区别了吧。
Claude3.5的代码能力,用Self-play RL强化过后,实在太屌了。
聪不聪明,一眼就能看出来,真的。
而后面的输出,那就更别提了,能一步到位直接输出出来的,只有Claude3.5。

GPT4o输出图

DeepSeek会好点,但是太慢,输出了一堆罗里吧嗦的东西,而且排版也有点问题。

DeepSeek输出图

从李哥的这段神奇的Prompt中,应该也能看出来Claude3.5的代码能力,有多强了。
还有最近很火的cursor,牛逼也不是因为cursor牛逼,是因为接了Claude3.5的API,所以才原地升天。
基于Self-play RL强化过的Claude3.5 Sonnet,使得普通人也能用嘴去做一个产品。
以前的大模型,稳定写代码可能只能写20行,所以用处不大,只能辅助,起不到颠覆的作用,但是现在Claude3.5可以稳定输出200行,那场景就大多了,每个人都能用嘴来开发点小东西。
比如李哥的这个“汉语新解”,其实本质上,不就是一个小型产品吗?
给一个字,直接给你输出精准文案,然后做好海报。
你什么都不用管,就可以直接分享出去了。
而这个产品的开发过程,不需要你写代码,只需要你用嘴,就可以。
现在200行,而后面草莓出来了,能不出错的稳定生成2000行代码了?
或者能用嘴从1万行代码中精准的修改局部呢?
这就意味着,开发一个产品,就像你在家做一道菜一样那么简单。
人人都是产品经理。
在接下来的几个月的时刻里。
才算是,真正意义上的,到来了。


source

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI这个「狗头军师」,教年轻人说「土味情话」贼油腻

娱乐圈中,伊能静绝对是情商王者。
她曾在节目现场进行恋爱教学,被网友封为「行走的教科书」。


图片1(视频来源:B站博主摸鱼的秦啊秦)
视频链接:https://mp.weixin.qq.com/s/bCYfMlvO8YZwq87bPCTXfw
比如,聊天时不要只讲动作,要表达情绪和需求。
男生问:「你在干嘛?」
你不要回答:「我在机房剪片子。」
而是要说:「我在机房剪片子好累啊。」

网友纷纷评论:

  • 姐姐能出书吗?我必买。
  • 救命,求静姐开班。

图片2

AI 的「土味情话」,有点油腻
前段时间,硅谷知名风险投资公司 a16z,出炉了最新的 AI 应用 100 强榜单。
在这份榜单中,出现了一个新类别:美学和约会。
其中,「土味情话生成器」Rizz 名列第 49,吸引了不少网友关注。
图片3
Rizz,本是 Z 世代的一句俚语,意为「魅力」。
而现在,它成了一款 AI 约会工具。
用户只需上传对话截图,它就能生成风趣幽默、有魅力的回复。
同时,Rizz 还会基于个人资料分析用户常用的风格、语气和幽默词汇,使用越多,回复就会越符合用户本人的个性。
X 博主 @itzmikxey 就曾亲身体验过。
视频链接:https://mp.weixin.qq.com/s/bCYfMlvO8YZwq87bPCTXfw
博主先给心仪者发了一条短信:
我想和你出去吃晚饭。

对方回复:
当然,但是我认为我们应该只是朋友。

眼瞅着这对话就要进行不下去了。
该博主随手一个截图,喂给了 Rizz。
Rizz 对着截图就是一顿扫描,然后就开始充当起「狗头军师」,一口气给出了四五条「土味情话」。
或许我只能接受成为世界上最伟大的柏拉图式伙伴这一角色。
好吧,我只好不断地向你施展魅力,直到你最终无法抗拒我的诱惑。
我明白了,你之所以想要接近我,完全是因为我迷人的个性和闪耀的智慧。我懂了。
我想我得开始练习一下 “只是朋友” 的握手方式了。你喜欢拳碰拳、击掌还是兄弟拥抱?

网友从中选择一条,对方还真给出了下文。
此外,它还能给搭讪者提供一个开场白。
Business Insider 的记者对此进行了评测。
「你是青蛙吗?因为我想吻你,让你成为我的公主。」「我看到你在 10 英里以外,我以为天堂更远。」
看了它生成的搭讪语,该记者忍不住吐槽:
「我几乎都能闻到那种 AI 味儿。」
图片4
视频链接:https://mp.weixin.qq.com/s/bCYfMlvO8YZwq87bPCTXfw
由此可见,Rizz 虽然能在各种话题上提供灵感,但它的回答总显得有些油腻,听着让人尴尬。
因此,不少年轻人只用 Rizz 来找话题,打开思路,然后再进行润色,而不是全盘照搬。

两个美国小伙的「创业冒险」
开发这款约会工具的,是两个美国小伙 ——Roman Khaves 和 Josh Miller。
Josh 成长于一个科技氛围浓厚的家庭。

图片5

他的父亲是受 NASA 和 MIT 培养的火箭科学家,几乎每天都在餐桌上讨论极客话题。这也让 Josh 耳濡目染。
从美国马里兰大学帕克分校毕业后,Josh 曾多次创业。不仅独自打造了能够服务数百万用户的系统,还曾在旧金山的 Twitch 担任高级软件工程师。
Roman 则于 2012 年毕业于纽约大学坦顿工程学院。

图片6

他是搞运营的一把好手,曾为多个获得风险投资的应用吸引了数百万用户。例如,他曾将 Memix 应用推向了美国 App Store 的第一名。
十年前,在纽约一个青年创业夏令营中,Josh 和 Roman 相识。他们畅谈应用创意,从此成为最好的朋友和合作伙伴。
之后,这俩小伙子一起打造了 SnapQu。
SnapQu 类似于作业帮、猿辅导这类应用,是一款为学生提供即时家庭作业帮助的 APP。学生可以上传数学题目的图片,来获取专业导师的实时解答。
虽然这款应用在 App Store 的教育类应用中排名和收入都很不错,但他们也意识到,管理全天候的数十名导师是一个巨大的挑战。
几年前,他们突然想到了 Rizz 这个点子,但仍对管理庞大的即时约会教练团队有所顾虑。
随着 ChatGPT 的出现,他们看到了 Rizz 实现的希望,于是,他俩放下了其他项目,全身心投入到 Rizz 的开发中,希望它能颠覆在线约会市场。

参考链接:

以后我们会带来更多好玩的AI应用,也欢迎大家进群交流。

图片7

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

腾讯最新万亿参数异构MoE上线,技术细节首次曝光!权威评测国内第一,直逼GPT-4o

近期,腾讯混元推出新一代旗舰大模型——混元Turbo。作为国内率先采用MoE结构大模型的公司,腾讯继续在这一技术路线上进行技术创新。


相较上一代混元Pro的同构MoE大模型结构,混元Turbo采用了全新的分层异构MoE结构,在参数总规模上依然保持万亿级。

公开信息显示,当前混元Turbo模型在业界公认的benchmark指标上处于国内行业领先地位,与国外头部模型如GPT-4o等相比也处于第一梯队。另外,在刚刚发布的国内第三方权威评测机构评测中,混元Turbo模型位列国内第一。

混元Turbo是如何做到如此快速的进步?

背后技术细节首公开

我们拿到了混元Turbo的技术解读,从Pretrain、Postrain和专项能力突破几个角度,深入展示了模型升级的秘密。首先,业界目前普遍公认,大模型Pretrain成功的关键秘诀之一是Scaling Law。可以简单理解为,训练数据量越大,模型效果越好;参数量越大,模型效果越好。其中后者意味着,如果想要模型具备更高的效果天花板,就需要设计较高参数量的大模型,但大参数量设计也意味着较高的部署成本和较低的训练推理性能。为此,混元Turbo采用了全新的异构MoE结构。通过较多的专家数和较小激活量设计,在模型整体参数量依然保持万亿级规模前提下,通过整体算法升级和训练推理框架加速的端对端优化,模型效果相比上代混元Pro有较大提升。与此同时,模型训练推理效率也有超1倍的提升,并最终带来了50%的推理部署成本下降,以及20%推理时延降低。

其次,在Postrain阶段,腾讯混元Turbo自研了混元CriticModel和RewardModel,用于构建自提升pipeline,并在RLHF阶段全面采用了离线数据和在线采样结合的强化学习策略。相对传统PPO及DPO,其整体可控性更好,效果上限更高。

除了在通用能力方面持续优化外,针对当前业界大模型普遍存在的文科能力「重而不强」,理科能力普遍偏弱的现状,本次混元Turbo大模型也专项强化了高质量文本创作、数学、逻辑推理等典型大模型文理科能力。

文本创作、数学、逻辑推理能力全面提升

1. 专项能力-高质量文本创作
当前大模型普遍存在的一般文本创作尚可,但专业化写作机器味浓、不够信雅达,字数控制等指令跟随能力不足等问题。腾讯混元Turbo模型做了大量高质量文本创作专项优化。以中、高考中文写作为例,腾讯混元团队引入专家标注团队,构建高质量写作评估模型,同时,构建创作指令约束体系,提升复杂指令跟随能力。通过以上优化,高考作文写作这一项能力上,混元Turbo在专家标注团队中自评达一类卷水平,在刚刚过去的24年高考中,混元Turbo获得第三方大模型高考作文写作评测第一名。

2. 专项能力-数学
如何大幅提升模型的数学能力是一项非常有挑战性的任务。腾讯混元采用了以下几种技术方案来提升模型效果。

  • 提升数据量:针对已有题库模拟大量数学题用于模型的增训。对于一些比较难的题目,也会采用MCTS等技术来提高模型的做题能力。
  • 强化学习:为了进一步提升模型能力,采用了强化学习技术,包括DPO/PPO等技术。训练了一个基于过程的reward模型对结果进行打分。最终,混元Turbo在数学推理能力上有了较大提升,在内外部多种评测集上达到了业界先进水平。

3. 专项能力-逻辑推理
推理的第一大难点在于推理问题的多样性,往往用户的问题千奇百怪,要在PostTrain阶段比较好的解决这个难点,必须要提升SFT数据中推理问题的广度和质量。预训练中的推理问题非常丰富,但是结构化不足,往往一个比较好的问题隐藏在某一个文档的最后。为了解决这个问题,腾讯基于腾讯混元训练了一个问题抽取模型(Problem Extraction Model),抽取出千万级量级的推理类指令。另外,通过公开渠道获取全网偏推理的问题,大幅补充了SFT数据中推理问题的多样性。推理能力的第二个难点是,复杂问题的答案如何构建。对此,腾讯训练一个critique模型对推理类训练数据进行打分,然后迭代更新答案,直到构建推理过程和结论完全正确的训练。最终,推理数据质量得分提升10%。经过上述优化,混元Turbo较以往的版本在内部推理评测中总体提升9%,在一些较为难的子类上例如因果、符号推理等上都取得了明显进步。

4. 联网插件-AI搜索
作为腾讯混元新一代旗舰大模型,混元Turbo除支持各类大模型能力外,也支持AI搜索联网插件。通过整合腾讯优质的内容生态(如微信公众号、视频号等)和全网搜索能力,同时基于Planner+Action Agent架构,混元Turbo AI搜索基于混元通用大模型底座,使用丰富的搜索数据进行多任务精调,得到更懂搜索、具备精准阅读理解能力的SearchGPT,用于AI深度问答。目前通过AI搜索的强大加持,混元Pro具备强大的时新、深度内容获取和AI问答能力。

自研工程平台的牢固支撑
惊艳的模型效果,离不开底层算法和平台的支持。腾讯混元大模型全面建立在腾讯全面自研的Angel机器学习平台和强大的算力基础设施之上。面对万亿级MoE模型参数大显存需求高,All2all通信效率低,训练性能低等挑战,腾讯混元训练框架AngelPTM通过引入大BatchSize训练、FP8低精度训练、梯度通信/MoE通信计算、MOE算子融合等优化策略,使得训练性能提升108%,成本下降70%。针对大模型大窗口能力已成行业必备趋势,AngelPTM采用精度无损的attention均衡通信加速算法,实现了高达10M长窗口的训练能力。对于混元Turbo这样的万亿级超大MoE大模型,推理成本和速度是很大的挑战。为此,混元推理加速框架AngelHCF支持FP8量化压缩,定制了一系列算子加速FNN模块的推理性能,使得推理性能整体提升1倍,成本下降50%;另外,在强化学习阶段,通过在AngelPTM中集成AngelHCF的方式加速sampling采样性能,整体吞吐提升40%以上。此前,中国电子学会2023科学技术奖评选,腾讯《面向大规模数据的Angel机器学习平台关键技术及应用》获科技进步一等奖。

元宝APP,可以上手了
目前,腾讯混元Turbo模型除已经作为新一代旗舰大模型,在腾讯云官网API正式上架。此外,它还在腾讯元宝APP中面向所有C端用户开放(点击阅读原文体验),速度更快、体验更好,同时提供AI搜索、AI阅读、AI写作和AI作画等核心功能。基于混元Turbo模型强大的通用内容理解和推理能力,以及与腾讯生态体系、如微信搜一搜、搜狗搜索、微信公众号、视频号、腾讯新闻和腾讯金融等内容平台全面连接,为用户提供丰富、权威的生态优质内容及全网信息。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

超越AlphaFold3,OpenAI投资的AI生物初创发布Chai-1,分子结构预测新SOTA

近日,成立仅 6 个月的 AI 生物技术初创公司 Chai Discovery,发布用于分子结构预测的新型多模态基础模型 Chai-1,并附带了一份技术报告,比较了 Chai-1 与 AlphaFold 等模型的性能。

Chai-1 可以统一预测蛋白质、小分子、DNA、RNA、共价修饰等,在与药物发现相关的各种任务中都达到 SOTA。


公司联合创始人兼 CEO Joshua Meier 表示,Chai 的模型在测试的基准上表现更佳,成功率提升 10% 到 20%。

他说:「例如,与 AlphaFold 相比,我们的模型在药物研发中的关键任务上始终表现更好。」

而且,可通过 Web 界面免费使用 Chai-1,还可用于药物发现等商业应用。该团队还将模型权重和推理代码作为软件库发布,供非商业使用。

视频:操作示例。(来源:Chai Discovery)

试用网址:https://lab.chaidiscovery.com/

预测分子结构的多模态基础模型

了解生物分子的三维结构对于研究它们如何发挥作用和相互作用至关重要。…

成立仅 6 个月,OpenAI 投资

Chai Discovery 是一家成立仅六个月的 AI 医药开发初创公司,它宣布完成了近 3000 万美元的融资,投资方包括知名投资公司 Thrive Capital 和 OpenAI。…

GitHub:https://github.com/chaidiscovery/chai-lab

技术报告:https://chaiassets.com/chai-1/paper/technical_report_v1.pdf



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器

近段时间,AI 编程工具 Cursor 的风头可说是一时无两,其表现卓越、性能强大。近日,Cursor 一位重要研究者参与的一篇相关论文发布了,其中提出了一种方法,可通过搜索自然语言的规划来提升 Claude 3.5 Sonnet 等 LLM 的代码生成能力。


具体来说,他们提出的方法名为 PlanSearch(规划搜索)。主导团队是 Scale AI,本文一作为 Scale AI 研究者 Evan Wang。二作 Federico Cassano 现已加入如今炙手可热的 AI 编程工具公司 Cursor。他曾参与创立了 GammaTau AI 项目,该项目的目标是实现 AI 编程的民主化。此外,他也是 BigCode 项目的活跃贡献者,该项目负责开发用于 AI 编程的 StarCoder 系列大型语言模型。

图片

论文开篇,该团队提到强化学习教父 Sutton 的经典文章《The Bitter Lesson(苦涩的教训)》揭示的 Scaling Law 的两大核心原则:学习和搜索。随着大型语言模型的迅猛发展,人们对于「学习」是否有效的疑虑已基本消除。然而,在传统机器学习领域中表现出色的「搜索」策略,将如何拓展大模型的能力,还是个未知数。

目前阻碍模型应用「搜索」的主要难题是模型给出的答案过于雷同,缺乏多样性。这可能是由于在预训练的基础上,模型会在特定的数据集上进行进一步的训练,以适应特定的应用场景或任务所导致的。

经过大量实证研究证明,许多大语言模型往往会被优化,以产生一个正确的答案。比如下图中所示,DeepSeek-Coder-V2-Lite-Base 的表现不如其基础模型,但随着回答的多样性的减少,情况发生了逆转。多个模型都存在这种现象:经过特别指令调整的模型在只生成一个答案的情况下(pass@1)通常比基础模型表现得好很多,但当需要生成多个答案时,这种优势就不明显了 —— 在某些情况下,甚至完全相反。

图片

模型在生成答案时缺乏多样性,这对于搜索的效果非常不利。特别是在极端情况,比如采用「贪心解码」,模型给出的答案会非常相似,因为它们是从模型中重复抽取的。这种情况下,即使模型花费更多推理时间,也难以获得更好的搜索结果。

通行的大模型排行榜,例如例如 LMSYS Chatbot Arena、LiveCodeBench、OpenLLMLeaderboard,很难反应模型在回答多样性方面的不足。这些排行榜主要关注模型在单一样本上的通过率,没有考虑到模型在更广泛场景下的表现。由于模型需要很快地响应用户的需求,单一样本的回答质量是衡量一个聊天机器人的关键指标,但这一指标并不足以全面评估模型在允许更充裕推理时间时的综合性能。

针对以上问题,研究人员对如何在大语言模型推理过程中提高回答的多样性进行了探索。对此,他们提出了假设,想让模型输出的答案更加丰富,需要在自然语言的概念或想法的空间内进行搜索。

为了验证这个假设,研究人员进行了一系列实验。首先,研究人员发现,如果给模型一些简单的草图(这些草图是从已经能解决问题的代码中「回译」而来),模型就能根据这些草图写出正确的最终程序。其次,研究人员还发现,如果让模型在尝试解决问题之前,先在 LiveCodeBench 上想出一些点子(这个过程叫做 IdeaSearch / 思路搜索),然后看看模型能不能用这些点子解决问题。

结果发现,模型要么完全解决不了问题(准确度为 0%),要么就能完美解决问题(准确度为 100%)。这表明当模型尝试解决一个问题时,成功与否主要取决于它最初的那个想法(草图)对不对。

根据这两个实验的结果,研究人员认为一种提升 LLM 代码搜索能力的自然方法是:搜索正确的思路,然后实现它!

于是,规划搜索(PlanSearch)方法诞生了。

不同于之前的搜索方法(通常是搜索单个 token、代码行甚至整个程序)不一样,规划搜索是搜索解决当前问题的可能规划。这里,规划(plan)的定义是:有助于解决某个特定问题的高层级观察和草案的集合。

为了生成新规划,规划搜索会生成大量有关该问题的观察,然后再将这些观察组合成用于解决问题的候选规划。

这个操作需要对生成的观察的每个可能子集都执行,以最大化地鼓励在思路空间中进行探索,之后再将结果转译成最终的代码解决方案。

该团队的实验发现,在推理时有效使用计算方面,规划搜索方法优于标准的重复采样方法以及直接搜索思路的方法。

方法

在这项研究中,该团队探索了多种不同方法,包括重复采样(Repeated Sampling)、思路搜索(IdeaSearch)以及新提出的规划搜索(PlanSearch)。其中前两种方法顾名思义,比较直观,这里我们重点关注新提出的规划搜索。

该团队观察到,虽然重复采样和思路搜索能成功地提升基准评测的结果。但在很多案例中,多次提示(pass@k)(即使在温度设置很高)只会导致输出代码发生很小的变化,这些变化只会改变一些小方面,但无法改善思路中的缺陷。

图片

下面来看具体的规划搜索过程:

  1. 通过提示来获取观察

首先假设有一个问题陈述 P,通过向 LLM 发送提示词来获取对该问题的「观察」/ 提示。这里将这些观察记为 O^1_i,其中 i ∈ {1, . . . , n_1};这是因为它们是一阶观察。通常而言,n_1 的数量级在 3 到 6 之间。具体数量取决于 LLM 输出。为了利用这些观察结果来启发未来的思路,该团队创建了 O^1_i 的集合 S^1 的且大小至多为 2 的所有子集。其中每个子集都是观察结果的一个组合。这里将每个子集记为 C^1_i,其中 i ∈ {1, . . . , l_1},而 图片

  1. 推导新的观察

这样一来,所有观察结果的集合都可以定义为深度为 1 的有向树,其中根节点为 P,并且每个 C^1_i 都有一条从 P 指向 C^1_i 的边。

然后,在每个叶节点 C^1_i 上重复上一步流程,从而生成一个二阶观察集 S^2。为了得到二阶观察,该团队的做法是在给模型的提示词中包含原始问题 P 和 C^1_i 中包含的所有观察 —— 这些观察被构造为解决 P 所必需的原始观察。然后再提示 LLM,让其使用 / 合并在 C^1_i 中找到的观察来得出新的观察。

这个过程可以继续延伸,但由于计算限制,这里在深度为 2 时对该树进行了截断操作。

  1. 将观察变成代码

在得到了观察之后,必须先将它们实现成具体思路,然后再将它们转译成代码。

具体来说,对于每个叶节点,将所有观察以及原始问题 P 放入提示词来调用 LLM,以便生成问题 P 的自然语言解决方案。为了提升多样性,对于每个生成的思路,该团队通过假设该思路是错误的来生成一个额外的思路,并要求 LLM 给出批评 / 反馈,从而将提议的思路翻倍了。

然后,再将这些自然语言解决方案转译成伪代码;再把这些伪代码转译成真正的 Python 代码。

实验

实验采用了三个评估基准:MBPP+、HumanEval+ 和 LiveCodeBench。参数设置等细节请参阅原论文。

至于结果,该团队报告了三种方法的结果,包括重复采样、思路搜索和规划搜索,见表 1、图 1 和图 5。

可以看到,规划搜索和思路搜索的表现明显优于基础的采样方法,其中规划搜索方法在所有实验方法和模型上都取得了最佳分数。

图 7、8、9 展示了在每个数据集上的详细 pass@k 结果。

可以看到,在 Claude 3.5 Sonnet 上使用规划搜索方法时,在 LiveCodeBench 基准上得到了当前最佳的 pass@200 性能:77.0%。该表现优于不使用搜索时获得的最佳分数(pass@1 = 41.4%)以及标准的 best-of-n 采样方法的分数(pass@200 = 60.6%)。

此外,使用小型模型(GPT-4o-mini)执行规划搜索时,仅仅 4 次尝试后就能胜过未使用搜索增强的大型模型。这佐证了近期一些使用小模型进行搜索的有效性的研究成果。

在另外两个编程基准 HumanEval+ 和 MBPP+ 上,规划搜索也能带来类似的提升。

通过研究特定模型的差异,该团队注意到 pass@k 曲线所呈现的趋势在所有模型中并不统

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

与「李白」赏图赋诗,同「猴哥」直面天命,人大高瓴提出MMRole多模态角色扮演

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

代彦琪是中国人民大学高瓴人工智能学院的三年级博士生,师从卢志武教授,2022年毕业于大连理工大学软件学院。他的研究兴趣包括多任务学习、多模态大模型以及角色扮演智能体等领域,近期尤其关注多模态大模型指令微调中的多任务冲突问题。如有任何交流或合作机会,欢迎通过邮箱 yanqi_dai@ruc.edu.cn 联系。

随着大语言模型的飞速发展,角色扮演智能体(RPAs)正逐渐成为 AI 领域的热门话题。这类智能体不仅能够为人们提供陪伴、互动和娱乐,还在教育、社会模拟等领域展现出重要的应用潜力。然而,当前市面上的大多数角色扮演智能体都只会「文字聊天」,其理解能力仅限于单一的文本模态,远远无法与具备多模态感知能力的人类相比。这让我们不禁思考:我们真的只能与这些「单调」的智能体对话吗?显然,答案是否定的!

近日,中国人民大学高瓴人工智能学院的研究团队率先提出了「多模态角色扮演智能体」(MRPAs)的概念。这类智能体不仅能够扮演特定角色,还能够围绕图像进行多模态对话。与此同时,团队正式推出了 MMRole—— 一个专为 MRPAs 开发与评测量身打造的综合框架。

图片1

代码仓库:https://github.com/YanqiDai/MMRole
论文地址:https://arxiv.org/abs/2408.04203

图片2

MMRole 打破了传统角色扮演智能体仅限于单一模态的局限,让智能体能够在图像和文字之间自由切换,带来更为沉浸的对话体验,进一步扩展了角色扮演智能体的应用场景与价值。

MMRole-Data 数据集

图片3

图片4

MMRole-Eval 评测方法

图片5

评测结果与分析

图片6


。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB