GPTNB · AI资讯与技术分享站

2024-05-29发表2025-03-21更新 ByteAILab 22 分钟读完 (大约3342个字)

AI造梦师，大模型正在孵化下一个黄金职业

大模型每次一有突破，我们就会听到它又“摧毁了XX职业”“XX岗位要消失了”，也总能听到一些安慰，说不用担心，“AI会创造一些新职业”。

但究竟将创造哪些新职业，答案似乎还比较含糊。

有没有一些真实可见的例子呢？

几年前，我在某自动驾驶企业参观时，发现了一个新职业：云代驾。操作员坐在一辆如同电玩城赛车游戏一样的模拟驾驶舱里，远程管理道路上行驶的无人车，在需要人类接管的时候及时介入。

这或许是一个可参考的实例，虽然自动驾驶技术可能取代传统司机，但像玩游戏一样的“云代驾”，是一种比传统司机更安全、更轻松的新职业。

值得强调一下，这个新职业可不只存在于科技企业的展示厅。如今，在码头、矿山等很多地方，“云代驾”已经切实地让很多龙门吊司机、卡车司机告别了危重的作业环境，从“蓝领”变“白领”，坐在空调房里远程操作了。

我想用这个真实的例子，给大家吃一颗定心丸，尤其是非技术背景的普通人，新技术确实有在创造新的岗位，而且是更人性化、更有趣味的工作。

相信很多人都蠢蠢欲动，想知道“怎么用大模型赚钱”。这时候，不妨参照下自动驾驶这个故事，大约遵循一个演进路线：

新技术和配套基础条件基本完善（无人车+车路协同+5G/5.5G等）——一些全新的应用体验（无人车）——风靡的使用规模（智能驾驶、无人出租车）——规模化、产业化、职业化（出现“云代驾”等）。

前期的基建、基础技术、概念产品研发等过程中去的，那些都是巨头、大厂、独角兽、明星创业者，甚至政府的主场。

绝大多数普通人的职业机会，往往出现在某些应用流行化、规模化、产业化的时候。

找到那些极大概率燎原的应用“星星之火”，并在爆发早期投身进去，是普通人抓住时代红利的方式之一。

我们今天来开开脑洞，按照技术的演进路线，想象一种今天我们还不熟悉，甚至尚未出现的职业——“AI造梦师”。

AI造梦师，年轻人的新舞台

电影，是“人类之梦”。这个为人类造梦的传统产业，通过满足人的精神消费需求，虹吸财富，成为明星制造机，拥有影响文化潮流和探讨社会议题的影响力，吸引了一代又一代年轻创作者投身其中。

用AI电影继续“造梦”，将是年轻人的黄金职业之一。为什么这么说？

AI电影造梦师这个领域，一切都将是新的。

必须承认，目前视频生成模型在影视创作上，还有各种各样的问题：人物角色不可控，不能生成长视频，不能做复杂调度镜头，多模态的融合创作成本高，无法在端侧用平板手机轻松创作，生成视频有浓浓的“AI味儿”……但上述缺点，都会随着技术迭代和计算成本优化而被解决。

而这个领域之“新”，意味着年轻人将拥有无限可能。

新在“行业角色”。传统的电影制作是一个复杂的过程，涉及多个环节和专业人员的紧密合作，除了少数天赋异寻的“天才”，一个普通年轻人刚入行只能扮演“螺丝钉”。而如今视频生成可以整合传统电影产业链上的多个角色，使得一个人就能够承担起编剧、导演、拍摄、剪辑、视觉效果师、音效师，甚至发行与营销等任务。从单一角色到多元角色，个体将更不容易被工具化、易被取代。

新在“生态位”。传统的影视产业中，为了实现有效的传播和商业成功，一部作品往往需要在流量获取上投入更多的资金和资源，一度导致编剧等核心创意工作者的话语权不高、报酬分配占比小。而AI电影造梦师，整合了传统电影产业链多角色，人的创意和艺术表达才是核心价值，创作者的话语权更高，有了新的“生态位”。

曾获得过19 次 Vimeo Staff Picks 奖项的艺术家/导演Paul Trillo就表示：通过Sora，“我首次感受到了作为电影制作人的绝对自由，不再受时间、财力或他人意见的束缚，我可以更加大胆且充满激情地探索和实验”。

新的“形式”。AIGC赋予了电影更强的互动性，像游戏一样，激发观众的参与感，当观众（用户）成为故事的参与者和创造者，而不仅仅是被动观看。OpenAI的CEO奥特曼最近就预言：电影将变成电子游戏。这种新型的娱乐形式有望开拓更广阔的市场，且还没有形成标准或规范，意味着年轻人有巨大的商业蓝海，不用在传统领域苦苦“内卷”。

正在燎原，AI电影的产业化前奏

当然，你可能会问，AI电影，只是视频生成的一项应用。技术落地有诸多可能性，真的值得投入时间精力吗？

所以接下来要回答一个问题：一项新技术的应用，应该具备哪些基础条件，才能流行起来，走向产业化、规模化？

AI电影的星火燎原，将是一种必然。有着如下的演进逻辑：

相信绝大多数人都认可，这是一个视频当道的时代。有学术界人士提出，我们正在进入一个“视频化社会”，即在口语传统、印刷文明、机械复制时代、影像社会之后，进入到一种新型文明。

一开始，是工具的进化和媒介的升维，推动视频制作的门槛下降。像Sora、Veo、runway、Pika这样的视频生成模型应用，让普通人可以进行的视频制作，不再仅限于简单的拍摄和编辑，而有能力涉足更多元化和个性化的视频创作。

比如，一个不懂专业剪辑软件的用户，可以通过一段prompt提示词，将脑洞用视频生成出来，制作出微短剧、微电影。

所以，越来越多的人能够参与到视频内容的生产中，为自己“造梦”，为他人“造梦”，这个趋势是确定的。

接下来，视频的应用范围会前所未有地扩大，让AIGC成为风靡的流行应用。目前的UGC（用户创作内容）视频，主要集中在记录生活、娱乐消遣。而随着创作门槛的下降，更多行业、知识背景的普通人投身视频创作，视频将成为一种全新的社会互动、知识传递和文化表达的方式，扩大到社会交往、教育传播、商业营销、艺术创作等多个层面。

实际上，今天我们已经能看到一些案例，一部分极客或AI爱好者，将AIGC用于拍摄个人电影、生成家人实时互动视频、制作商业MV等。尽管还不成规模，但已经预示着，视频将成为社会系统运作的基础性媒介，渗透到日常生活的方方面面。

“视频化社会”的确定性趋势，也已经初露雏形。

那么，在这个已知条件上， AIGC（视频生成）产业化、规模化的爆发，也将是必然的。这也为“AI造梦师”这一新角色的职业化，奠定了前提条件。

就像游戏产业的发展孵化了个人游戏开发者那样，“AI造梦师”也将在视频化社会，获得更大的发展空间。

更进一步，让我们将目光从宏观趋势，聚焦到当下进程，会发现AI电影的生态基础正在壮大。

首先，AI电影和视频创作所在的内容产业，必须有稳定可预期的政策环境作为保证。而目前来看，对于AI电影、AI视频的创作，学界、政界、企事业单位的反应速度和支持态度，是比较明确的。今年以来，各地广电系统都加大了AIGC领域的投入，AI全流程微短剧《中国神话》、首部AI译制英文版系列微纪录片《来龙去脉》、AIGC系列公益广告片《因AI向善》等作品相继上星播出。

此外，产业资源也在向AI影像创作者倾斜。一方面，大模型推理更快、更便宜，AIGC创作者的脑洞实现和试错成本接近于0。另一方面，生态资源不断投入，今年以来多项“以赛促用”的赛事相继推出。比如上影全球 AI 电影马拉松大赛、歌德学院 AI 生成短片竞赛、Bilibili x 央视 AI 影像征集大赛，加上云厂商的AI开发者赋能不断加码，AI影像创作的趋势正在形成。据Runway网站报道，第二届人工智能电影节的参赛作品数量，相比去年第一届的近300件，增加到了近3000件，达到了十倍增长。

AI电影这颗AIG应用的星星之火，已经具备了产业化的燎原之势。

版权的“渠成”，人才水源才能涌入

创作不是用爱发电，不谈商业化的创作就是耍流氓。必须承认，目前AI电影的商业化，版权问题仍有挑战。

在数字内容易于复制和传播的今天，创作者的版权很难得到技术层面的有效保护，因此很多AI电影都通过免费的形式，在流媒体平台播出，等同于放弃了商业化。

如果说Sora、Voe等大模型技术，解决了视频制作的生产力问题，那么还需要一种社会技术，来解决创作者与商业体系的生产关系问题。

比如Web 3.0，结合了区块链等信任技术，提供了一种社会技术的解决方案。区块链技术通过其去中心化、不可篡改的特性，为数字内容提供了一个可靠的所有权和交易记录。

在Web 3.0的环境中，创作者可以控制自己作品的分发和使用，确信自己的知识产权受到保护。此外，智能合约等机制可以自动执行版权协议和收益分配，确保创作者能够从其作品中获得应有的利益。

目前，区块链和智能合约等技术，已经被应用于保护知识产权。这一点上，**云厂商可以提

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-29发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1258个字)

AI在用｜用Kimi写「发疯」文案，篇篇10万+

以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。

因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。

我们也欢迎读者投稿亲自实践的创新型用例。

这年头，为了抢流量，大家焦虑到头秃。
今天就来安利一个搞流量的门道：用 AI 写「发癫」文案公众号，篇篇搞到 10 万 +。

这类文案公众号均有套路可循：

一个有趣的标题
一些看起来有大病的文案
几幅或治愈或搞笑的配图
这用 AI 制作起来，分分钟搞定。
开整。
用到的工具：Kimi、Dreamina（温馨提示：无需魔法且免费）

第一步：Kimi 文案大法好
不得不说，Kimi 真是写文案的一把好手。无论是丢进去一个链接还是输入提示词，它都能按照要求完成任务。
我们就让 Kimi 来生成那些「让你笑出帕金森」的搞笑标题和文案。
生成标题
题好一半文，尤其是这个流量为王的自媒体时代。
「有病文学，有病且高级的朋友圈文案
一些合法但有病的朋友圈文案
偷一句，去笑死你的朋友圈
太爱这种疯癫的文案了，演我的日常精神状态
那些吐槽人生稀碎的爆笑神短句」
……
瞅瞅这些不正经的标题，是不是很抓眼球？
我们先让 Kimi 分析一下这些标题的风格和特点。

然后，让 Kimi 仿写。
提示词：请帮我按照以上的风格特点，仿写 10 个同样风格的标题。

不到一分钟，搞定，就是这个 feel 儿倍爽。
生成文案
这类「嘎嘎搞笑」的文案主打一个「癫」，例如：
「人生就像豆腐脑，甜咸都无所谓，反正都是稀碎。
我的钱虽然不像大风刮来的，但是很像大风刮走的。
吾日三省吾身，吾没有错。
退一步海阔天空，你退吧，我不退。
睡前原谅一切，睡醒干翻世界。
情绪发挥的很稳定，每天都是烦死了。
……
反正，越出其不意越能让人笑断气。
我们用同样的套路让 Kimi 生成 10 个搞笑文案。
值得注意的是，除输入提示词外，我们还可以直接把对标公众号的文章链接贴进输入框，让 Kimi 分析其风格并仿写。
Kimi 哗啦哗啦就写出了一堆相同风格的文案。

我们从中挑选 8 句最有意思的文案即可。

第二步：Dreamina搞定配图
现在市面上 AI 生图工具层出不穷，比如 AI 生图界的「两座大山」Midjourney 和 Stable Diffusion，还有之前推荐的 Viva 等。
今天我们用字节出品的 Dreamina 来生成配图。因为它免费、好上手、效果佳。
即梦 Dreamina 链接：
https://dreamina.jianying.com/ai-tool/home
打开以上链接，使用抖音扫码登录；然后，点击「AI 作图」-「图片生成」。每人每天有 60 个积分，每生成 4 张图片消耗一个积分。

进入操作页面后，输入提示词，选择生成模型、精细度以及比例就能生成图片。
例如，我们输入提示词：
「卡通女孩背着双肩背包正在喝饮料，旁边跟着一只狗，可爱美术风格，插画风格，可爱卡通风格，素描风格，动漫风格插画，可爱的艺术作品」
生成模型选择最新的「即梦通用 V1.4」，精细度默认为 30，比例选择 1:1。
生成两次正好得到 8 张配图。

第三步：编辑器排版
为了让界面更简洁好看，我们可以使用微信公众号编辑器（135 编辑器或者秀米）进行排版，将文字和配图一一对应即可。

工具链接
Kimi官网链接：
https://kimi.moonshot.cn/
即梦 Dreamina 链接：
https://dreamina.jianying.com/ai-tool/home

以后我们会通过新专栏带来更多 AIGC 案例演示，也欢迎大家留言评论并给出改进建议。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-29发表2025-03-21更新 ByteAILab 21 分钟读完 (大约3199个字)

CoT提出者Jason Wei：大模型评估基准的「七宗罪」

Jason Wei 是思维链提出者，并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。

在 CV 领域，研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。

在大模型时代，我们该如何评估 LLM 性能？现阶段，研究者已经提出了诸如 MMLU、GSM8K 等一些评估基准，不断有 LLM 在其上刷新得分。

但这些评估基准真的完美吗？思维链提出者 Jason Wei 在一篇博客中进行了深入的研究。

Jason Wei 首先列举了几种成功的评估基准，然后总结了评估基准失败的常见原因，共七条，包括样本数量少、评估基准太复杂等等。

进一步的，Jason Wei 认为有些评估工具命名方式并不完美，比如 HumanEval 虽然叫做人类评估，实际上并没有用到人类进行评估，只是因为问题是由人类创建的。

Jason Wei 表示如果想让自己创建的评估工具得到广泛使用，一定要帮助研究者使用它，从而得到推广。此外，文中还提到了一些针对特定领域的小众评估工具，Jason Wei 认为这些评估可能不会引起领域之外的任何关注。大家关心的测试集污染问题，Jason Wei 也给出了一些解决方案。

接下来，我们看看 Jason Wei 原博客内容：

成功评估的定义是什么？我想说，如果一个评估基准被用在突破性论文中，并在社区中得到信任，那么它显然就是成功的。

以下是过去五年中一些成功的评估基准：

GLUE/SuperGLUE：LLM 之前基本上所有 NLP 论文（BERT、T5 等）都使用。
MMLU：几乎所有 LLM 论文都使用，也是 DeepMind 和 Google 最喜欢的评估基准。
GSM8K：激发了 LLM 的推理能力，并被用于每一篇关于思维链（chain-of-thought）的论文中。
MATH：大多数 LLM 论文会使用。
HumanEval：是 LLM 编码的经典评估基准。

成功的评估往往会有一篇大论文声称使用该评估基准取得了一些突破。例如，GLUE 由 BERT 推广，MMLU 由 Gopher、Chinchilla 和 Flan-PaLM 推广。思维链提示（chain-of-thought prompting）声称在 GSM8K 上取得了突破。Minerva 的超凡能力在 MATH 上得到体现。Codex 等模型使用了 HumanEval。

更深入地说，在评估基准上得到好分数必须意味着一些重要且易于理解的事情，例如实现超越人类的表现、解决小学水平的数学问题。

而大多数不成功的评估基准都至少犯了如下七个错误之一：

如果评估没有足够的样本，那么对于研究人员来说，它会很嘈杂（noisy），而且 UI 会很糟糕。例如，有人可能在模型训练过程中运行评估，并发现它在各个检查点之间波动很大。这使得评估对于研究人员来说非常痛苦，因此他们不会喜欢使用该评估基准。评估基准最好有至少 1000 个样本供您评估；如果是多项选择评估，可能需要更多。例如尽管 GPQA 是一个很好的评估基准，但它根据 prompt 而波动的事实使其难以使用。
评估基准应该是高质量的。如果评估基准中有很多错误，人们就不会相信它，例如 Natural Questions（NQ）基准。
如果你的评估基准太复杂，人们会很难理解它，并且会很少使用它。我认为 HELM 的第一个版本是一项巨大的努力，但它有太多的指标和子集。拥有单一数字指标至关重要 —— 我想不出任何伟大的评估基准是没有单一数字指标的。
如果评估需要太多工作来运行，即使其他一切都很好，它也不会有很大的吸引力。BIG-Bench 是我最喜欢的评估基准之一，但运行起来非常痛苦。有对数概率评估和生成评估，这需要不同的基础设施。子集太多，而且有些子集的样本太多，所以评估花了很长时间。我相信这就是为什么 BIG-Bench 没有获得太多关注，尽管它提供了很多优势。
如果评估不是针对一项有意义的任务，人工智能研究人员不会深度关注它。例如，在 BIG-Bench Hard 中，有推荐电影等任务。这些任务具有挑战性，并且随着模型大小的变化性能有所变化，但在这些任务上做得好并不能对模型的智能程度做出实质性的结论。成功的评估通常会衡量对智能至关重要的事物，例如语言理解、考试问题或数学。
评估的评分应该非常正确。如果有人认为模型评分不正确或者不认同该评分，那么他们可以立即取消使用该评估基准。花时间来尽量减少解析引起的错误，或者尽可能获得最好的自动评分器 prompt 是值得的。
为了使评估经得起时间的考验，性能不能太快饱和。例如，GLUE/SuperGLUE 饱和得太快，很难显示出巨大的增益，人们就不再使用它们。

对于评估工具，还有不完善的地方

看起来很多优秀的评估工具都有些糟糕的名字。比如 GSM8K 其实并不需要加上 8K，而 HumanEval 虽然叫做人类评估，实际上并没有用到人类进行评估（之所以叫 HumanEval 是因为问题是由人类创建的）。MATH 这个名字太普通了，所以人们开始称之为「Hendrycks-math」，这应该算是一个聪明的命名方式，以创建者的名字来命名。

如果你想让你的评估工具得到广泛使用，你首先要做的是帮助人们使用它。例如，当我制定了一个评估工具时，我通常会帮助他人在模型上运行它。如果他们的模型在这个评估上表现良好，那么人们通常会喜欢它并进一步的推广它。HELM 就非常擅长为其他人评估模型并公布结果。

此外，如果你能为人们使用你的评估工具创造激励机制也很有帮助。对员工来说，最好的激励之一就是他们领导所重视的东西。因此，获得实验室或公司内部领导的支持对你的评估工具可能会有所帮助，他们会要求底下员工运行它。当我在谷歌创建 MGSM 时，我选择与 Dipanjan Das（Google Deepmind 的研究主管）合作完成，尽管我们不在同一个团队。我与他合作纯粹是因为他是个有趣的人（并不是为了推广这个评估工具），但我认为 Dipanjan 很喜欢这个工具，并且在他的团队中获得了一些人的支持使用。

然而，LLMs 的出现，对评估工具提出了更高的要求。LLMs 具有大规模多任务处理能力并能生成长回答。目前还没有一个单一的评估工具能够充分评估 LLMs。当前流行的评估工具仍然使用非常简单的评分方式（要么是多项选择，要么是检查数字，或者执行单元测试），即便这些方法也存在问题。如果我们能围绕一个单一的提示，比如零样本思维链（zero-shot chain-of-thought），那会很好。我知道由于很多原因这不是一个完美的解决方案，但我认为为了让大家统一标准，这是合理的。

一个新的推动力是人类对模型进行配对评估，比如 LMSYS，但这种评估方式是一把双刃剑。它们之所以强大，是因为你可以通过一组简单的提示得到一个单一的数字指标来衡量一个语言模型的好坏，并且可以通过大量的样本来平均掉样本级别的噪声。不过，成对评估的危险之处在于你并不完全确定你在测量什么 —— 例如，相对于正确性，风格等这类因素的权重影响有多大。

对模型生成内容（model-generated）的评估也变得有些流行。虽然我倾向于对模型生成的评估比较挑剔，但如果做得好，它们可以用于快速实验和观察性能的大幅提升，这是有可能的。但是创建一个经得起时间考验的伟大的评估需要非常小心，我不想在合成评估中冒任何风险。

一个显而易见的观点是，评估的主题决定了有多少人会关心这个评估。你可以创建一个非常高质量的特定领域评估（例如，法律、医疗等），在这些情况下，最重要的是根据该领域专家所重视的内容来定制评估。

我曾经制作过一个组织病理学图像基准，不出所料，它在医学图像分析领域之外几乎没有引起任何关注，只获得了 40 次引用。话虽如此，一旦更多人意识到其重要性，你创建的特定领域评估也有可能获得更多关注。

评估中一个日益重要的问题是测试集污染。创建了一个好的评估之后，评估的示例往往会传播到互联网的各个地方，如 arxiv 论文、ChatGPT 示例或 reddit。解决这个问题的一个方法是对测试集进行「隐藏」，但这种方法引起了很多分歧。斯坦福大学教授 Chris Manning 提出了一个很好的建议，即对公开测试集、私有测试集都进行评估，并监控模型在这两个测试集上是否有大的偏差。这种方法平衡了在公开测试集上测试的低摩擦性和私密测试集的高可信度。

我注意到的最后一件事是，你关心的评估很大程度上表明了你的身份。一个充满博士的研究室可能会对语言模型在数学、编码和物理上的推理能力感兴趣。相反，我看到像 LMSYS 这样的面向用户的评估被来自软件或产品背景的工程师视为黄金标准。虽然我两者都关心，但我个人更倾向于智能，因为我相信智能是 AI 与人类交互的根本驱动力。

社区应该更多地投资于评估，尽管这可能很痛苦，通常不会像建模工作那样得到很多回报。但归根结底，好的评估工具是 AI 研究人员对模型的客观评价指标，并且是对该领域产生重大影响的一种方式。

参考链接：https://x.com/_jasonwei/status/1794093872651387004

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-29发表2025-03-21更新 ByteAILab 11 分钟读完 (大约1642个字)

大模型时代的计算机视觉！CVPR 2024线上分享会全日程公布

自从 OpenAI 发布 ChatGPT 以来，整个技术社区对大模型、AIGC 的关注越来越高。
大模型时代，计算机视觉（CV）领域的热点话题也在不断的发生着变化。

面对应接不暇的研究，我们如何才能以最快的时间了解 AI 领域的最新科研成果与发展趋势？参加顶会论文分享会就是一个不错的选择。
作为计算机视觉领域的顶级会议，CVPR 每年都会吸引大量研究机构和高校参会。据统计，今年共提交了 11532 份论文，2719 篇被接收，录用率为 23.6%。
为了给国内 CV 社区从业者搭建一个自由轻松的学术交流平台，机器之心计划于 2024 年 6 月 1 日 9:00-17:00 组织「CVPR 2024 线上论文分享会」，广邀 AI 社区成员参与学习。
本次论文分享会设置 Keynote、论文分享环节，就业内关注的 CV 热门主题邀请顶级专家、论文作者与观众做学术交流。
今天，分享会全日程、Keynote 分享嘉宾及演讲主题正式公布。

Keynote 嘉宾及演讲主题

上午 Keynote 1：金小刚数字人建模动画关键技术
分享人介绍：金小刚，浙江大学计算机科学与技术学院教授，博士生导师。浙江大学 - 腾讯游戏智能图形创新技术联合实验室主任，浙江省虚拟现实产业联盟理事长。第九届霍英东青年教师基金、浙江省杰出青年基金获得者，入选教育部新世纪优秀人才支持计划。在 ACM TOG (Proc. of Siggraph) 等国际重要学术刊物上发表论文 180 多篇。获省部级一等奖一次，二等奖二次。

分享摘要：数字人是近年来的研究热点，可广泛用于计算机动画、计算机游戏、虚拟主播、虚拟客服等领域。报告将介绍本人所在研究小组在视频肖像的胖瘦调整、肖像双下巴去除、肖像头发去除、用于睫毛抠图的数据集与基线方法、基于扩散模型的文生三维肖像、高精度人体运动神经求解器、实时人体运动补间等方面的一些最新研究进展。

上午 Keynote 2：朱俊彦 Enabling Collaboration between Creators and Generative Models
分享人介绍：Jun-Yan Zhu is an Assistant Professor at CMU’s School of Computer Science. Prior to joining CMU, he was a Research Scientist at Adobe Research and a postdoc at MIT CSAIL. He obtained his Ph.D. from UC Berkeley and B.E. from Tsinghua University. He studies computer vision, computer graphics, and computational photography. His current research focuses on generative models for visual storytelling. He has received the Packard Fellowship, the NSF CAREER Award, the ACM SIGGRAPH Outstanding Doctoral Dissertation Award, and the UC Berkeley EECS David J. Sakrison Memorial Prize for outstanding doctoral research, among other awards.

分享摘要：Large-scale generative visual models, such as DALL・E and Stable Diffusion, have made content creation as little effort as writing a short text description. Meanwhile, these models also spark concerns among artists, designers, and photographers about job security and proper credit for their contributions to the training data. This leads to many questions: Will generative models make creators’ jobs obsolete? Should creators stop publicly sharing their work? Should we ban generative models altogether?

In this talk, I argue that human creators and generative models can coexist. To achieve it, we need to involve creators in the loop of both model inference and model training while crediting their efforts for their involvement. I will first explore our recent efforts in model customization, which allows creators to freely control the model’s behavior by adding, altering, or removing concepts and rules. I will demonstrate several applications, including customizing models with multiple personal concepts and removing copyrighted content. I will then discuss our data attribution algorithm for assessing the influence of each training image for a generated sample. Collectively, we aim to allow creators to leverage the models while retaining control over the creation process and data ownership.

下午 Keynote 1：芦清林腾讯混元文生图的算法核心 ——DIT 架构解读
分享人介绍：芦清林博士，带领多媒体创作团队，负责腾讯混元文生图模型及广告创意 AI 算法研发工作。在计算机视觉，机器学习，AIGC 方面有丰富的研究经历，曾发表 10 余篇会议和期刊论文，数十项专利，支撑腾讯广告业务发展。

分享摘要：
1、趋势：视觉生成技术的新篇章 ——DIT
2、混元 DIT 三大升级
3、效果展示 & 定量分析 ——demo
4、全面开源

下午 Keynote 2：盛律 Multimodal Large Language Models Meets Embodied Agents
分享人介绍：盛律，北京航空航天大学 “卓越百人” 副教授，入选北航青年拔尖计划。研究方向是三维视觉、多模态大模型和具身智能。在 TPAMI/IJCV 以及 CVPR/ICCV/ECCV 等重要国际期刊和会议发表论文 50 余篇，含多篇会议口头报告或亮点论文。谷歌引用超 4900 次。担任 ACM Computer Surveys 副编，CVPR 2024/ECCV 2024/ACM MM 2024 领域主席等。主持或参与多项国家自然科学基金、科技部重点研发计划等项目。

分享摘要：在多模态大模型和生成模型的加持下，围绕具身智能体的研究工作从传统的抓取、导航等任务，扩展到在复杂多模态环境中通用交互任务的解决。在本次报告中，讲者将介绍面向具身智能体的多模态大模型及其多模态多任务高效微调方法，并以此为基础探讨在以 Minecraft 为代表的仿真环境中实现具身智能体的设计思路，和在真实环境下实现具身机器人泛化操作的有益尝试。最后，报告将展望端到端具身大模型，讨论其中的机会和挑战。

参与方式
此次线上论文分享会将在机器之心以及黄大年茶思屋两个平台进行直播，欢迎大家关注、预约。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-29发表2025-03-21更新 ByteAILab 18 分钟读完 (大约2690个字)

清华、华为等提出iVideoGPT：专攻交互式世界模型

近年来，生成模型取得了显著进展，其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是，在多样化的互联网规模数据上以无监督方式学习，用于构建预测世界模型。

这些世界模型有望积累关于世界如何运作的常识性知识，从而能够基于智能体的行为预测潜在的未来结果。

通过利用这些世界模型，采用基于强化学习的智能体可以在世界模型中进行想象、推理和规划，从而在现实世界中通过少量试验就能更安全、更有效地获得新技能。

尽管生成模型和世界模型有着基本的联系，但用于视频生成的生成模型和用于智能体学习的世界模型的发展之间仍然存在显著的差距。主要挑战之一是如何在交互性和可扩展性之间取得最佳平衡。

在基于模型的强化学习领域，世界模型主要使用循环网络架构。这种设计允许在每一步中基于动作传递观察或潜在状态，从而促进交互行为学习。然而，这些模型大多专注于游戏或模拟环境，数据简单，并且对大规模复杂的 in-the-wild 数据进行建模的能力有限。

相比之下，互联网规模的视频生成模型可以合成逼真的长视频，这些视频可以通过文本描述或未来动作序列进行控制。虽然这样的模型允许高层次的、长期的规划，但它们的轨迹级交互性并没有为智能体提供足够的粒度来有效地学习精确的行为作为基本技能。

来自清华大学、华为诺亚方舟实验室、天津大学的研究者提出了 iVideoGPT（Interactive VideoGPT），这是一个可扩展的自回归 Transformer 框架，它将多模态信号（视觉观察、动作和奖励）集成到一系列 token 中，通过预测下一个 Token 使智能体能够进行交互体验。

iVideoGPT 采用新颖的压缩 tokenization 技术，可有效离散高维视觉观察。利用其可扩展架构，研究者能够在数百万人类和机器人操作轨迹上对 iVideoGPT 进行预训练，从而建立一个多功能基础，可用作各种下游任务的交互式世界模型。该研究促进了交互式通用世界模型的发展。

论文地址：https://arxiv.org/pdf/2405.15223
论文标题：iVideoGPT: Interactive VideoGPTs are Scalable World Models

方法

在这一部分，研究团队介绍了一种可扩展的世界模型架构 ——iVideoGPT，其具有极高的灵活性，能够整合多模态信息，包括视觉观察、动作、奖励以及其他潜在的输入。

iVideoGPT 的核心包括一个压缩 tokenizer，用于离散化视频帧，以及一个自回归 transformer，用于预测后续 token。通过在多样化的视频数据上进行预训练，该模型可以获得广泛的世界知识，然后有效地迁移到下游任务中。

架构

压缩 tokenization。Transformer 在处理离散 token 序列方面表现特别出色。VQGAN 是一种常用的视觉 tokenizer，用于将原始像素转换为离散 token。研究者提出用一种由双编码器和解码器 {(E_c, D_c),(E_p, D_p)} 组成的新型条件 VQGAN 对视频进行 token 化。

如图3a所示，初始上下文帧包含丰富的上下文信息，通过N个token独立地进行token化和重构。

相比之下，由于上下文帧和未来帧之间存在时间冗余，只有必要的变化信息如移动对象的位置和姿态，才需要被编码。上述过程是通过使用条件编码器和解码器实现的。

研究人员通过在多尺度特征图之间使用交叉注意力来实现条件机制。总的来说，tokenizer 是通过以下目标进行训练的：

首先，它显著减少了token化后视频的序列长度，该长度随帧数的增加而线性增长，但增长率n要小得多；
其次，通过条件编码，预测后续token的transformer可以更容易地保持上下文的时间一致性，并专注于建模必要的动态信息。

Transformer 的可交互预测。Token化后，视频被展平成一系列token。

预训练

大语言模型可以通过next-word预测以自监督的方式从互联网文本中获得广泛的知识。同样，世界模型的无动作（action-free）视频预训练范式将视频预测作为预训练目标，为LLM缺乏的物理世界知识提供互联网规模的监督。

研究人员在这一通用目标上预训练iVideoGPT，应用交叉熵损失来预测后续视频token。

预训练数据。虽然互联网上有大量视频可用，但由于计算限制，研究人员特别为机器人操作领域预训练了iVideoGPT。他们利用来自Open X-Embodiment（OXE）数据集和Something-Something v2（SSv2）数据集的35个数据集的混合，共计150万条轨迹。

微调

动作条件与奖励预测。该团队的架构被设计为灵活地整合额外模态以学习交互式世界模型。动作通过线性投影并添加到slot token嵌入中进行整合。对于奖励预测，他们没有学习独立的奖励预测器，而是在每个观察的最后一个token的隐藏状态上添加了一个线性头（linear head）。

这种多任务学习方法可以增强模型对任务相关信息的关注，从而提高控制任务的预测准确性。他们在方程式（3）的交叉熵损失之外，还使用了均方误差损失进行奖励预测。

Tokenizer 适应。研究团队选择更新完整模型，包括tokenizer，以适应下游任务，并发现这一策略比参数高效的微调方法更有效。

很少有文献探讨将VQGAN tokenizer用于特定领域的数据。在这项工作中，由于tokenization将动态信息与上下文条件解耦，并假设虽然此模型可能在下游任务中遇到未见过的对象，如不同类型的机器人，但transformer从多样化场景中学到的基本物理知识 —— 如运动和交互是共享的。

这一假设得到了实验的支持，他们将iVideoGPT从混合预训练数据迁移到未见过的BAIR数据集，其中预训练的transformer可以零样本泛化预测自然运动，仅需对未见过的机器人抓手的tokenizer进行微调。

实验

如表1所示，与SOTA方法相比，iVideoGPT展现出了具有竞争力的性能，同时在其架构中实现了交互性和可扩展性。虽然初步实验是在64×64的低分辨率下进行的，但iVideoGPT可以轻松扩展到RoboNet的256×256。

有关定性结果，请参阅图9。

图4显示了iVideoGPT与基准模型相比的成功率。iVideoGPT在两个RoboDesk任务中大幅优于所有基线，并实现了与最强模型SVG’相当的平均性能。

图6显示基于模型的算法不仅比无模型算法提高了样本效率，而且达到或超过了DreamerV3的性能。

接下来该研究分析了大规模预训练iVideoGPT在未见过的BAIR数据集上的零样本视频预测能力。有趣的是，研究者在图7的第二行观察到，iVideoGPT在没有微调的情况下，预测了一个机器人抓手的自然运动 —— 尽管与预训练数据集不同。这表明，尽管由于预训练数据的多样性不足，模型在完全未见过的机器人上的零样本泛化能力有限，但它有效地将场景上下文与运动动态分禦开来。相比之下，使用经过适应的tokenizer，未经过微调的Transformer成功地迁移了预训练知识，并在第三行预测了新型机器人的运动，提供了与第四行中完全微调的Transformer相似的感知质量。

了解更多结果，请参考原论文。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-29发表2025-03-21更新 ByteAILab 13 分钟读完 (大约1889个字)

清华接手，YOLOv10问世：性能大幅提升，登上GitHub热榜

相同性能情况下，延迟减少 46%，参数减少 25%。
目标检测系统的标杆 YOLO 系列，再次获得了重磅升级。

今年 2 月 YOLOv9 发布之后， YOLO（You Only Look Once）系列的接力棒传到了清华大学研究人员的手上。
上周末， YOLOv10 推出的消息引发了 AI 界的关注。它被认为是计算机视觉领域的突破性框架，以实时的端到端目标检测能力而闻名，通过提供结合效率和准确性的强大解决方案，延续了 YOLO 系列的传统。

论文地址：https://arxiv.org/pdf/2405.14458
项目地址：https://github.com/THU-MIG/yolov10
新版本发布之后，很多人已经进行了部署测试，效果不错：

YOLO 因为性能强大、消耗算力较少，一直以来都是实时目标检测领域的主要范式。该框架被广泛用于各种实际应用，包括自动驾驶、监控和物流。其高效、准确的物体检测能力使其成为实时识别行人和车辆等任务的理想选择；在物流方面，它有助于库存管理和包裹跟踪，通过 AI 能力帮助人们在很多工作上提高了效率。

几年来，研究人员对 YOLO 的架构设计、优化目标、数据增强策略等进行了探索，取得了显著进展。然而，后处理对非极大值抑制（NMS）的依赖阻碍了 YOLO 的端到端部署，并对推理延迟产生不利影响。此外， YOLO 中各个组件的设计缺乏全面彻底的检查，导致明显的计算冗余并限制了模型的能力。

YOLOv10 的突破就在于从后处理和模型架构方面进一步提升了 YOLO 的性能 - 效率边界。

为此，研究团队首次提出了 YOLO 无 NMS 训练的一致双重分配，这使得 YOLO 在性能和推理延迟方面有所改进。

研究团队为 YOLO 提出了整体效率 - 准确率驱动的模型设计策略，从效率和准确率两个角度全面优化 YOLO 的各个组件，大大降低了计算开销并增强了模型能力。

大量实验表明， YOLOv10 在各种模型规模上都实现了 SOTA 性能和效率。例如， YOLOv10-S 在 COCO 上的类似 AP 下比 RT-DETR-R18 快 1.8 倍，同时参数数量和 FLOP 大幅减少。与 YOLOv9-C 相比，在性能相同的情况下， YOLOv10-B 的延迟减少了 46%，参数减少了 25%。

方法介绍
为了实现整体效率 - 准确率驱动的模型设计，研究团队从效率、准确率两方面分别提出改进方法。

为了提高效率，该研究提出了轻量级分类 head、空间通道（spatial-channel）解耦下采样和排序指导的块设计，以减少明显的计算冗余并实现更高效的架构。

为了提高准确率，研究团队探索了大核卷积并提出了有效的部分自注意力（partial self-attention，PSA）模块来增强模型能力，在低成本下挖掘性能改进的潜力。基于这些方法，该团队成功实现了一系列不同规模的实时端到端检测器，即 YOLOv10-N / S / M / B / L / X。

用于无 NMS 训练的一致双重分配
在训练期间， YOLO 通常利用 TAL 为每个实例分配多个正样本。一对多的分配方式产生了丰富的监督信号，促进了优化并使模型实现了卓越的性能。

然而，这需要 YOLO 依赖于 NMS 后处理，这导致了部署时次优的推理效率。虽然之前的研究工作探索了一对一匹配来抑制冗余预测，但它们通常引入了额外的推理开销。

与一对多分配不同，一对一匹配对每个 ground truth 仅分配一个预测，避免 NMS 后处理。然而，这会导致弱监督，以至于准确率和收敛速度不理想。幸运的是，这种缺陷可以通过一对多分配来弥补。

该研究提出的「双标签分配」结合了上述两种策略的优点。如下图所示，该研究为 YOLO 引入了另一个一对一 head。它保留了与原始一对多分支相同的结构并采用相同的优化目标，但利用一对一匹配来获取标签分配。在训练过程中，两个 head 联合优化，以提供丰富的监督；在推理过程中， YOLOv10 会丢弃一对多 head 并利用一对一 head 做出预测。这使得 YOLO 能够进行端到端部署，而不会产生任何额外的推理成本。

整体效率 - 准确率驱动的模型设计
除了后处理之外， YOLO 的模型架构也对效率 - 准确率权衡提出了巨大挑战。尽管之前的研究工作探索了各种设计策略，但仍然缺乏对 YOLO 中各种组件的全面检查。因此，模型架构表现出不可忽视的计算冗余和能力受限。

YOLO 中的组件包括 stem、下采样层、带有基本构建块的阶段和 head。作者主要对以下三个部分执行效率驱动的模型设计。

轻量级分类 head
空间通道解耦下采样
排序指导的模块设计

为了实现准确率驱动的模型设计，研究团队进一步探索了大核卷积和自注意力机制，旨在以最小的成本提升模型性能。

实验
如表 1 所示，清华团队所开发的的 YOLOv10 在各种模型规模上实现了 SOTA 的性能和端到端延迟。

该研究还针对 YOLOv10-S 和 YOLOv10-M 进行了消融实验，实验结果如下表所示：

如下表所示，双标签分配实现了最佳的 AP - 延迟权衡，采用一致匹配度量可以达到最优性能。

针对每个设计组件，包括轻量级分类 head、空间通道解耦下采样和排序指导的模块设计，都有助于减少参数数量、FLOPs 和延迟。重要的是，这些改进是在保持卓越性能的同时所实现的。

针对准确性驱动的模型设计的分析。研究人员展示了基于 YOLOv10-S/M 逐步集成准确性驱动设计元素的结果。

如表 10 所示，采用大核卷积和 PSA 模块分别在延迟最小增加 0.03ms 和 0.15ms 的情况下，使 YOLOv10-S 的性能有了 0.4% AP 和 1.4% AP 的显著提升。

参考内容：
https://visionplatform.ai/yolov10-object-detection/
https://www.youtube.com/watch?v=29tnSxhB3CY

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-29发表2025-03-21更新 ByteAILab 14 分钟读完 (大约2097个字)

AI智能体的炒作与现实：GPT-4都撑不起，现实任务成功率不到15%

AI 智能体的宣传很好，现实不太妙。

随着大语言模型的不断进化与自我革新，性能、准确度、稳定性都有了大幅的提升，这已经被各个基准问题集验证过了。

但是，对于现有版本的 LLM 来说，它们的综合能力似乎并不能完全支撑得起 AI 智能体。

多模态、多任务、多领域俨然已成为 AI 智能体在公共传媒空间内的必须要求，但是在具体的功能实践中所展现的真实效果却差强人意，这似乎也再次提醒各个 AI 智能体初创公司以及大型科技巨头认清现实：脚踏实地一点，先别把摊子铺得太大，从 AI 增强功能开始做起。

近日，一篇就 AI 智能体在宣传和真实表现上的差距而撰写的博客中，强调了一个观点：「AI 智能体在宣传上是个巨人，而现实却很不妙。」

不可否认的是，自主 AI 智能体能够执行复杂任务的前景已经引起极大的兴奋。通过与外部工具和功能的交互，LLMs 可以在没有人为干预的情况下完成多步骤的工作流程。

但现实证明，这比预期的要更具挑战性。

WebArena 排行榜（一个真实可复现的网络环境，用于评估实用智能体的性能）对 LLM 智能体在现实任务中的表现进行了基准测试，结果显示即使是表现最好的模型，成功率也只有 35.8%。

WebArena 排行榜对 LLM 智能体在现实任务中的表现进行的基准测试结果：SteP 模型在成功率指标上表现最为良好，达到了 35.8%，而知名的 GPT-4 的成功率仅达到了 14.9%。

什么是 AI 智能体？

「AI 智能体」这个术语并没有真正被定义，对智能体究竟是什么也存在很多的争议。

AI 智能体可以定义为「一个被赋予行动能力的 LLM（通常在 RAG 环境中进行函数调用），以便在环境中对如何执行任务做出高层次的决策。」

当前，构建 AI 智能体主要有以下两种架构方法：

单一智能体：一个大型模型处理整个任务，并基于其全面的上下文理解做出所有决策和行动。这种方法利用了大型模型的涌现能力，避免了将任务分解所带来的信息丢失。
多智能体系统：将任务分解为子任务，每个子任务由一个更小、更专业的智能体处理。与尝试使用一个难以控制和测试的大型通用智能体相比，人们可以使用许多更小的智能体来为特定子任务选择正确的策略。由于上下文窗口长度的限制或不同技能组合的需要等实际约束，这种方法有时是必要的。

理论上，具有无限上下文长度和完美注意力的单一智能体是理想的。由于上下文较短，在特定问题上，多智能体系统总是比单一系统效果差。

实践中的挑战

在见证了许多 AI 智能体的尝试之后，作者认为它们目前仍为时过早、成本过高、速度过慢且不够可靠。许多 AI 智能体初创公司似乎在等待一个模型突破，以开启智能体产品化的竞赛。

AI 智能体在实际运用中的表现并不够成熟，这体现在输出不精确、性能差强人意、成本较高、赔偿风险、无法获得用户信任等问题：

可靠性：众所周知，LLMs 容易产生幻觉和不一致性。将多个 AI 步骤连接起来会加剧这些问题，尤其是对于需要精确输出的任务。
性能和成本：GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函数调用方面表现不错，但它们仍然较慢且成本高，特别是如果需要进行循环和自动重试时。
法律问题：公司可能需要对其智能体的错误负责。最近的一个例子是，加拿大航空被命令向一位被航空公司聊天机器人误导的客户赔偿。
用户信任：AI 智能体的「黑箱」性质以及类似示例使得用户难以理解和信任其输出。在涉及支付或个人信息的敏感任务中（如支付账单、购物等），赢得用户信任将会很困难。

现实世界中的尝试

目前，以下几家初创公司正在涉足 AI 智能体领域，但大多数仍处于实验阶段或仅限邀请使用：

adept.ai - 融资 3.5 亿美元，但访问权限仍然非常有限。
MultiOn - 融资情况未知，他们的 API 优先方法看起来很有前景。
HypeWrite - 融资 280 万美元，起初是一个 AI 写作助手，后来扩展到智能体领域。
minion.ai - 最初引起了一些关注，但现在已经沉寂，仅有等候名单。

它们中似乎只有 MultiOn 在追求「给出指令并观察其执行」的方法，这与 AI 智能体的承诺更为一致。

其他所有公司都在走记录和重放的 RPA（record-and-replay）路线，这在现阶段可能是为保证可靠性所必需的。

同时，一些大公司也在将 AI 功能带到桌面和浏览器，并且看起来将会在系统层面上获得本地的 AI 集成。

OpenAI 宣布了他们的 Mac 桌面应用程序，可以与操作系统屏幕互动。

在 Google I/O 大会上，Google 演示了 Gemini 自动处理购物退货。

微软宣布了 Copilot Studio，它将允许开发人员构建 AI 智能体机器人。

这些技术演示令人印象深刻，人们可以拭目以待这些智能体功能在公开发布并在真实场景中测试时的表现，而不是仅限于精心挑选的演示案例。

AI 智能体将走向哪条路？

作者强调：「AI 智能体被过度炒作了，大多数还没有准备好用于关键任务。」

然而，随着基础模型和架构迅速进步，他表示人们仍可以期待看到更多成功的实际应用。

AI 智能体最有前途的前进道路可能是这样的：

近期的重点应放在利用 AI 增强现有工具，而不是提供广泛的全自主独立服务。
人机协同的方法，让人类参与监督和处理边缘案例。
根据当前的能力和局限，设定不脱离现实的期望。

通过结合严格约束的 LLMs、良好的评估数据、人机协同监督和传统工程方法，就可以在自动化等复杂任务方面实现可靠且良好的结果。

对于 AI 智能体是否会自动化乏味重复的工作，例如网络抓取、填表和数据录入？

作者：「是的，绝对会。」

那 AI 智能体是否会在没有人们干预的情况下自动预订假期？

作者：「至少在近期内不太可能。」

原文链接：https://www.kadoa.com/blog/ai-agents-hype-vs-reality

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-28发表2025-03-21更新 ByteAILab 11 分钟读完 (大约1623个字)

努力驯服人工智能：首尔峰会指出监管难题

身为人工智能监管上的一个里程碑事件，2023年的B莱切利公园人工智能峰会单单因其存在而变得重要。

在宣布举办该活动与首个会议召开之间，主流对话从轻微的困惑转变为普遍认同，认为讨论人工智能监管也许是值得的话题。然而，本周在首尔郊外的一个研究园区举行的峰会面临的任务更艰巨：英国和韩国能否展示政府不仅仅在谈论人工智能监管，而且正在实际推行呢？在首尔峰会结束时，英国宣扬的主要成就是建立了一个全球人工智能安全研究院网络，借鉴了上次会议后成立的英国先驱组织。英国技术大臣米歇尔·多内兰将这些新研究院归功于正在发挥作用的“B莱切利效应”，并宣布计划领导一个体系，让美国、加拿大、英国、法国、日本、韩国、澳大利亚、新加坡和欧盟的监管机构分享有关人工智能模型、危害和安全事件的信息。

“两年前，政府几乎完全由私营部门和学者向他们介绍人工智能，但他们自己没有真正开发自己的证据基础的能力，”人工智能实验室Anthropic的联合创始人兼政策负责人杰克·克拉克称，“在首尔，我们从英国安全研究院获悉：他们对各种模型进行了测试，包括Anthropic的模型，并为各种滥用行为提供了匿名化的结果。他们还讨论了他们如何构建自己的越狱攻击，以打破所有这些模型的安全系统。”

克拉克称，这一成功使他比在参加B莱切利峰会的前一年时更“略微乐观”。但新安全研究院的权力仅限于观察和报告，存在着他们可能不得不被迫坐视人工智能危害肆虐的风险。即便如此，克拉克认为，“尴尬他人和公司具有巨大威力”。

“你可以成为一个安全研究院，只能测试公开的模型。如果你发现模型存在严重问题，你可以发表文章 - 就像今天学术界所发生的一样。你会发现公司会采取非常重要的行动来应对。没有人愿意成为排行榜上的倒数第一。”

即使观察本身也能改变事物。例如，欧盟和美国的安全研究院已设定了“计算”阈值，试图通过各自聚集的计算能力来定义哪些公司落入他们安全研究院的监管范围。反过来，这些阈值已经开始变成明显的分界线：最好是略低于阈值，避免与监管者合作的麻烦，而不是略高于阈值并增加很多额外工作，一位创始人表示。在美国，该限额高得只有最富裕的公司才能负担得起，但欧盟较低的限额已将数百家公司纳入其研究院的管辖范围。

然而，IBM的首席隐私和信任官克里斯蒂娜·蒙哥马利表示：“计算阈值仍然存在，因为这是一条非常明确的线。很难想出其他能力是什么。但这将快速改变和发展，也应该如此，因为考虑到围绕如何调整和训练模型的新技术，模型有多大并不重要。”她建议，政府将开始关注人工智能系统的其他方面，例如暴露于模型的用户数量。

前Google Brain主管安德鲁·吴认为，人工智能的应用应该受到监管，而不是仅专注于人工智能技术本身。他提出，“监管人工智能与监管‘电动机’一样毫无意义：‘如何让电动机安全’非常困难，除非只构建非常非常小的电动机。”

新加坡通讯、信息和卫生高级部长贾尼尔·普图恰里也表达了这一观点。他说：“在很大程度上，当今人工智能的使用并非没有受到监管。公众并非没有保护。”他说：“如果在医疗领域应用人工智能，医疗领域的所有监管工具必须被用来应对风险。如果人工智能被应用在航空工业中，我们已经有了一个机制和平台来监管风险。”

但是，将关注点放在应用而非基础人工智能系统可能忽略了一些人们认为是人工智能最大安全问题的问题：“超智能”人工智能系统可能导致文明的终结。麻省理工学院教授麦克斯·泰格马克将GPT-4的发布比作“费米时刻”，第一座核反应堆的建成几乎肯定不远就会出现原子弹，他说类似风险的强大人工智能系统需要一直保持警惕。

多内兰为关注点变化进行了辩护。“今天的关键支柱之一是包容性，这可能意味着很多事情，但也应该包括所有潜在风险的包容性，”她说，“这是我们不断努力实现的目标。”

对于克拉克来说，这带来了冰冷的安慰。“我只能说，你尝试做的事情越多，你成功的可能性就越小，”他说，“如果最终采用包罗万象的方法，那你实现任何事情的能力会被大大削弱。”

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-28发表2025-03-21更新 ByteAILab 5 分钟读完 (大约686个字)

伊隆·马斯克的xAI筹集60亿美元，力图挑战OpenAI

伊隆·马斯克的人工智能公司xAI已经完成了一轮60亿美元（47亿英镑）的投资，这将使其成为挑战OpenAI中最资金充裕的竞争者之一。

这家初创公司成立仅一年，但已迅速建立了自己的大型语言模型（LLM），这项技术是最近生成人工智能进展的基础，能够创造类似人类的文本、图片、视频和声音。这轮融资是该领域迅速发展的人工智能领域中最大的之一，马斯克在他拥有的社交网络X上表示，这笔投资使该公司的估值达到180亿美元。

到目前为止，生成式人工智能的开发成本已经被证明非常昂贵，部分原因是需要大量的计算能力和能源来训练LLM。xAI在一篇博文中写道：“这一轮资金将用于将xAI的第一个产品推向市场，构建先进的基础设施，并加速未来技术的研发。”马斯克依赖于曾支持他其他企业的投资者，包括电动汽车公司特斯拉和社交网络推特的收购，他将其命名为X。投资者包括风险投资公司安德森·霍洛维茨（Andreessen Horowitz）、红杉资本（Sequoia Capital）和富达管理与研究公司（Fidelity Management & Research Company），以及由沙特企业家阿尔瓦利德·本·塔拉勒王子（Alwaleed bin Talal）经营的沙特王室成员王国控股（Kingdom Holding）。

AI领域投资者兴趣的增加始于OpenAI，该公司使用LLM创建了聊天机器人ChatGPT。马斯克曾是OpenAI的联合创始人，但在3月份，他对OpenAI进行了起诉，指控萨姆·奥尔特曼等高管“违反了公司的创始协议”，因为他们追求私人商业成功，而不是为造福人类努力。OpenAI正在与美国科技公司微软紧密合作，正在面临来自谷歌的Gemini、Meta的Llama以及亚马逊支持的Anthropic和法国Mistral等初创公司的竞争。

周一，马斯克在X上转发了xAI的公告，并写道，该公司有一个“理解宇宙的使命，这需要最大程度地追求真理，而不考虑流行性或政治正确性”。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-05-28发表2025-03-21更新 ByteAILab 6 分钟读完 (大约864个字)

斯嘉丽·约翰逊与OpenAI冲突只是人工智能法律纠纷的开始

当OpenAI的新语音助手在本月的发布演示中说它“做得很棒”时，斯嘉丽·约翰逊并不开心。

这位好莱坞巨星表示，对于更新版的ChatGPT，即可听取口头提示并口头回应的系统，其声音“与她的声音惊人地相似”，她感到“震惊，愤怒和难以置信”。约翰逊在2013年电影《她》中扮演了一位未来版Siri的声音，对于演员来说，这种相似性十分明显。OpenAI首席执行官萨姆·奥尔特曼似乎在发布当天通过一条帖子暗示了这部电影的影响：“她”。

在一份声明中，约翰逊表示，奥尔特曼去年曾接触她，希望她成为ChatGPT的声音，但她因为“个人原因”拒绝了。OpenAI在一篇博文中确认了这一点，但称其是在已经选择了五位声音，包括让约翉逊感到担忧的声音之后，再次接触她，希望她成为“未来的额外声音”。

OpenAI写道，人工智能的声音不应“有意模仿名人独特的声音”，而新GPT-4o模型所使用的声音“Sky”并不是斯嘉丽·约翰逊的模仿，而是“另一位专业女演员使用她自己的自然说话声音”。

人工智能与创意产业之间的关系已经紧张，作者、艺术家和音乐出版商已因版权侵权而提起诉讼，但对一些倡导者来说，此次争议凸显了人工智能与更广泛社会之间的紧张关系，其进步可能导致政客、监管机构和产业滞后。

当约翉逊于5月20日发表评论时，她表示已聘请了法律顾问。目前尚不清楚约翉逊是否考虑提起诉讼，因为OpenAI已撤回了Sky。对于这一事件，约翉逊的代表已被联系以进行评论。

但是，接受《卫报》采访的法律专家认为，她可能有提起诉讼的依据，并指出可以根据州法，包括加利福尼亚州，提起“名誉权”的诉讼。名誉权保护一个人的姓名、形象、肖像和其他身份特征不受未经许可的使用。

即使约翉逊的声音并未直接使用，也有针对此类情况的先例，就像歌手贝蒂·米德勒在20世纪80年代对福特汽车公司提起诉讼一样，后者使用了一位米德勒的模仿者来复制她的唱歌声音。米德勒在美国联邦上诉法院获得胜利。

在人工智能的应用和能力不断增长的同时，围绕该技术的法律斗争也将会增加。

请注意：Title、Date、Body 中的内容已按要求放入正确位置，Title 部分内容已经翻译为中文。最终输出为 Makedown 源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

目前，区块链和智能合约等技术，已经被应用于保护知识产权。这一点上，**云厂商可以提

以后我们会通过新专栏带来更多 AIGC 案例演示，也欢迎大家留言评论并给出改进建议。

参考链接：https://x.com/_jasonwei/status/1794093872651387004

请注意：Title、Date、Body 中的内容已按要求放入正确位置，Title 部分内容已经翻译为中文。最终输出为 Makedown 源文件格式内容。

链接

分类

最新文章

归档

标签

订阅更新