GPTNB · AI资讯与技术分享站

2024-07-09发表2025-03-21更新 ByteAILab 11 分钟读完 (大约1589个字)

李彦宏：没有应用，AI模型一文不值

李彦宏在WAIC 2024上呼吁，不要卷模型，要去卷应用，超级能干的应用比只看DAU的超级应用更重要，最简单的就是智能体。作者 | 李笑寅编辑 | 硬 AI

7月4日周四，2024年世界人工智能大会（WAIC 2024）在上海正式开幕。

本届大会以“以共商促共享，以善治促善智”为主题，将聚焦全球人工智能领域的前沿技术和创新应用，致力于展示人工智能如何改变世界、塑造未来。

下午13:30开始的产业发展主论坛上，百度创始人、董事长兼CEO李彦宏出席发表主题演讲。本文整理出核心观点如下：

1、同样参数规模之下，闭源模型的能力比开源模型要更好。当你处在一个激烈竞争的市场环境当中的时候，你需要使让自己的业务的效率比你的同行更高、成本比你的同行更低，这个时候，商业化的闭源模型是最能打的。

2、没有应用，光有一个基础模型，不管是开源还是闭源，一文不值。所以我从去年下半年开始讲，大家不要卷模型了，要去卷应用。

3、文心大模型的日调用量最近超过了5亿，代表了真实的需求，说明有人在用、是有人真的从大模型当中获益了，并得到了价值。

4、超级能干的应用比只看DAU的超级应用恐怕要更重要，只要对产业、对应用场景能产生大的增益，整体的价值就比移动互联网要大多了。

5、随着基础模型的日益强大，开发应用也越来越简单了，最简单的就是智能体，这也是我们最看好的AI应用的发展方向。

6、AI不是人类的竞争对手，更多的是在扮演副驾的角色，还要人来把关。目前，AI已经创造了一些全新的工作机会。

以下是李彦宏演讲的主要内容：

各位下午好，非常高兴再次来到上海参加世界人工智能大会。我是这个会议的常客，但是去年因为出国没有来，所以我上一次来参加WAIC是2022年，我记得当时大会的主题是元宇宙，我当时讲的主题是AIGC，就是AI Generated Content（生成式人工智能），我认为AI的技术发展路线发生了方向性的改变，就是从过去的辨别式人工智能转向了未来的生成式人工智能。

这番话当时发表于2022年的夏天，五个月之后，大家都知道，ChatGPT发布了。

后来的事情大家就更清楚，所以两年的时间其实恍若隔世，就是感觉整个世界都变了，人工智能可以说颠覆了绝大多数人的认知。

商业化的闭源模型“最能打”

2023年国内出现了百魔大战，造成了社会资源的巨大浪费，尤其是算力的浪费，但是也使得我们追赶世界上最先进的基础模型的能力得到了建立。去年10月我宣布文心4.0发布的时候，我说文心4.0的能力跟GPT-4相比毫不逊色，好多的同行还不以为然。

今天大家可以看到，国内已经有多款闭源模型声称他们已经追平或者是超越了GPT-4的水平。注意，我这里说的是闭源大模型，不是开源大模型。

这也是今年以来就是争议比较多的一个话题，有些个外行甚至混淆了模型开源和代码开源这两个概念。模型开源你拿到的是一大堆的参数，你还是要去做SFT，还是要去做安全对齐，你不知道这些参数是怎么来的，你是无法做到“众人拾柴火焰高”的，即使你拿到对应的源代码，你也不知道他用了多少数据，用了什么比例的数据去训练这些个参数，所以拿到这些东西并不能够让你站在巨人的肩膀上去迭代和开发。

所以同样参数规模之下，闭源模型的能力就比开源模型要更好。而如果开源想要能力追平闭源，那么它就需要有更大的参数，这就意味着推理成本会更高，反应速度会更慢。

很多人拿开源模型来改款，以为这样可以更好地服务自己的个性化的应用，殊不知这样你就创造了一个孤本的模型，既无法从基础模型的持续升级当中获益，也没办法跟别人去共享算力。

当然我也承认开源模型在某些场景下是有它的价值的，比如说一些学术研究，或者说在教学领域，大家想要研究大模型的工作机制形成理论，这个时候可能是有价值的。

因为大家可能也经常听到，就是我们觉得大模型能力很强，但是不知道为什么能力强，因为背后没有理论来支持他，所以研究领域用开源的我觉得没问题，但是大多数的应用场景开源模型并不合适。

当你处在一个激烈竞争的市场环境当中的时候，你需要使让自己的业务的效率比你的同行更高、成本比你的同行…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-09发表2025-03-21更新 ByteAILab 14 分钟读完 (大约2162个字)

马斯克自曝Grok 2将于下月上线！Grok 3也在加紧训练中

马斯克真是的世界上精力最旺盛的富豪之一，他一面进行着火箭计划，一面加紧研发新能源车的步伐，还在百忙之中抽空在自己的社交软件上宣布“Grok 2将于下月上线”的重大消息。同时完成好几件工作，马斯克算是把“多线作战”玩的明明白白的了。

连发两条推文为xAI造势！8月发布Grok 2，年底将推出Grok 3…就在最近，深谙营销和宣传之道的马斯克在自己的推特上连发两条推文，为自己的xAI造势。大家都知道，xAI由马斯克建立，它致力于构建通用人工智能，其目标是“了解宇宙的真实本质”。事实上，xAI的出现是带着“使命感”的，就是要与谷歌的DeepMind，ChatGPT的制造商OpenAI等行业领导者进行竞争。马斯克本人也与当下的AI 巨头公司OpenAI之间存在着错综复杂的关系。他曾是OpenAI的联合创始人和早期支持者，后来因为尝试收购OpenAI失败以及利益冲突而离开了公司。如今，马斯克已经公开表示与OpenAI的CEO Sam Altman关系不合，更严厉斥责该公司和Altman“只顾利润，不顾安全”的态度，他甚至对OpenAI发起了起诉。2023年3月，xAI推出了Grok的第一代版本Grok 1模型，Grok 1是由xAI从头开始训练的3140亿参数专家混合模型，其参数远超OpenAI GPT-3.5的1750亿，并且是Llama 2的4倍。4月16日，xAI乘胜追击，效率极高的推出了升级版的Grok 1.5V，在性能上拥有了显著的提高。它不仅拥有强大的文本功能，还能处理各种视觉信息，包括文本，图像，文档以及表格内容。特别是在理解物理世界方面，Grok 1.5V的表现优于其他同类产品。而在推特上进行回帖的马斯克表示，xAI的大语言模型Grok 2将于8月推出。并且马斯克为大家划重点:在数据训练方面将有大跨步。与此同时，他还透露，xAI的Grok 3使用了10 万块英伟达H100芯片进行训练，预计将于年底发布，相信它会“非常特别”。Grok 2还没推出，就已经开始为Grok 3造上势了，不得不说，马斯克的确是懂流量的。Grok 2的最大看点：数据训练飞跃，或有效解决“人体蜈蚣效应”。值得一提的是，马斯克宣布Grok 2将在8月推出这条回帖的原帖也颇有意味。原帖中，Cohere首席执行官Aidan Gomez表示，由于许多人工智能模型都是根据OpenAI的输出结果进行训练的，因此会产生“人体蜈蚣效应”，即模型会产生相同的输出结果。对于这一现象，使用大语言模型的用户应该深有体会。譬如一位网友就发现，自己虽然付了GPT-4和Claude两份的钱，却得到了同一份相同的答案，还都是错误的答案。这条负面消息一出，可是个千载难逢的抹黑GPT的机会，马斯克自然不会错过。毕竟，他与OpenAI之间的战火弥漫了4个月，已经到了水火不容，势不两立的境地。借着这个机会，马斯克一方面对OpenAI进行狠狠拉踩，另一方面乘胜追击，为即将推出的Grok 2造势。他发帖表示，从互联网语料中清除掉LLM合成的错误数据，形成高质量数据集需要大量的工作，而8月份推出的Grok 2将是这方面的巨大进步。马斯克的消息一出，立刻受到了大批网友和粉丝的拥护，大家纷纷表示，要转投这个出身豪门的Grok的怀抱。毕竟，背靠大树好乘凉。即便是在花钱如流水的AI领域，xAI的资金实力也算是遥遥领先的。早在今年5月，xAI就官宣拿到60亿美元（折合约435亿人民币）的B轮融资，估值达到约180亿美元（折合约1304亿人民币），一举跃升独角兽。本轮融资的主要投资者包括特斯拉和SpaceX的首批投资者Antonio Gracias领导的Valor Equity Partners；迪拜投资公司Vy Capital；美国私人风投Andreessen Horowitz及Sequoia Capital；风投公司Fidelity Management&；Research Company；沙特王国控股公司Kingdom Holding等。反观xAI的最强劲竞争对手OpenAI，在过去10年间获得融资总额为143亿美金，在xAI之下。有了这笔资金的加持，xAI瞬间拥有了“钞能力”，将有助于xAI加速其聊天机器人Grok的开发和迭代，使其与OpenAI的GPT，Meta的Llama，Anthropic的Claude以及Google的Gemini等人工智能领导者的大模型表现保持一致，甚至实现一定程度的领先和反超。豪掷40亿美元买10万个H100训练模型，只为让Grok 3于年底惊艳亮相。根据马斯克的说法，xAI给大家带来的惊喜绝不只是Grok 2，拥有更强性能和表现的Grok 3也将于年底亮相。要说Grok 3有什么特点，最显著的一个当属身家特别壕。马斯克透露，Grok 3会在“经过10万个英伟达H100 GPU的训练后，成为特别的东西”。10万个H100 GPU意味着什么？要知道，科技公司都在竞相打造更加智能的AI产品，在这场扩日持久的科技战中，H100会成为当仁不让的香饽饽。作为打造AI产品时必不可缺的关键组件，热门商品H100 GPU的价格自然是不便宜，每块的成本都在3万美元—-4万美元之间。而马斯克居然为了训练Grok 3买了10万个H100 GPU，这是个什么概念？这意味着这笔订单的价格会达到10位数的天价，英伟达也会因此赚得盆满钵满。当然，也存在一个可能，就是xAI并没有直接购买这一批芯片。而是从云服务提供商租用GPU进行计算，这也是可能的。根据The Information在5月份的报道，马斯克的xAI与甲骨文公司进行了洽谈，准备斥资100亿美元租用云服务器。但无论如何，有一点毋庸置疑，马斯克的xAI近年来直接购买了大量的H100，是英伟达的忠实客户。就连特斯拉官方，也将原定用于特斯拉的一批价值5亿美元的英伟达H100转用于xAI。即便Grok 2和Grok 3都还没有问世，我们完全可以预见，Grok 2的性能会比先前的Grok 1.5有显著的提升，而基于10万个GPU训练的Grok 3势必会比Grok 2更上一层楼（Grok 2大约需要2万张H100拉进行训练）。那么问题来了，手握10万个GPU，是否意味着马斯克和他的xAI可以在下一轮AI产品迭代中遥领先，高枕无忧了？显然不能。因为在AI这个领域，没有最卷，只有更卷。10万个GPU听起来确实很多，但是，其他的AI巨头正在购买更多的GPU。有消息称，Meta将在2024年底向英伟达采购约35万个英伟达H100 GPU。届时，包括已经采购的和其他GPU，Meta将拥有约60万个芯片。也就是说，Meta会花费约180亿美元打造AI芯片。由此可见，AI的这场军备赛，会日趋白热化。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-09发表2025-03-21更新 ByteAILab 21 分钟读完 (大约3136个字)

李彦宏，要让AI走正道，见众生

在今天，中国究竟有多少AI大模型，恐怕已经是很难统计的问题。继2023年百模大战之后，今天各个大模型体系都在开枝散叶，并且有更多行业、企业、科研机构加入了打造大模型的队伍中。

AI行业，呈现出前所未有的繁荣。但问题也随之而来。如此之多的大模型…

在这次对谈中，李彦宏坦率剖析了AI技术的现状，分析了AI时代如何避免掉入超级应用陷阱，并且预判了智能体将是AI发展的主旋律。他认为，“今天大多数AI原生应用，你用智能体的方式都可以做出来，效果也不错。由于它门槛足够低，可能你连编程都不用，就可以做出一个效果不错的智能体。门槛足够低，就意味着越来越多的人，可以做出他想要的智能体”。

从中，我们可以总结出李彦宏的AI应用观：AI落地，要警惕虚火，走正道，见众生。

警惕大模型变成空中楼阁
宏观描述今天全球AI产业的发展局势，我们很容易得到一个整体性判断：AI技术进展很快，模型开发众多，但产生的社会经济价值却很浅薄。为什么AI行业会出现大模型很多，实用价值却很少的情况？诚然，大模型走向应用化需要时间是先决条件。但产业把太多注意力投向了热度高，人气旺，却同质化极高，应用价值寥寥的方向，也是一个客观存在的问题。长此以往，AI技术很可能像很多技术风口一样出现泡沫过大，资源浪费过多，同时落地困难的问题，最终导致AI大模型变成一座空中楼阁。

我们可以将目前AI产业存在的多种问题，总结为具有代表性的三点：

1.做了很多大模型，却不知道有什么用。
伴随着百模大战的持续开展，大模型开始变得体系繁杂，种类众多。但为数众多的大模型项目，在启动之初并没有合理地应用规划。为了赢得市场、资本与开发者的快速关注，大模型开发者将更多精力投入到跑分、刷榜等环节上，或是更多关注命名与噱头。但在真正的应用场景中，无论是C端还是B端用户，都只会关注使用价值，而不是榜单与噱头。模型过多，应用过少，应用价值稀薄，构成了今天AI产业必须解决的首要问题.

2.盲目追求开源，却不知道开源的目的是什么。
伴随着软件开源事业的兴起，开源和闭源是近期AI行业讨论度非常高的话题.但很多人没有注意到的一点是，开源模型与开源软件在定义与应用方法上截然不同.开源大模型并没有开源源代码，也不会像传统意义上的开源软件一样形成社区共建效应，反而由于开源大模型的商业模式定位，会让用户产生更多的后期成本与使用不确定性.因此李彦宏直言，“开源其实是一种智商税”。做大模型要有场景应用，有价值，能够为客户、为用户提升效率、降低成本.他说：“你永远应该选择闭源模型.今天这些闭源模型，无论是ChatGPT还是文心一言，以及其他各种各样的闭源模型，它的平均水平，一定是比这些开源模型更强大，推理成本一定是比开源模型更低.”

3.沉浸在惯性思维，过度关注所谓超级应用.
AI产业还有一个问题，就是迫切希望AI时代像互联网时代一样，出现搜索、电商这样的超级应用，从而诞生巨大的流量入口.但事实上，这种对AI应用的期待完全是基于惯性.在大模型带来新的技术底座后，应用模式与应用的成长路径也会发生变化.“无法诞生超级应用就是AI不行”，这样的超级应用思维，正在变成困扰AI发展的陷阱.

AI发展，不能走“只重技术不重应用”的虚路，不能走“盲目开源”的歪路，更不能走互联网时代的老路.
那么，AI应用究竟路在何方？
在李彦宏看来，AI的正路在于智能体，在于让AI在无数需求中焕发价值.

AI应该走智能体的正道
AI既要快速走向应用，又不能生搬硬套传统的网站与APP模式.在这种情况下，最能清晰被开发者感知，也最接近用户价值的AI应用模式就是智能体.可以说，智能体是目前最好的AI应用方向，是当之无愧的AI正道.

从技术上来看，智能体不止有对话能力，还有反思、协作能力，能够有效利用绝大多数大模型带来的技术创新特性.并且面向未来，智能体还可以通过协作来解决复杂任务，是被公认的最有前景的AI发展方向，也是最接近AGI的应用路径.

李彦宏在访谈中表示，“智能体正在爆发，只是说它现在基数还比较小，大家的体感没有那么强烈.但是你要看业界大模型公司，都在做智能体.智能体就是一个几乎可以‘放之四海而皆准’的基于大模型的应用”.

而智能体低开发门槛，直面特定需求的应用模式，又决定了智能体的成功并不以绝对化的流量来判断，而是要考虑它的应用场景、应用价值以及投入产出比.或许一个根本不用代码进行开发的智能体，就可以基于大模型基础能力、开发者的巧妙思考、对应用场景的准确判断.结合起来撬动巨大的价值.

今年6月.李彦宏曾在“亚布力成长计划－走进百度”活动上表示.智能体是AI时代的网站.将会有几百万，甚至更大量的智能体出现.形成庞大生态…

最新访谈活动中.李彦宏进一步阐释道.由于做网站很简单.在90年代中后期.就诞生了数以百万计的网站.大浪淘沙之后.最终出来了一些非常优秀的网站.像Google、Facebook.这是若干年之后才出现.但是早期看，这些网站都是乱糟糟的.一个大学生就能做一个网站出来，这有啥价值.但是你必须得门槛足够低的时候，让更多人进来，他们发挥聪明才智.指不定哪条路跑通了.它就是一个Super APP…

构建智能体生态.正在成为AI时代逐渐清晰起来的阳关大道.百度在智能体领域的实践.也在成为更多开发者的引路人.在6月28日的WAVE…

其中.“智能体+搜索”是值得关注的前沿方向.百度也已在AI搜索上重点布局智能体.越来越多的智能体正基于百度搜索为用户提供内容和服务.比如说，在不久之前的高考志愿填报中，第一届与智能体合作填报志愿的考生出现了.百度的高考智能体“AI志愿助手”在高考时期每天回答了超过两百万个考生问题，真正展现了AI大模型带来的社会价值提升.

而如果说.智能体为何重要，为何能确定它是AI的正道？

从底层逻辑出发，答案是智能体能让AI真正见到众生.

AI要在“超级能干”中见众生
大模型再好，没有应用也是一文不值.今天每一家涉及AI领域的企业，每一位AI从业者都应该正视这个问题，然后交出自己的时代答卷.而这张答卷的解题思路，不在斤斤计较模型参数，不在一分半分的榜单排名，而是在千行百业里，在无数个需求被AI满足的时候.针对AI应用，李彦宏给出了一个核心判断，AI时代，“超级能干”的应用比只看DAU的“超级应用”更重要，他说，“我们要避免掉入‘超级应用陷阱’”…

比起大家都做一样的模型，开发一样的应用，不如到广袤的行业原野中去.去实实在在关注大模型如何在细分场景里发挥作用，解决实际问题带来实际降本增效.即便是很小的场景，很小的问题，只要AI应用能够比以往的技术解决得更好，这就是实实在在的价值.这样AI就有存续的发展.

当然，李彦宏也并非认为符合互联网精神从0到1的超级应用不重要.相反，他认为超级应用很重要.假以时日也一定会出现.但在目前情况，更重要的是大模型在各个领域、各个场景的应用.他指出，大模型应用其实已经在逐步出来，它对于现有业态的改造作用，比从0到1的颠覆作用，更早到来…

如今，各个行业都在涌起对智能化的高度渴望.两个月前文心一言的调用量每天有两亿次，但在今天文心一言的日调用量已经达到5亿.这说明各个行业，各个领域都在探索大模型，思考大模型能为自己带来什么.这是AI行业最好的机会，也是AI行业必须肩负起的使命.

李彦宏认为，“尤其在To B场景，大模型对于To B场景的影响力，会比互联网大一个量级.只不过它的受众也没有C端那么大，这个过程也并不像一个C端的超级应用带给人的体感那么新鲜、惊艳和性感.但是它主要是应用在企业实际业务里，也就是需要强大生产力的场景，它用起来后，对于业务、对于场景所带来的降本增效是实实在在的.从这个角度看，它比造出几个Super APP的价值和影响力反而更大.

不造空中楼阁，不押注小概率事件，而是聚少成多，见微知著，去关注一个个真实的需求，去融入一个个真实的行业.去关注人，去关注生产和泥土.把每一个微小的发现变成智能体，然后将之变成伟大的创新.这才是大模型真正的价值所在，是AI与这个世界相自洽的方式.这也是李彦宏的AI应用观，是AI如何走正道，何以见众生.

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-09发表2025-03-21更新 ByteAILab 23 分钟读完 (大约3499个字)

李彦宏：没有应用，AI模型一文不值

文章来源：硬AI

图片来源：由GPTNB生成

李彦宏在WAIC 2024上呼吁，不要卷模型，要去卷应用，超级能干的应用比只看DAU的超级应用更重要，最简单的就是智能体。

作者 | 李笑寅
编辑 | 硬 AI

7月4日周四，2024年世界人工智能大会（WAIC 2024）在上海正式开幕。

下午13:30开始的产业发展主论坛上，百度创始人、董事长兼CEO李彦宏出席发表主题演讲。本文整理出核心观点如下：

2、没有应用，光有一个基础模型，不管是开源还是闭源，一文不值。所以我从去年下半年开始讲，大家不要卷模型了，要去卷应用。

3、文心大模型的日调用量最近超过了5亿，代表了真实的需求，说明有人在用、是有人真的从大模型当中获益了，并得到了价值。

4、超级能干的应用比只看DAU的超级应用恐怕要更重要，只要对产业、对应用场景能产生大的增益，整体的价值就比移动互联网要大多了。

5、随着基础模型的日益强大，开发应用也越来越简单了，最简单的就是智能体，这也是我们最看好的AI应用的发展方向。

6、AI不是人类的竞争对手，更多的是在扮演副驾的角色，还要人来把关。目前，AI已经创造了一些全新的工作机会。

以下是李彦宏演讲的主要内容：

这番话当时发表于2022年的夏天，五个月之后，大家都知道，ChatGPT发布了。

后来的事情大家就更清楚，所以两年的时间其实恍若隔世，就是感觉整个世界都变了，人工智能可以说颠覆了绝大多数人的认知。

01

商业化的闭源模型“最能打”

今天大家可以看到，国内已经有多款闭源模型声称他们已经追平或者是超越了GPT-4的水平。注意，我这里说的是闭源大模型，不是开源大模型。

当你处在一个激烈竞争的市场环境当中的时候，你需要使让自己的业务的效率比你的同行更高、成本比你的同行更低，这个时候，商业化的闭源模型那是最能打的。

02

没有应用，AI模型一文不值

当然这些都不是最重要的，没有应用，光有一个基础模型，不管是开源还是闭源，一文不值。所以我从去年下半年开始讲，大家不要卷模型了，要去卷应用。

但是我看到我们的媒体仍然是把主要的关注点放在了基础模型身上，一天到晚到处去关注跑分、刷榜，谁又超越GPT-4了？OpenAI又出来GPT-4o了等等，今天这个震撼发布，明天那个史诗级更新，但是我要问：应用在哪里？谁从中获益了？

应用其实离我们并不遥远，基于基础模型的应用在各行各业各个领域都已经开始了逐步的渗透。

两个多月前，我们宣布文心大模型的日调用量超过了2亿，最近又超过了5亿。其实仅仅是两个多月的时间，调用量发生了这么大的变化，它背后是代表了真实的需求，是有人在用、是有人真的从大模型当中获益了，得到了价值。

比如在快递领域，让大模型帮助处理订单，做到了一张图、一句话，寄快递不再需要其他的繁琐流程，时间从3分多钟缩短到19秒，而且90%以上的售后问题也都是由大模型来解决，效率提升非常的明显。

再比如在小说的创作领域，一开始我们用开源模型做出过一些效果，后来改用文心的轻量级模型，经过10轮上万组数据的SFT和Post-pretraining（后期预训练），结果有了明显的提升。

最近，我们又转到文心4.0的版本，那么仅用了数百条的数据，生成的内容无论是可用率还是优质率，都大大超过了文心的轻量级模型。网文作者们如虎添翼。

03

超级能干的应用
比只看DAU的超级应用更重要

其实更通用的领域，比如说代码生成功能，文心、快马这样的软件在各个领域也在逐步地渗透。

百度内部的话，我们有30%左右的代码已经是用AI生成的，代码的采用率超过了44%。

不过我们要避免掉入超级应用陷阱，觉得一定要出一个日活用户10亿的APP才叫成功。我认为这是移动时代的思维，AI时代的规律很可能不是这样。超级能干的应用比只看DAU的超级应用恐怕要更重要，只要对产业、对应用场景能产生大的增益，整体的价值就比移动互联网要大多了。

04

看好智能体的应用发展方向

随着基础模型的日益强大，开发应用也越来越简单了，最简单的就是智能体，这也是我们最看好的AI应用的发展方向。

制作一个好的智能体通常并不需要编码，只要用人话，把这个智能体的工作流说清楚，再配上专有的知识库，一般就是一个很有价值的智能体了，这比互联网时代制作一个网页还要简单。

未来，在医疗、金融、教育、制造、交通、农业等等领域，都会依据自己的场景，自己特有的经验、规则、数据等等做出各种各样的智能体，将来会有数以百万量级的智能体出现，形成庞大的智能体生态。

而搜索是智能体分发的最大的入口。刚刚过去的高考季，很多大模型公司热衷于去写高考作文：我用AI写一个作文能得多少分儿？其实这个实用价值是不大的，人家不会允许你带一个大模型进去参加高考。
真正的需求是大量的考生在考完之后要报志愿，要选择学校、选择专业。他们对一所大学一个专业会有各种各样的问题，而每一个考生的情况又是不一样的。这个时候就是需要有一个智能体来回答每一个考生专有的问题。

在高峰时期，百度的高考智能体每天要回答超过200万个考生的问题，而我们总共只有1000万的考生。在一天当中，有这么大比例的人在利用这个智能体，说明AI正在以前所未有的速度向各行各业渗透。

05

AI只是辅助
相关工作机会正大量诞生

很多人担心，如果我们日常的工作都让AI去做了，人是不是就没有工作机会了？

这种担心不是没有道理，但是过去这段时间，我听到的担心、听到的抱怨很多，听到的建设性的意见比较少，很少有人去致力于发掘生成式AI带来的新的工作机会，我在这儿算是抛砖引玉吧。

我觉得，一方面AI更多的是在扮演副驾的角色，还要人来把关，AI只是辅助人工作，而不是替代人工作，它让人的工作效率更高，质量更好。另外一方面，我们也看到有一些全新的工作机会开始冒出来了。

比如数据标注师，过去几年我们帮助全国20多个城市落地了数据标注中心，提供了大量的新的就业岗位；再比如提示词工程师，以后不用编程了，但是做好一个智能体还需要把工作流说清楚，这里头要有很强的逻辑性，要用提示词对模型进行调校。

随着智能体的大量涌现，这种工作需求也会飙升。这些个工作机会通常门槛并不高，你做的一般也能够养家活口，做得好的话，那上限可以年薪百万。

自人类文明诞生以来，永不停止的创新，就是刻在我们DNA当中的，从石器时代的手斧，到移动时代的手机，再到AI时代的大模型，人类不断创造各种工具来改善生活、提高生产力，但是它们永远只是工具，只有在被人类所使用的时候才有价值。

我们坚定地相信，AI不是人类的竞争对手，构建和应用人工智能技术是为了满足人的需求，增强人的能力，让人类的生活更美好。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-09发表2025-03-21更新 ByteAILab 5 分钟读完 (大约709个字)

打脸Meta还获得英伟达加持？被解散的原Meta AI蛋白质团队最新融资1.42亿美元

“行业观察者”是我们针对人工智能、XR、元宇宙和Web3等前沿科技而设立的专栏，主要分享这些领域中的新兴企业或者创业者们的故事。生物学前沿人工智能研究实验室EvolutionaryScale近日宣布获得超1.42亿美元种子轮融资，同时发布里程碑式AI模型ESM3。

这家成立仅一年的公司在AI生命科学领域有着怎样独特的理念？全新的蛋白质大模型又有着怎样的技术突破？以下是我们的第17期内容，以下Enjoy。

一周前，在Meta如火如荼地卷文生视频赛道的时候，那个被它解散的蛋白质团队EvolutionaryScale获得了超1.42亿美元的种子轮融资，这个融资额在整个生物技术领域都可以说是高得离谱。

去年八月，Meta官宣旗下的蛋白质折叠团队Meta-FAIR解散。这个纯粹的“科学+AI”项目并不能让Meta快速获得收益，Meta专注商业化AI的决定看似也是情理之中。

然而，这个不被看好的团队竟用仅仅一年的时间就打了Meta的脸。他们最新推出的ESM3被认为是生物学领域具有里程碑意义的生成式AI模型，为生物学编程开创了新的可能性。

01. 1分钟项目速览

项目名称：EvolutionaryScale
成立时间：2023年7月
产品简介：开发用于创造新型蛋白质和其他生物系统的大型语言模型——ESM，目前已迭代到ESM-3.
创始人团队：
- 首席科学家：Alexander Rives （纽约大学计算机科学博士、前Facebook AI科学家）
- Tom Sercu
- Sal Candido
融资情况：2024年6月25日完成了高达1.42亿美元的种子轮融资。本次融资由Nat Friedman和Daniel Gross以及Lux Capital领投，亚马逊、NVentures（英伟达的风险投资部门）和天使投资人参投。

02. 团队协同一致的理念追求

人工智能的进步为生物科学研究创造了前所未有的机会，包括设计功能性生物分子，尤其是蛋白质。将人工智能运用于蛋白质设计，不仅可以提升蛋白质设计的效率及成功率，还通过快速应对传染病爆发等方式，来帮助人类解决一些正在面临的挑战。

…

完整文章链接

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-09发表2025-03-21更新 ByteAILab 17 分钟读完 (大约2539个字)

李彦宏，要让AI走正道，见众生

AI行业，呈现出前所未有的繁荣。

但问题也随之而来。如此之多的大模型究竟如何产生价值？未来，它们的应用归宿是什么？如何把大模型的繁荣，变成社会经济的繁荣？

一年一度的世界人工智能大会（WAIC）刚刚落下帷幕。在这个舞台上，我们看到了全球AI领域让人目眩神迷的创新成果。然而与此同时，我们也需要一些对问题的正视，以及对未来的冷静思考。

在WAIC2024期间，百度创始人、董事长兼首席执行官李彦宏与《第一财经》总编辑杨宇东、《硅谷101》创始人陈茜进行了AI主题圆桌对谈，探讨了大模型开源闭源、大模型价格战、智能体、超级应用、AGI等业界热点问题。同期，李彦宏也出席了WAIC产业发展论坛，并发表主题演讲。

从中，我们可以总结出李彦宏的AI应用观：AI落地，要警惕虚火，走正道，见众生。

警惕大模型变成空中楼阁

宏观描述今天全球AI产业的发展局势，我们很容易得到一个整体性判断：AI技术进展很快，模型开发众多，但产生的社会经济价值却很浅薄。

为什么AI行业会出现大模型很多，实用价值却很少的情况？诚然，大模型走向应用化需要时间是先决条件。但产业把太多注意力投向了热度高，人气旺，却同质化极高，应用价值寥寥的方向，也是一个客观存在的问题。长此以往，AI技术很可能像很多技术风口一样出现泡沫过大，资源浪费过多，同时落地困难的问题，最终导致AI大模型变成一座空中楼阁。

我们可以将目前AI产业存在的多种问题，总结为具有代表性…

最新访谈活动中，李彦宏进一步阐释道，“由于做网站很简单，在90年代中后期，就诞生了数以百万计的网站。大浪淘沙之后，最终出来了一些非常优秀的网站，像Google、Facebook，这是若干年之后才出现。但是早期看，这些网站都是乱糟糟的，一个大学生就能做一个网站出来，这有啥价值？但是你必须得门槛足够低的时候，让更多人进来，他们发挥聪明才智，指不定哪条路跑通了，它就是一个Super APP”。

构建智能体生态，正在成为AI时代逐渐清晰起来的阳关大道。百度在智能体领域的实践，也在成为更多开发者的引路人。在6月28日的WAVE SUMMIT 深度学习开发者大会2024上，发布了中国工程院朱有勇院士及团队与百度共同打造的首个农业智能体——“农民院士智能体”。它基于文心智能体平台创建，学习了朱有勇院士的研究成果以及相关的农业知识，可以为农民解答生产生活中的问题，促进科技助农惠农。…

面向未来，每一位专家的学识，千行百业里每一个需求的满足，都可能会是一个智能体。智能体领域的布局，也将成为科技企业在大模型之后必须重点布局的AI战略高地。比如说，百度已经形成了比较完善的智能体布局，并且在细分领域跑出代表性案例，初步开始探索商业模式。目前在百度文心智能体平台上，已有16万多名开发者和超5万家企业入驻，覆盖了100多个应用场景。目前该平台免费开放文心大模型4.0，开发者制作智能体时可灵活选择文心大模型3.5或4.0版本。

其中，“智能体+搜索”是值得关注的前沿方向。百度也已在AI搜索上重点布局智能体，越来越多的智能体正基于百度搜索为用户提供内容和服务。比如说，在不久之前的高考志愿填报中，第一届与智能体合作填报志愿的考生出现了。百度的高考智能体“AI志愿助手”在高考时期每天回答了超过两百万个考生问题，真正展现了AI大模型带来的社会价值提升。

而如果说，智能体为何重要，为何能确定它是AI的正道？

从底层逻辑出发，答案是智能体能让AI真正见到众生。

AI要在“超级能干”中见众生

大模型再好，没有应用也是一文不值。今天每一家涉及AI领域的企业，每一位AI从业者都应该正视这个问题，然后交出自己的时代答卷。

而这张答卷的解题思路，不在斤斤计较模型参数，不在一分半分的榜单排名，而是在千行百业里，在无数个需求被AI满足的时候。

针对AI应用，李彦宏给出了一个核心判断，AI时代，“超级能干”的应用比只看DAU的“超级应用”更重要，他说，“我们要避免掉入‘超级应用陷阱’”。他认为，AI只要能对产业和应用场景产生大的增益，整体价值就已大于移动互联网。

比起大家都做一样的模型，开发一样的应用，不如到广袤的行业原野中去。去实实在在关注大模型如何在细分场景里发挥作用，解决实际问题带来实际降本增效。即便是很小的场景，很小的问题，只要AI应用能够比以往的技术解决得更好，这就是实实在在的价值，这样AI就有存续的发展。

当然，李彦宏也并非认为符合互联网精神从0到1的超级应用不重要。相反，他认为超级应用很重要，假以时日也一定会出现。但在目前情况，更重要的是大模型在各个领域、各个场景的应用。他指出，大模型应用其实已经在逐步出来，它对于现有业态的改造作用，比从0到1的颠覆作用，更早到来。

如今，各个行业都在涌起对智能化的高度渴望。两个月前文心一言的调用量每天有两亿次，但在今天文心一言的日调用量已经达到5亿。这说明各个行业，各个领域都在探索大模型，思考大模型能为自己带来什么。这是AI行业最好的机会，也是AI行业必须肩负起的使命。

李彦宏认为，“尤其在To B场景，大模型对于To B场景的影响力，会比互联网大一个量级。只不过它的受众也没有C端那么大，这个过程也并不像一个C端的超级应用带给人的体感那么新鲜、惊艳和性感。但是它主要是应用在企业实际业务里，也就是需要强大生产力的场景，它用起来后，对于业务、对于场景所带来的降本增效是实实在在的。从这个角度看，它比造出几个Super APP的价值和影响力反而更大”。

不造空中楼阁，不押注小概率事件，而是聚少成多，见微知著，去关注一个个真实的需求，去融入一个个真实的行业。去关注人，去关注生产和泥土。把每一个微小的发现变成智能体，然后将之变成伟大的创新。

这才是大模型真正的价值所在，是AI与这个世界相自洽的方式。

这也是李彦宏的AI应用观，是AI如何走正道，何以见众生。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-09发表2025-03-21更新 ByteAILab 4 分钟读完 (大约537个字)

大模型训练成本飙升，千亿模型将亮相

Anthropic 首席执行官 Dario Amodei 在In Good Company 播客中表示目前正在开发的人工智能模型的训练成本高达 10 亿美元。目前的模型（如 ChatGPT-4o）仅花费约 1 亿美元，但他预计，训练这些模型的成本将在短短三年内上升至 100 亿美元甚至 1000 亿美元。

“目前是 1 亿。如今训练的模型数量可能超过 10 亿。” Amodei 还补充道，“我认为如果我们达到 100 亿或 1000 亿，我认为这将在 2025 年、2026 年或 2027 年实现，并且算法改进和芯片改进将继续保持一定速度，那么我认为到那时我们很有可能能够获得在大多数事情上都比大多数人类更好的模型。”

Anthropic 首席执行官在讨论人工智能从生成式人工智能（如 ChatGPT）发展到通用人工智能 (AGI) 时提到了这些数字。他说，我们不会突然达到通用人工智能。相反，这将是一个渐进的发展过程，模型建立在过去模型的发展之上，就像人类儿童的学习方式一样。

因此，如果 AI 模型每年的性能提高十倍，我们可以合理地预期训练它们所需的硬件的性能也会至少提高十倍。因此，硬件可能是 AI 训练中最大的成本驱动因素。早在 2023 年，就有报道称ChatGPT 需要超过 30,000 个 GPU，Sam Altman 证实 ChatGPT-4 的训练成本为 1 亿美元。

去年，有超过 380 万个 GPU 被交付到数据中心。鉴于 Nvidia 最新的 B200 AI 芯片售价约为 30,000 至 40,000 美元，我们可以推测 Dario 的十亿美元估值将在 2024 年实现。如果模型/量化研究的进步以当前的指数级增长，那么我们预计硬件需…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-09发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1036个字)

大模型训练成本飙升，千亿模型将亮相

去年，有超过 380 万个 GPU 被交付到数据中心。鉴于 Nvidia 最新的 B200 AI 芯片售价约为 30,000 至 40,000 美元，我们可以推测 Dario 的十亿美元估值将在 2024 年实现。如果模型/量化研究的进步以当前的指数级增长，那么我们预计硬件需求将保持同步，除非像搜狐 AI 芯片这样的更高效的技术变得更加普及。

我们已经看到这种指数级增长正在发生。Elon Musk希望购买 30 万块 B200 AI 芯片，而据报道，OpenAI 和微软正在计划一个价值 1000 亿美元的 AI 数据中心。有了这么多的需求，如果 Nvidia 和其他供应商能够跟上市场步伐，我们明年的 GPU 数据中心交付量可能会激增至 3800 万。

然而，除了实际芯片硬件的供应，这些人工智能公司还需要关注电力供应和相关基础设施。仅去年一年售出的所有数据中心 GPU 的总耗电量就足以为 130 万户家庭供电。如果数据中心的电力需求继续呈指数级增长，那么我们可能会耗尽足够的经济实惠的电力。此外，虽然这些数据中心需要发电厂，但它们还需要一个完全升级的电网，以处理耗电的人工智能芯片运行所需的所有电子。出于这个原因，包括微软在内的许多科技公司现在正在考虑为其数据中心配备模块化核电。

人工智能正在迅速发展，硬件创新似乎也在跟进。因此，Anthropic 的 1000 亿美元预测似乎符合预期，尤其是如果 Nvidia、AMD 和 Intel 等制造商能够实现这一目标的话。然而，随着我们的人工智能技术每一代都以指数级的速度进步，一个大问题仍然存在：它将如何影响我们社会的未来？

参考链接：

https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-models-that-cost-dollar1-billion-to-train-are-in-development-dollar100-billion-models-coming-soon-largest-current-models-take-only-dollar100-million-to-train-anthropic-ceo

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-09发表2025-03-21更新 ByteAILab 18 分钟读完 (大约2711个字)

红杉：重金购入GPU后，AI行业收入缺口达到5000亿美元

AI公司花了那么多钱从英伟达购买GPU，需要产生多少收入才能证明这笔钱花得合理？最近，红杉资本的一篇文章给出了一个答案：6000亿美元。

而去年9月份，同一位作者算出的数字是2000亿美元。

这些数字是怎么算出来的呢？在去年9月份的文章中，作者David Cahn（红杉资本的合伙人）表示：在 GPU 上每花费 1 美元，在数据中心运行 GPU 需要花费大约 1 美元的能源成本。GPU 的最终用户——例如星巴克、X、特斯拉、Github Copilot 或新的初创公司——也需要赚取利润。假设他们需要赚取 50% 的利润，而英伟达2023年底的run-rate GPU revenue是500亿美元（当时分析师的估计），那么这些 GPU 需要产生 2000亿美元的生命周期收入来偿还前期资本投资（2023年9月算出的数字）。这还不包括云供应商的任何利润——他们要获得正回报，总收入要求会更高。

那这些重金购入GPU的公司实际能赚多少钱呢？David Cahn也做出了一些测算。他去年9月份提到，据 The Information 当时的报道，OpenAI 年收入达到 10 亿美元；微软表示，他们预计将从 Microsoft Copilot 等产品中产生 100 亿美元的人工智能收入；David Cahn假设谷歌、Meta 和 Apple 也各自从人工智能中获得 100 亿美元的收入，甲骨文、字节跳动、阿里巴巴、腾讯、X 和特斯拉各自获得50亿。那么它们总共将产生710亿美元的收入。这就造成了一个超过1250亿美元（125B+）的收入缺口。

作者之所以测算这些数字，是想抛出一个值得思考的问题：这些资本支出中有多少与真正的终端客户需求有关，又有多少是基于对未来终端客户需求的预期？

作者观察到，在AI领域，大规模的资本支出正在发生。从长远来看，这应该会大幅降低人工智能开发成本。但在历史技术周期中，基础设施的过度建设往往会烧毁资本。因此，他希望大手笔买入GPU的这些企业想清楚：所有这些GPU的用途是什么？谁是客户的客户？如何才能将令人惊叹的创新转化为客户每天使用、喜爱并愿意付费的产品？

时隔近一年，这些问题依然很难回答，而且偿还前期资本投资的数字被推高到6000亿美元（假设英伟达2024年底的run-rate GPU revenue是1500亿美元）。具体算法如下：

在计算时，作者指出了一些需要考虑的变量：

1、供应短缺已经消退：2023 年末是GPU供应短缺的顶峰。初创公司打电话给风险投资家，打电话给任何愿意与他们交谈的人，请求对方帮助他们获取GPU的使用权。如今，这种担忧几乎完全消除了。David Cahn表示，对于他采访过的大多数人来说，现在获得GPU相对容易，并且交货时间合理。

2、GPU库存正在增长：英伟达在第四季度报告称，其数据中心收入的一半左右来自大型云提供商。仅微软一家就可能占英伟达第四季度收入的约 22%。超大规模资本支出正在达到历史水平。这些投资是大型科技公司24年第一季度财报的一个主题。首席执行官们有效地告诉市场：「无论你喜欢与否，我们都会投资GPU。」囤积硬件并不是一个新现象，一旦库存足够大，需求就会下降，这将是重启的催化剂。

3、OpenAI仍然占据着人工智能收入的最大份额：The Information最近报道称，OpenAI目前的收入为34亿美元，高于2023年底的16亿美元。虽然我们已经看到一些初创公司的营收接近1亿美元，但OpenAI与其他公司之间的差距仍然很大。在ChatGPT之外，今天消费者真正使用的人工智能产品有多少？想想每月15.49美元的Netflix或11.99美元的Spotify能给你带来多少价值。从长远来看，人工智能公司需要为消费者提供巨大的价值，让他们继续打开钱包。

4、在去年9月份的分析中，作者假设OpenAI+谷歌、微软、苹果、Meta+甲骨文、字节跳动、阿里巴巴、腾讯、X和特斯拉总共能产生710亿美元的收入。考虑到OpenAI收入高于预期，同时其他之前没有被计算在内的AI公司也在产生营收，新的测算结果应该在710亿美元的基础上适当提高。但作者表示，即便如此，收入缺口还是扩大到了5000亿美元。

5、B100即将到来：今年早些时候，Nvidia发布了他们的B100芯片，该芯片的性能是之前的2.5倍，而成本仅增加了25%。作者预计这将导致英伟达芯片的需求激增。与H100相比，B100的成本与性能有了显着的提高，而且当今年晚些时候每家公司都试图上手B100时，可能会再次出现供应短缺。

对于David Cahn的测算方法，很多人去年就提出过异议，硅谷创投巨头A16Z特别顾问、AI初创公司2X创始人Guido Appenzeller就是其中之一。他认为，David Cahn的计算混淆了很多概念，对于GPU电费的计算也不合理，而且忽略了人工智能革命的规模。

还有人指出GPU资本支出就像修建铁路，最终火车会来，农业出口可以创收，游乐园、购物中心等也会建起来。David Cahn同意这一观点，但是他认为提出此观点的人忽略了几点：

1、缺乏定价能力：就物理基础设施的建设而言，你所建设的基础设施具有某种内在价值。如果你拥有旧金山和洛杉矶之间的铁轨，你很可能拥有某种垄断定价权，因为在A地和B地之间只能铺设这么多铁轨。GPU计算正日益成为一种按小时计量的商品。与成为寡头垄断的CPU云不同，构建专用AI云的新进入者继续涌入市场。在没有垄断或寡头垄断的情况下，高固定成本+低边际成本的企业几乎总能看到价格被竞相压低到边际成本（如航空公司）。

2、投资烧毁：即使是铁路，以及许多新技术，投机性的投资狂潮往往也会导致资本的高烧毁率。「The Engines that Moves Markets」是技术投资方面最好的教科书之一，其中的主要观点是很多人在投机性技术浪潮中损失惨重。挑选赢家很难，但挑选输家却容易得多。

3、折旧：我们从技术发展史中了解到，半导体会越来越好。Nvidia将继续生产更好的下一代芯片，如B100。这将导致上一代芯片加速贬值。由于市场低估了B100和下一代芯片的改进速度，因此高估了今天购买的H100在3-4年后的保值程度。同样，物理基础设施也不存在这种平行关系，因为物理基础设施并不遵循任何「摩尔定律」类型的曲线。

4、赢家与输家：David Cahn认为，我们需要仔细研究赢家和输家——在基础设施建设过剩的时期，总有赢家。人工智能很可能是下一个变革性的技术浪潮，正如作者在上一篇文章中提到的，GPU计算价格的下降实际上有利于长期创新，也有利于初创企业。如果他的预测成真，它将主要对投资者造成伤害。创始人和公司创建者将继续在人工智能领域进行建设，而且他们将更有可能取得成功，因为他们将受益于较低的成本和在这一实验阶段积累的经验。

David Cahn在文章最后写道：

人工智能将创造巨大的经济价值。专注于为最终用户创造价值的公司建设者将获得丰厚的回报。我们正在经历一场有可能决定一代人命运的技术浪潮。像Nvidia这样的公司在促成这一转变中所发挥的作用值得我们给予高度评价，而且在未来很长一段时间内，它们都可能在生态系统中发挥至关重要的作用。

投机狂热是技术的一部分，因此并不可怕。那些在这一时刻保持冷静的人，有机会建立起极其重要的公司。但我们需要确保不要相信一种错觉，这种错觉现在已经从硅谷蔓延到美国其他地区，甚至全世界。这种错觉认为我们都会快速致富，因为AGI明天就会到来，我们都需要储备唯一有价值的资源，那就是GPU。

实际上，未来的道路将是漫长的。会有起伏。但几乎可以肯定的是，这条路是值得的。

参考链接：

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-09发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1475个字)

中山大学联合字节智创数字人团队提出MMTryon虚拟试穿框架，效果优于现有SOTA

虚拟换装技术在特效以及电商的场景下有着广泛的应用，具有较高的商业潜质与价值。近期，中山大学联合字节跳动智能创作数字人团队提出了一种多模态多参考虚拟试穿 (VITON) 框架 MMTryon，可以通过输入多个服装图像及指定穿法的文本指令来生成高质量的组合试穿结果。

对于单图换装，MMTryon有效的利用了大量的数据设计了一个表征能力强大的服装编码器, 使得该方案能处理复杂的换装场景及任意服装款式；对于组合换装，MMTryon消除了传统虚拟换装算法中对服装精细分割的依赖，可依靠一条文本指令从多张服装参考图像中选择需要试穿的服装及对应的穿法，生成真实自然的组合换装效果。

Pretrain 服装编码器结合多模态和多参考注意机制，效果更精确灵活

虚拟换装技术旨在将模特所穿服饰或者衣服的平铺图穿到目标人物身上，达到换装的效果，但是之前虚拟试穿的方案存在一些技术难点没有解决，首先，现有的方法通常是为单件试穿任务（例如上衣/下衣、连衣裙）而设计的，并且无法自定义着装风格（例如，外套拉上/拉开拉链、上衣塞入/塞出等。另外，之前的方案严重依赖特定于类别的分割模型来识别试穿区域，如下图所示如果分割错误则将直接导致试穿结果中出现明显的试穿错误或者伪影等情况。

为了解决这些问题，我们提出了MMTryon，将参考图像中的服装信息与文本指令中的着装风格信息通过一种新颖的多模态和多参考注意机制来进行表示，这使得我们的方案支持组合式换装以及多样的试穿风格。此外，为了消除对分割依赖性，MMTryon 使用了表征能力丰富的服装编码器，并利用新颖的可扩展的数据生成流程增强现有的数据集，这样在推理阶段，MMtryon无需任何分割，仅仅通过文本以及多个试穿对象即可实现高质量虚拟换装。

在开源的数据集以及复杂场景下进行的大量实验在定性和定量上证明了 MMTryon 优于现有 SOTA 方法。

详细技术方案见：链接

首先研究团队预训练了一个服装编码器，在这一stage中MMTryon利用文本作为query，将得到的特征与grouding dino + SAM所得到的mask计算一个query损失，目标是经过text query 后仅激活文本对应区域的特征，这样可以摆脱对于服装分割的依赖，同时利用大量的pair对更好的编码服装特征，之后，为了更稳定的训练组合换装，需要多件服装组合式换装的pair图，但是这样的pair图采集成本很高。为此，研究团队提出了一个基于大模型的数据扩增模式，利用视觉语言模型以及grouding dino + SAM去得到了不同区域的mask，来保护对应的上衣或者下衣区域，利用stable diffusion XL 去重绘保护区域外剩下的内容，构建了100w的增强数据集，训练中将我们的增强数据集与90w原始数据一起加入训练。基于增强的数据集以及服装编码器， MMTryon设计了多参考图像注意力模块和多模态图文注意力模块，其中多参考图图像注…

应用落地和展望

MMTryon是一个新颖而强大的虚拟试穿框架，能够根据文本和多件服装参考图自由生成具有逼真试穿效果的高保真虚拟换装结果。为了解决组合换装数据获取成本高的问题，研究团队设计了预训练的服装编码器以及增强的数据构建链路，为了消除对高精度分割网络的依赖，MMTryon 设计了text query loss 使得推理无需依赖服装分割模型，可以利用文本锁定用户指定的服装区域。为了支持组合式换装以及多样的试穿风格，MMTryon 引入了多模态指令注意力和多参考注意力模块，在开源的vton测试集和in the wild复杂场景测试集下进行的实验证明了 MMTryon 与现有方法相比具有更加优越的合成效果。

团队介绍

智能创作团队是字节跳动AI&多媒体技术团队，通过建设领先的计算机视觉、音视频编辑、特效处理等技术，支持抖音、剪映、头条等公司内众多产品线；同时为外部ToB合作伙伴提供业界前沿的智能创作能力与行业解决方案。其中，智能生成方向专注于建设行业领先的智能生成技术，丰富智能创作内容生态。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

当你处在一个激烈竞争的市场环境当中的时候，你需要使让自己的业务的效率比你的同行更高、成本比你的同行…

01

02

03

04

05

我们坚定地相信，AI不是人类的竞争对手，构建和应用人工智能技术是为了满足人的需求，增强人的能力，让人类的生活更美好。

01. 1分钟项目速览

02. 团队协同一致的理念追求

链接

分类

最新文章

归档

标签

订阅更新