GPTNB · AI资讯与技术分享站

2024-09-30发表2025-03-21更新 ByteAILab 23 分钟读完 (大约3403个字)

一家市值400亿的电商平台，正遭遇AI“入侵”

2005年，美国纽约布鲁克林的一间公寓里，三个年轻人正凑在一起商量创业计划。

为首的青年名叫Robert Kalin，前一年刚拿到纽约大学的艺术学士学位，他的父亲是位职业木匠，从小耳濡目染的他则成为了一名业余木匠。

此前，Kalin曾用橡木和透明板制作出了一种可透视的电脑机箱，这种可以看到电脑主机构造的电脑机箱在当时并不常见，Kalin在网络上始终找不到适合销售这种创意手作机箱的平台。

于是，灵光在他的脑海中闪现：为什么不创造一个专门用来交易手工艺品的线上平台呢？

Kalin立马喊来自己的朋友Chris Maguire和Haim Schoppik，在三个人的努力之下，2005年6月18日，电商平台Etsy诞生了。

尽管当时的美国已经有亚马逊、eBay等电子商务巨头在前，但Etsy深耕于手工艺品的垂类市场，鲜明的特色帮助其站稳了脚跟。

这家平台在最初的10年里，为大量手工艺人提供了线上销售的空间与赚钱的机会，手工艺人们也支撑起了Etsy最初的盈利。2015年，Etsy在美国上市时，估值已经增长至18亿美元。

如今，又将近10年过去，Etsy早已成为许多美国人购买礼物时的首选平台。

截至9月26日盘后，Etsy的市值已高达63.97亿美元，折合人民币约448.5亿。但一些变化，正在发生：近两年，随着AIGC工具的普及，Etsy上出现了大量由AI生成的虚拟产品。

当一个手工艺品交易平台，开始被AI生成的内容所抢占，这意味着什么？

虚拟产品“入侵”

如果你是一个对跨境电商感兴趣，或是想要开发副业的人，最近也许会在社交平台上频繁刷到这样的内容：北美副业，0成本在Etsy上售卖虚拟产品。

如果往前追溯，你会发现国外的视频平台YouTube上，一年多前就有类似的视频出现。美国的创业导师们更早嗅到机会，有着83万订阅者的Joshua Mayo就是其中之一。

Joshua制作了许多关于如何开展副业、如何在30岁前成为百万富翁的视频。在一个题为“你可以用AI生成的6种商品”的视频里，他列出了剪贴画、虚拟背景、数字贺卡、婚礼请柬模版、产品模型、涂鸦画这六类已经有人在Etsy平台上销售并取得高收益的虚拟产品。

Joshua语气坚定地告诉他的粉丝，只需要用Midjourney花几秒时间生成图片，然后在Etsy店铺中售卖这些产品，每个月就可能获得29540美元的额外收入。他认为，AI是帮助普通人进入百万美元市场的一种方式：“你甚至可以直接在ChatGPT中要求AI为你提供10种在Etsy上销售产品的思路，AI会为你列出可行的商品清单。”

当消息流传到国内，社交平台上流传的副业教程里，内容变得更为详尽。从如何注册Etsy店铺，到如何确定商品类目，再到如何完善SEO，面对一个在国内商家看来相对小众的销售渠道，人们对于其可能带来的经济回报寄予了更高的期望。

更为关键的是，AI生成虚拟商品的过程几乎可以视为毫无成本，消费者购买后可以直接下载PDF文件，商家无需支付物流费用，即便扣除掉平台收取的交易费用，虚拟商品的利润率也能达到70%以上。

对于一心只想赚钱的商人而言，这个数字很难不让人心动，Etsy也逐渐被虚拟产品大范围“入侵”。

打开Etsy平台，在搜索栏输入“AI”，便能看到所有由AI生成的虚拟产品，其中大多是通过“文生图大模型”创造出的个性化图片，比如动漫版宠物形象、包含大量拼贴图案的素材包、私人定制的AI虚拟头像等等。

大部分虚拟商品的定价在1美元至20美元的区间内，但也不排除部分融合了客户定制化需求的虚拟商品，甚至可以卖到90美元左右，要知道Midjourney最贵的专业版会员费用是每月60美元。

在诸多AI生成的虚拟产品中，商品详情里明确标注“AI”关键词的算是有良心的商家；有些商家为了卖出更好的价钱和销量，会选择隐瞒；还有些商家身处虚拟产品的浪潮下，扮演着在淘金热时期兜售铲子的角色。

有段时间，Etsy上教别人使用AI生成虚拟产品的PDF教程卖得也十分红火，“5000个终极ChatGPT提示词”“800个AI生成艺术品提示词”等文档产品层出不穷。

Steven Hornyak的本职工作是一名教师，他从去年开始利用空闲时间在Etsy上销售虚拟产品，主要是出售整理成文档的ChatGPT和Midjourney提示词。在接受外媒采访时，Steven透露这项副业一天就能给他带去300美元的额外收入。

如果就此打住，不再去了解Etsy平台的源起，单凭国内社交网站上流传的信息，人们很容易以为这是一个AI风口下刚刚声名鹊起的贸易平台，商家成功在Etsy上靠虚拟产品获利的故事也会被归为“新时代的发财机遇”。

而一旦你知道了Etsy一贯的宣言是“为爱好手工制品的人提供交易和交流场所”，它曾是独立手工艺品制作者和古董收藏家们的天堂，故事的另一面开始浮现。

AI与Handmade之战

时隔多年再次登录Etsy，曾经的商家Hall被眼前的景象震惊了。

Etsy的网页上已经充斥着虚拟产品，与AI生成内容相关的店铺超过2000多家，他甚至怀疑自己是否登错了网站。

在社交论坛Reddit上，Hall发布了一封标题为“Etsy应该尽快封禁AI”的帖子，控诉AI如何抢占了自己的生意。

大约15年前，Hall曾在Etsy上售卖原创插图和衬衫，销售成绩还算不错。但是Hall找到一份耗时较长的全职工作后，便放弃了自己在Etsy上的电商事业。如今15年过去，Hall再次拥有了充足的空闲时间，尝试继续在Etsy上销售自己的原创艺术品。

他花了3天时间设计并展示自己的原创商品，希望能在圣诞节前收到50份订单，却发现自己的原创画作被湮没在了大量虚拟产品的洪流中：“不是每个消费者都能在‘噪音’中发现这些原创商品。”

在单一平台有限的自然流量池里，AIGC商品受到热捧的同时，传统手工艺品创造者的生存空间势必会受到挤压。

受冲击最大的自然是原本就在Etsy上出售手绘图画的卖家。当AI生图能够以最快的速度交付作品、以最低的价格完成交易，自2023年底开始大量原创画作的销售额持续下降。Jane从大学起就在Etsy上卖画，因为曾经的销量很好，她在毕业后把经营Etsy店铺当做自己的全职工作，然而近两年她的店铺销售额已经下降了超过50%。

收入的下降迫使手工艺品创作者们向其他平台迁移，比如亚马逊、Wix、SquareSpace、Instagram、Pinterest等等。

但更内核的问题是，卖家们收入下降可以选择换个平台重新开始，可是手工艺品爱好者们在Etsy上失去的情怀，该如何弥补？

AI与画师之间的矛盾与竞争早已不是新鲜话题，害怕AICG威胁到自己的饭碗也是全世界画师共同的担忧。可是Etsy令人更心寒、更难以接受的点在于——难道连原本为了手作艺术家们而生的平台，也无法当做AI时代的最后一块自留地了吗？

随着AI入侵Etsy，平台原本的生态与信念遭到破坏，“原住民”们感到刺痛。

“Handmade”一度是Etsy最重要也最鲜明的标签，平台上的手作人们，利用自己的双手将脑海中的灵感塑造为实体，而在AI生成虚拟产品的过程中，人类双手的参与程度究竟有多少呢？

AI生成的艺术品能否看作是卖家的原创设计呢？如果廉价的AI生成艺术品泛滥成灾，那饱含人类手工温度的原创作品难道就活该在激烈的电商竞争中变得边缘化吗？

不断有卖家以及手工爱好者在Etsy的论坛上发问，两股对抗的声音愈发清晰。

Handmade守卫者：AI生成的虚拟艺术品在高效、便捷地满足消费者需求的同时，丧失了手作的真诚与情感。手作创作者们在用真心与时间赋予商品独一无二的灵魂，利用AIGC辅助生成产品简直是一种“作弊”。

AIGC拥护者：AI生成产品的过程同样离不开人们输入关键词，如果想生成一个令人眼前一亮的设计，人们也得在不断地输入与调整之间，融入自己的思考与审美。AI只是工具，如果它能够帮助人们更快地把头脑中的创意变成商品，又有何不可。

争论不休的关键在于，如果Handmade的商品里，人类的创造浓度是100%；那么卖家利用AI生成的虚拟产品中，属于人类创造的部分究竟占据多少比重？这本身就是一个很难量化的指标，自然也无法商讨出怎样才是合理的判定标准。

但不管怎样，Etsy的卖家们起码达成了一个共识：平台应该为此做出反应。

AI与Handmade之战

时隔多年再次登录Etsy，曾经的商家Hall被眼前的景象震惊了。

Etsy的网页上已经充斥着虚拟产品，与AI生成内容相关的店铺超过2000多家，他甚至怀疑自己是否登错了网站。

在社交论坛Reddit上，Hall发布了一封标题为“Etsy应该尽快封禁AI”的帖子，控诉AI如何抢占了自己的生意。

在单一平台有限的自然流量池里，AIGC商品受到热捧的同时，传统手工艺品创造者的生存空间势必会受到挤压。

受冲击最大的自然是原本就在Etsy上出售手绘图画的卖家。当AI生图能够以最快的速度交付作品、以最低的价格完成交易，自2023年底开始大量原创画作的销售额持续下降。Jane从大学起就在Etsy上卖画，因为曾经的销量很好，她在毕业后把经营Etsy

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-30发表2025-03-21更新 ByteAILab 22 分钟读完 (大约3336个字)

AI视频新战场：字节对决快手、反击Sora

一场由Sora引发的AI视频生成竞赛，如今迎来新的竞争者！
9月24日，2024火山引擎AI创新巡展深圳站上，字节跳动的两款AI视频模型—豆包视频生成-PixelDance、豆包视频生成-Seaweed发布，并面向企业市场开启邀测。
距离Sora已经横空出世已经超过7个月，这段时间国产视频大模型的发布此起彼伏，围剿Sora在商业语境中似乎成为参与玩家的共有使命。

字节在七个月之后，才选择正式蹚入这条沸腾之河，而此时在其面前，不止有Sora，一众国产大模型弄潮儿，还有一个抖音眼熟的名字—快手。
老对手，新领域，可灵AI的影响力正在被加速释放，在这一点上，字节如坐针毡，毕竟强如Sora，仍是外敌，而快手AI，早已杀到城下。
追逐使命还是修筑护城河，囊外还是安内，答案藏在视频大模型里—字节不做选择题。

Part.1

字节杀入，Sora遭遇围堵

无论战局多么复杂，源头都能追溯到Sora。
2024年2月，OpenAI公布的Sora AI视频生成模型成为全世界的焦点，凭借提供提示词描述或者静态图片，Sora就能生成超高画质、质感直逼电影的画面，最高能达到1分钟视频的体量，直接震撼了国产大模型行业。

随后，国产厂商集体发力视频大模型，才有围堵Sora的大趋势。《生成式AI商业落地白皮书》显示，当前有53%的中国企业已开始有组织地进行生成式AI布局。这意味着，很多中国企业已意识到生成式AI技术对于自身发展的重要性，并将在其中投入资源和精力。而自今年5月起，国内达到类Sora级别的 AI 视频模型技术陆续公布，生数、智象未来（HiDream.ai）等腰部企业轮番登场，智谱AI推出视频生成模型“清影”、爱诗科技发布视频生成产品PixVerse V2、生数科技上线视频生成模型Vidu扎堆七月亮相，整个赛道热闹非凡。

但一众视频大模型追赶Sora的过程，有一家的产品可谓一鸣惊人，它就是6月6日开启邀测的快手可灵 AI 视频生成模型。
快手可灵刚一推出，就凭借参数博得了市场的关注：视频分辨率高达1080p，时长最高可达2分钟（帧率30fps），单次文生视频时长已增至10秒，指标全部位于业绩前列。

工具从来都是辅助，而快手可灵俘获用户的速度之快，让人始料不及。在快手光合创作者大会上，官方透露的数据为：超过 160 万人使用过快手的视频生成大模型可灵AI，累计生成超 1600 万条视频。

口碑、热度、性能俱佳，可灵AI成为目前国内排名最高的视频生成类AI应用，自然是水到渠成。

对手收获掌声，字节五味杂陈。实际上，字节在AI大模型的布局比快手还早。2023年8月，该公司上线首个大语言模型“豆包”及多模态大模型BuboGPT。其抖音云雀大模型通过首批《生成式人工智能服务管理暂行办法》备案，面向公众开放；字节跳动基础模型发力语言和图像两种模态方向。而在AI应用层，字节跳动不仅已去年11月成立新AI部门Flow，还已推出三款AI对话类产品，包括豆包、扣子和Cici。

但是，需要注意的是，字节AI产品对平台内容的加持是否得到市场认可，还需要进一步验证，而在B站等内容平台中，用AI二创视频已经成为赛道，同时也降低了创作者门槛，为平台扩充内容提供了有力支撑。

抖快之争向来是短视频赛道的焦点，而当对手手握超级武器后，字节自然如坐针毡，本次隆重推出的两款视频模型，既是与Sora一争高下，更是与快手的军备竞赛，攘外安内的字节，接下来势必动作频频。

Part.2

不拼参数拼场景，谁来买单？

当前，视频大模型最能直观打动人，就是参数，但本次字节推出视频大模型，却反其道而行之，到目前为止字节仍未透露两款产品可以生成的最大时间长度。

如此重要的内容没有公布，原因可能只有一个：还有其他更重要的东西需要被市场了解。字节相关人士在介绍本次模型的特点时，多次强调其为多场景而生，其中三个核心功能更是颇为惊艳。

精准语义理解上，豆包AI视频生成能够遵从复杂的用户提示词，形成多个主体、人、物之间的互动画面。

画面展现上，豆包AI视频具有逼真的动态与丝滑的运镜，并具备变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力，灵活控制视角，同时保持主体、风格和氛围的一致性。

画质上，大模型支持包括黑白、3D 动画、2D 动画、国画等多种风格，包含1:1、3:4、4:3、16:9、9:16、21:9 六个比例，适配于各种终端，以及电影、手机竖屏等不同画幅，质感优秀，格调出众。
实际上，豆包视频大模型在多场景上的发力，也正是字节大模型商业化的设计构想，电商、城市文旅、音乐 MV、微电影、短剧等应用场景，都是豆包·视频生成模型助力客户实现降本提效和创意合规的主战场。
可以说，豆包视频大模型聚焦To B业务的商业逻辑十分清晰，而下一步则是依靠价格杀出重围。早在今年 5 月，火山引擎推出的豆包大模型把价格降至最低每千 token 低于一厘钱，比行业便宜99.3%，燃起了大模型厂商的价格战。

字节视频大模型相关人士曾透露当下价格与市场份额之间的关系：价格降十分之一，量就可能涨十倍。这种量价关系下，对于先期获得市场的大模型厂商来说，势必要跟进低价策略。
以豆包语言模型为例，据官方披露，截至 9 月，豆包语言模型的日均 tokens 使用量超过 1.3 万亿，多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。
这就是低价的魔力，但需要注意的是，惨烈的价格战中，各方拿出手的基本是偏轻量化的模型版本，压箱底的高性能模型并没有参与，这多少说明了大模型厂商的态度：给点甜头尝尝，但要好的，得买单。
B端会不会为豆包视频大模型买单，还需要观察。但从以往大模型的落地来看，B端市场的需求适配用时并不会太短，而降本增效的核心诉求如何满足，考验的不仅是厂商大模型的能力，更是用户自身对业务逻辑梳理打磨的能力。换言之，大模型这份收入，很难挣。

Part.3

AI驱动，打破版权壁垒

抖音的长视频野望，可以靠AI视频大模型内容生成来作为支撑。
随着流量进入存量周期，短视频平台用内容留存用户，成了当务之急，2018年短视频用户规模增长率为107.0%，2020迅速降低到15.2%，而抖音DAU破6亿后，出现了增长放缓的态势。
老对手快手的情况更为明显，据快手2024年一季度财报显示，快手实际月活人数为6.97亿，较上一季度环比下降0.4%，呈现流失趋势，二季度平均月活为6.92亿，再次下探。

这可能才是视频大模型最需要解决的问题：内容创作赋能，保住用户规模基本盘。
在豆包视频大模型发布前，《山海奇镜之劈波斩浪》和《三星堆：未来启示录》就是抖音和快手在AI内容领域的官方尝试，前者属于AI科幻短剧，后者则是AI奇幻短剧。
官方作品具有引导意义，但要想撬动更多内容创作者加入赛道，还需要更多行动。

不过，AI内容创作这一点上，抖音与快手态度趋同：鼓励，但反对低质。今年6月，快手电商发布了使用AIGC能力直播的倡议公告，鼓励商家/达人和老铁们进行良好互动，但明确了流量不会倾斜，避免低质内容。来到9 月 8 日，抖音则公布了关于“发布特定内容需主动添加标识”的公告，鼓励创作者尊重事实、发布客观真实信息，同时对于特定信息，应以“内容标识”的形式提供充分的说明，降低用户的理解成本。
但事实上，创作者和用户显然更关注AI创作带来的娱乐性，“容嬷嬷喂紫薇吃香肠”“唐僧啃鸡腿、吃汉堡”“悟空掏手枪”“尔康失态”等无脑爆改短视频风靡全网，以脑洞、爆笑等元素获得了粉丝的关注，抖音上，相关话题“当AI扩图卷土重来”登上热榜，截至目前共有3.9亿次播放。

对于抖音来说，这是个不错的开始，内容拓展后，粉丝粘性提高、收入提升、制作成本下降，都是AI视频大模型带来的优势，当然抖音更大的期待，还包括规避版权费风险。

两年前，爱奇艺、优酷、腾讯视频等长视频平台，70多家影视机构、数百名艺人先后两次公开发布“联合声明”，呼吁短视频平台和公众账号生产运营者尊重原创、保护版权，强调未经授权，不得使用影视作品侵权创作，这份声明中明确指出将对侵权行为依法追责。矛头直指抖音等短视频巨头。随后，抖音与腾讯更是因《云南虫谷》和《亮剑》等作品，互告对方侵权。
和解发生在短剧爆火后，长短视频巨头为了进军新市场握手言和，互相借助优势成为新趋势。但从长远看，抖音短视频二创还依赖原创视频素材，风险并未化解，而随着AIGC内容的开启，抖音在版权侧至少可以安心落地，二创的素材库也更加丰富安全，确实是抖音乐得所见。
从这个角度看，字节的视频大模型确实任重而道远了。

参考资料：
1、《快手盖坤：可灵AI已生成视频超1600万条，用户超160万人》，新京报
2、《抖音快手激战人工智能大模型》，亿邦动力
3、《豆包进击，字节版Sora“虽迟但到” 火山引擎总裁谭待：一落地就开始考虑商业化》，每日经济新闻
4、《AI生成视频，究竟有多

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-30发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1218个字)

苹果反水：OpenAI的1500亿「史上最大」融资轮，难了

在 OpenAI，高层变动正在成为一种传统。
在不到两年的时间里，OpenAI 从一个 AI 圈内领先的实验室，发展成为一家全球知名的企业。

在首席执行官山姆・奥特曼（Sam Altman）被罢免并迅速复职不到一年后，今年 9 月，三位高层领导突然宣布辞职。
一个摆在台面上的问题是：这次宫斗的时间点，就在 OpenAI 即将完成可能是硅谷史上最大一轮融资的同一周。
本周，OpenAI 首席技术官 Mira Murati、首席研究官 Bob McGrew 和 Post Training 研究副总裁 Barret Zoph 纷纷宣布将离开公司。对于 OpenAI 杰出的技术领导层来说，这是一个令人震惊的转变。
就在 Murati 离职之前，OpenAI 联合创始人 John Schulman 于 8 月宣布他将离开 OpenAI，前往竞争对手 Anthropic 工作。
而在 Murati 宣布辞职的同一天，路透社报道称，OpenAI 正在努力改变其公司结构，成为一家面向盈利的公司，不再受公司非营利部门的控制。然而这次转型的过程可能并不顺利。
最新的消息是：这最新一轮 65 亿美元的融资，苹果已经决定不跟了。
在这个时间点收手，参与者和投资金额都会可能会发生变化。
大规模融资遇险，风投要「用脚投票」
有现任和前任员工表示，OpenAI 仓促地发布了产品并进行安全测试，业已失去对竞争对手的领先优势。他们表示，奥特曼在很大程度上脱离了日常工作：一直以来都有报道称，他飞遍全球推广人工智能，并计划筹集巨额资金来建造 AI 芯片产业链和数据中心。
正如奥特曼所描述的，自他回归以来，OpenAI 已经逐渐发展成为一家更加正常的公司。其员工人数从去年 11 月的 770 人增至 1700 人，今年也任命了首位首席财务官和首席产品官。它在董事会中增加了具有企业和军事背景的人。该公司正在寻求从微软、苹果和英伟达等支持者那里筹集 65 亿美元资金。
OpenAI 越来越专注于构建其产品，一些长期任职的 OpenAI 员工表示，这些产品的重点不再是纯粹的研究。
CTO Mira Murati 是从 OpenAI 离开的又一位高管。
公司中的一些人表示，由于开发和运营 AI 大模型需要数十亿美元，OpenAI 必须要转型发展才能实现财务可持续性。他们认为，人工智能需要走出实验室，走向世界，进而改变人们的生活。
但也有很多人，包括长期以来在公司工作的科学家们认为，高额融资和巨额盈利的前景已经破坏了 OpenAI 的文化。
人们都认同的一件事是 —— 在当前组织结构内维持以 AGI 使命为中心的研究，和快速增长的业务之间存在矛盾。
「我们很难同时做到这两点 —— 产品至上的文化与研究文化截然不同，」OpenAI 的早期员工、现任 AI 初创公司 Cresta 首席技术官的 Tim Shi 说。「你必须吸引不同类型的人才，也许你在建立的是一家与众不同的公司。」
本周事件发生时，奥特曼一直在都灵参加意大利科技周（Italian Tech Week）。在周四的一次炉边谈话中，他否认员工离职与重组计划有关，并表示：「我认为这对所有人来说都是一次伟大的转型，希望 OpenAI 会因此变得更加强大，就像我们经历所有转型一样。」
OpenAI 的首席财务官周四致信投资者，称该公司有望在下周完成融资，并将在随后举行一系列电话会议，向投资者介绍其产品和研究团队的主要领导人。
OpenAI 正在专注于持续改进 ChatGPT 等产品，并已取得了初步成果。根据纽约时报昨天获取的内部文件，其在 8 月份的收入达到了 3 亿美元，自 2023 年初…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-30发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1124个字)

大模型最大的落地场景出现了｜2024数字开物大会成功举办

9月27日，以“探索AI边界重构数字场景”为主题的2024数字开物大会在北京国家信息技术应用创新产业园成功举办。本次大会由中关村产业技术联盟联合会、中国通信工业协会数据中心委员会、中国信息协会集团企业数字化工作委员会主办，中关村融智特种机器人产业联盟、数字开物、大健康派、北京首科集团有限公司承办。

本次大会与中国科学技术协会企业创新服务中心、北京经济技术开发区管理委员会主办、数字开物协办的“2024产学研融通创新活动”在国家信息技术应用创新产业园同期举办。

活动现场，来自中国信通院、清华大学、中关村融智特种机器人产业联盟、北京机械工程学会、中国建筑集团、中国能源建设集团、国家电投集团、中国中纺集团、中国电子云、正大集团、腾飞资本、大陆智源机器人、珞石（山东）机器人、伽利略（天津）技术、思必驰、智維引擎科技的众多机构领导和企业高管出席本次活动并进行了精彩分享，更有数百位来自全国各大科研机构院校、产业以及科技领域的领导、高管及研发部门负责人共同见证了当前AI及大模型在产业中的最新应用进展，以央企为代表的产业数字化领域可能正在成为当前AI大模型的最大落地场景。

交互式的智能体将促进自动驾驶与机器人的协同发展

在主题演讲环节，清华大学计算机系长聘教授、中国自动化学会会士邓志东为参会嘉宾带来《智能体在自动驾驶与机器人中的协同进化》分享。邓教授认为，在模仿学习的基础之上，利用深度强化学习，使最终获得的端到端多模态智能体，进一步助力自动驾驶与人形机器人的产业化发展与协同进化。

邓志东教授在演讲中聚焦于智能体在自动驾驶与机器人中的协同进化，他提出了端到端一体化具身解决方案新范式的重要性。这一新范式通过与通用多模态大模型结合，能够更好地模拟和学习真实世界物体间的相互关系及物理规律，从而提升自动驾驶系统的环境适应能力和自主性，推动L2++的NOA向更加泛化的L3/L4级别迈进。邓教授还强调了基于现有开源大模型（如Llama3.0）进行微调的优势，这种方法不仅减少了对大规模预训练数据和算力的需求，而且可以针对特定任务（如具身理解、推理和动作生成）实现高效的优化。此外，邓教授指出，交互式的智能体将促进自动驾驶与机器人的协同发展，借助高质量的多模态混杂训练数据集以及深度强化学习等技术手段，有望在未来实现接近甚至超越人类水平的复杂逻辑推理能力。

实时数据对于AI大模型的即时决策至关重要

大会现场，中国建筑集团有限公司信息化管理部副总经理杨富春先生进行了题为《AI大模型在建筑业的应用研究与探索》的主题演讲。

杨富春表示，垂直行业将是AI大模型的主战场，建筑行业AI大模型是针对建筑行业特定任务或场景的大模型，通常使用任务相关的数据进行预训练或调优，以提高…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-30发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1456个字)

从数据增强的隐藏作用出发，揭示视觉强化学习可塑性损失的独特机制

Sutton 等研究人员近期在《Nature》上发表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一个重要发现：在持续学习环境中，标准深度学习方法的表现竟不及浅层网络。研究指出，这一现象的主要原因是 “可塑性损失”（Plasticity Loss）：深度神经网络在面对非平稳的训练目标持续更新时，会逐渐丧失从新数据中学习的能力。

深度强化学习任务中的神经网络实际上面临着更为严峻的可塑性损失问题。这源于强化学习智能体必须通过与环境的持续互动来不断调整其策略，使得非平稳的数据流和优化目标成为深度强化学习范式中的固有特征。值得注意的是，即使在单任务强化学习中，在线数据收集和策略更新也会导致数据分布和优化目标持续动态变化。因此，严重的可塑性损失已然成为制约深度强化学习算法样本利用效率的关键瓶颈。

要突破视觉强化学习样本利用效率低下这一瓶颈，关键在于深入解构深度强化学习中神经网络可塑性损失的细节，从而明确问题的根源。针对这一挑战，来自清华大学、悉尼大学、华盛顿大学、京东探索研究院和南洋理工大学的研究人员展开了一项全面而深入的研究。他们选取视觉强化学习任务作为深度强化学习的典型代表，创新性地从数据、模块和训练阶段三个关键角度对神经网络的可塑性损失特征进行分析。

论文链接：https://arxiv.org/abs/2310.07418
代码链接：https://github.com/Guozheng-Ma/Adaptive-Replay-Ratio

这项研究不仅解释了视觉强化学习中一些此前难以理解的反常现象，还揭示了一系列与直觉相悖的有趣结论。该研究成果已在 ICLR 2024 上发表，本文将对其中一系列引人深思的发现进行进一步梳理和总结。其中最核心的要点可概括如下：

揭示了数据增强的作用机制：简单的数据增强能够显著提升视觉强化学习的样本利用效率，其效果令人瞩目。在自动驾驶任务 CARLA 中，引入数据增强将性能提高至基准的 235%。更令人惊讶的是，在 DeepMind Control suite 的 9 种机器人控制任务中，数据增强平均将性能提升至基准的 431%。然而，尽管这些惊人的效果早已被观察到，但数据增强为何能带来如此显著的性能提升一直是一个未解之谜。该研究的突破性发现揭示了视觉强化学习中数据增强背后的作用机制：它能直接有效地缓解训练过程中的可塑性损失。
明确了样本利用效率的关键瓶颈：过去多年，学界普遍认为导致视觉强化学习样本利用效率低下的主要瓶颈在于训练视觉表征器的难度。然而，这项研究通过一系列巧妙的实验，颠覆了这…
fadeInOutAge 概述Fade InOut描述了一个Android库的特性，该库用于实现淡入淡出动画效果。淡入效果通常用于将UI元素逐渐显示给用户，而淡出效果则常用于逐渐隐藏UI元素。使用Fade InOut库，开发者可以轻松实现这些常见的UI动画效果，从而提升应用的用户体验。Fade InOut利用Android系统自带的动画工具来实现这些效果，同时提供了简单易用的API接口，方便开发者在应用中集成淡入淡出动画。Fade InOut不仅支持各种UI元素的淡入淡出效果，还可以自定义动画持续时间、延迟时间、插值器等参数，以满足不同应用场景的需求。Fade InOut库的轻量级设计和丰富的功能使其成为Android应用开发中不可或缺的工具之一。Fade InOut库的简单灵活特性使其适用于各种Android应用，无论是简单的应用还是复杂的界面交互，都可以通过Fade InOut轻松实现丰富的淡入淡出动画效果。Fade InOut的高度可定制性和易用性为开发者提供了更多自由度，帮助他们创建出更加吸引人的用户界面。Fade InOut是一个很好的Android库例子，展示了如何利用Android系统提供的动画工具，快速实现常见UI动画效果。Fade InOut的开源性也使得开发者可以自由定制和扩展库中提供的动画效果，进一步满足个性化的需求，提升用户体验。Fade InOut库是一个实用的工具，为Android应用的界面设计和动画效果增添了更多可能性，值得开发者们尝试和使用。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-30发表2025-03-21更新 ByteAILab 9 分钟读完 (大约1351个字)

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

近日，中国电信人工智能研究院（TeleAI）成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型（万卡万参），并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。

这是由中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授带领团队完成的又一项里程碑式的重要科研成果，标志着国产大模型训练真正实现全国产化替代，正式进入全国产自主创新、安全可控的新阶段。

TeleChat2-115B 基于中国电信自研的天翼云“息壤一体化智算服务平台”和人工智能公司“星海 AI 平台”训练完成，在保证训练精度的前提下利用多种优化手段提升模型训练效率和稳定性，实现了 GPU 同等算力计算效率的 93% 以上，同时模型有效训练时长占比达到 98% 以上。

TeleChat-52B在OpenCampass推理榜单排名第一

在今年5月的 OpenCampass 测试榜单中，TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本，TeleChat2-115B 在9月最新公布的 C-Eval 评测 Open Access 模型综合榜单中，以 86.9 分的成绩排名第一。其通用能力较 TeleChat 系列模型提升近 30%，特别是在工具使用、逻辑推理、数学计算、代码生成和长文写作等方面能力均有大幅提升。

TeleChat2-115B在C-Eval的Open Access模型综合榜单排名第一

TeleChat2在模型训练与数据构建方面的研究经验

针对超大参数模型训练，TeleAI 采用了大量小模型进行 Scaling，进而验证不同模型结构的有效性。同时，在数据配比方面，基于小模型实验结果反馈，采用回归预测模型，得到较优数据配比。

基于以上策略，能够大幅提升大参数模型最优方案的搜寻效率。另外，在后训练退火阶段，TeleAI 通过大量实验验证探索到了退火最佳数据量和最佳配比，以及学习率变化方式等，进一步提升了模型训练效果。

在 Post-Training（后训练）方面，TeleAI 首先针对数学、代码和逻辑推理等内容合成了大量问答数据，用于 SFT（监督式微调）第一阶段模型训练。其次采用迭代式更新策略，使用模型对 Prompt（提示词）数据进行指令复杂性提升与多样性扩充，通过模型合成和人工标注提升答案质量，并利用拒绝采样获取优质 SFT 数据及 RM（奖励模型）代表性数据，用于 SFT 训练和 DPO（偏好对齐）训练，以及模型效果迭代。

TeleAI自研语义大模型获多项权威赛事第一名

连获中国计算语言学大会（CCL2024）挑战赛两项冠军：TeleAI 在 CCL2024 大会上获得中文空间语义理解评测和古文历史事件类型抽取评测两项第一名。其中，在古文历史事件类型抽取评测任务挑战赛中，更是在所有子任务均取得第一名的情况下获得了综合排名第一。

NLPCC2024 中文议论文挖掘（Shared Task5）挑战赛冠军：TeleAI语义团队基于上下文学习策略对大模型进行优化，通过利用从粗粒度到细粒度的 Prompt 设计、多模型的投票机制等手段，进一步提高了模型准确率和鲁棒性，最终以领先第二名将近 3 分的绝对优势排名第一。

开源共享，引领创新

TeleChat2-115B 的开源标志着大模型国产化迈进了又一个新征程。作为最早布局并首先开源大模型的央企机构，TeleAI 积极通过开源推动大模型技术的不断进步，并持续推动和引领技术创新向产业落地快速跃迁。

开源地址：

GitHub：https://github.com/Tele-AI/TeleChat2
Gitee：https://gitee.com/Tele-AI/tele-chat2
Modescope：https://modelscope.cn/models/TeleAI/TeleChat2-115B
Modelers：https://modelers.cn/models/TeleAI/TeleChat2-115B

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-29发表2025-03-21更新 ByteAILab 3 分钟读完 (大约399个字)

扎克伯格奥古斯都：Meta的皇帝以全新形象重新打造

2024年9月29日

Mark Zuckerberg正在通过新的服装改头换面。

在最近的一系列亮眼亮相中，他传达了自己曾经到来、看到、征服并将再次以任何代价取得胜利的信息。他的打扮可能很酷，但我们最好警惕起来。在上周的一次现场座无虚席的播客采访中，Meta的CEO穿着一件下垂的黑色衬衫，上面写着“pathei mathos”，希腊语意为“通过苦难学习”。在5月份的40岁生日派对上，他穿着一件印有拉丁文格言“Carthago delenda est”的黑色T恤，“Carthago delenda est”意为“迦太基必须被摧毁”。在本周Meta的Connect产品演示中，他穿着一件有黑色文字的黑色衬衫，上面写着“Aut Zuck aut nihil”。这些短语共同展示了他在古代政治演变中的紧凑进化过程。首先是古希腊人，然后是罗马共和国的早期，最后是罗马帝国的完全无情的荣耀。

（以上内容未完，仅供参考）

请注意：Title、Date、Body 三个部分的内容已被放入对应位置，Title 部分内容已翻译为中文。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-29发表2025-03-21更新 ByteAILab 6 分钟读完 (大约900个字)

Komodo Health欢迎Daniel Brox担任分析咨询总经理

行业资深专家，来自ZS Associates，将领导Komodo在分析咨询领域的企业级增长
医疗科技公司Komodo Health今日宣布任命Daniel Brox为其新任分析咨询总经理。{ width=60% }

Daniel在ZS Associates拥有超过22年的经验，以及丰富的客户端经验，他在推动生命科学行业增长、战略和影响方面拥有丰富的专业知识。在Komodo的新职位上，Daniel将与公司的高管团队密切合作，领导分析咨询能力的下一阶段增长，重点放在扩大Komodo的市场存在和增强客户参与度上。
Daniel将负责推动分析咨询团队的市场推广策略，以帮助确保为客户成功交付创新、影响和体验，同时最大化增长。凭借其在管理各种生物科技客户组合方面的深厚专业知识，Daniel将帮助指导客户充分利用Komodo庞大的平台能力和服务提供，以赋予商业洞察力，加速研究，并改善他们患者人群的结果。
Komodo独特的综合现实世界洞察力、AI技术和深厚行业专业知识的融合，使公司成为寻求深化真实世界证据、并获取决策行动洞察力的领先医疗保健和生命科学团队的首选技术合作伙伴。通过Daniel的任命，Komodo加强了其对服务的数百家公司的影响力，帮助通过定制分析能力和行业专家支持优化技术投资。
“Daniel为客户驱动战略结果的能力证明了他对当今市场中生命科学公司面临的独特挑战的深刻理解，”Komodo Health联合创始人兼总裁Web Sun表示。“他的深厚行业知识、领导能力以及提升客户成功的热情将在扩大Komodo的影响力方面发挥关键作用，以向我们的客户提供创新技术和以数据驱动的解决方案。”
在ZS超过20年之后，Daniel加入了Komodo，在生命科学中担任关键的分析咨询领导。在任职期间，他领导全球业务咨询能力建设组内的5000多名顾问团队，负责为前五大制药公司、中型生物技术公司和新兴商业生物技术公司提供客户服务。除了推动客户影响和团队结果外，Daniel还致力于支持他领导的个人成长。他是一个推崇服务领导的人，以成功赞助盟友倡议和慈善举措而著称。除了ZS外，Daniel还直接在Amgen制药行业工作，包括商业分析和价值与准入营销等领域。Daniel拥有内布拉斯加大学-林肯分校数学高级荣誉学士学位。
随着Komodo Health通过其数据驱动的洞察力和AI平台重新定义医疗健康领域，Daniel加入其领导团队标志着向客户提供无与伦比的价值以及推进公司减轻疾病负担使命的重要一步。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-29发表2025-03-21更新 ByteAILab 5 分钟读完 (大约705个字)

Vuzix Eyes OEM Growth After Strategic Partnership & Investment

Vuzix® Corporation (NASDAQ: VUZI),一家领先的智能眼镜和增强现实（AR）技术供应商，今天宣布扩大了对OEM合作伙伴关系和波导制造的关注，此前它最近获得了全球ODM领军企业康宁（Quanta Computer Inc.）的战略投资。{ width=60% }

通过这一合作伙伴关系，Vuzix现在在与新客户合作开发和批量生产智能波导配置方面处于更有利的位置，这些配置从独立组件到完整的AR/AI智能眼镜解决方案涵盖了各种形式。

Vuzix的OEM设计方法围绕着为大规模智能眼镜波导制造提供一站式解决方案。通过利用公司在工业设计、机械和电气工程以及广泛的光学行业网络上的专业知识，Vuzix提供了针对每个客户需求量身定制的成本高效、尖端的解决方案。这种全面的能力吸引了寻求创新、高质量波导生产的全球技术领袖的兴趣。

Vuzix的先进波导生产设施

凭借超过25年的光学体验，Vuzix领先于先进波导设计和制造市场。总部位于纽约的生产和研究设施，Vuzix独特的制造能力可让客户加速上市时间，确保规模化的持续、质量驱动的产出。通过与客户紧密合作，Vuzix交付为关键性能属性优化的波导，包括效率、传输、前向光降低、虹色扩散和耐久性。

与其他使用标准半导体制造技术的公司不同，Vuzix采用专有工艺，实现了世界领先的具有成本竞争力的波导生产。

波导市场增长定位

“在波导方面，它们的设计和成本有效生产是消费者、企业和国防领域AI驱动智能眼镜成功的最关键因素之一。在波导方面，Vuzix在这一市场几乎独树一帜，拥有无与伦比的专业知识，”Vuzix总裁兼首席执行官Paul Travers说。“我们相信我们的竞争性技术和能力将转化为实质性的商机，推动Vuzix在未来几年的营收和利润增长。”

探索AITechPark，获取人工智能、物联网、网络安全、AITech新闻的最新进展以及行业专家见解！`.

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-29发表2025-03-21更新 ByteAILab 3 分钟读完 (大约515个字)

AMD Instinct MI300X加速器在OCI上可用，用于要求严格的AI应用

Customers including Fireworks AI are powering their AI inference and training workloads with new OCI Compute instances OCI Supercluster leads among cloud providers with support for up to 16,384 AMD Instinct MI300X GPUs in a single ultrafast network fabric AMD (NASDAQ: AMD) today announced that Oracle Cloud Infrastructure (OCI) has chosen AMD Instinct™ MI300X accelerators with ROCm™ open software to power its newest OCI Compute Supercluster instance called BM.GPU.MI300X.8. For AI models that can comprise hundreds of billions of parameters, the OCI Supercluster with AMD MI300X supports up to 16,384 GPUs in a single cluster by harnessing the same ultrafast network fabric technology used by other accelerators on OCI. Designed to run demanding AI workloads including large language model (LLM) inference and training that requires high throughput with leading memory capacity and bandwidth, these OCI bare metal instances have already been adopted by companies including Fireworks AI. “AMD Instinct MI300X and ROCm open software continue to gain momentum as trusted solutions for powering the most critical OCI AI workloads,” said Andrew Dieckmann, corporate vice president and general manager, Data Center GPU Business, AMD. “As these solutions expand further into growing AI-intensive markets, the combination will benefit OCI customers with high performance, efficiency, and greater system design flexibility.” “The inference capabilities of AMD Instinct MI300X accelerators add to OCI’s extensive selection of high-performance bare metal instances to remove the overhead of virtualized compute commonly used for AI infrastructure,” said Donald Lu, senior vice president, software development, Oracle Cloud Infrastructure. “We are excited to offer more choice for customers seeking to accelerate AI workloads at a competitive price point.” Bringing Trusted Performance and Open Choice for AI Training and Inference The AMD Instinct MI300X underwent extensive testing which was validated by OCI that underscored its AI inferencing and training capabilities for serving latency-optimal use cases, even with larger batch sizes, and the ability to fit the largest LLM models in a single node. These Instinct MI300X performance results have garnered the attention of AI model developers. Fireworks AI offers a fast platform designed to build and deploy generative AI. With over 100+ models, Fireworks AI is leveraging the benefits of performance found in OCI using AMD Instinct MI300X. “Fireworks AI helps enterprises build and deploy compound AI systems across a wide range of industries and use cases,” said Lin Qiao, CEO of Fireworks AI. “The amount of memory capacity available on the AMD Instinct MI300X and ROCm open software allows us to scale services to our customers as models continue to grow.” Explore AITechPark for the latest advancements in AI, IOT, Cybersecurity, AITech News, and insightful updates from industry experts!。{ width=60% }

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

Part.1

Part.2

Part.3

请注意：Title、Date、Body 三个部分的内容已被放入对应位置，Title 部分内容已翻译为中文。

探索AITechPark，获取人工智能、物联网、网络安全、AITech新闻的最新进展以及行业专家见解！`.

链接

分类

最新文章

归档

标签

订阅更新