AI大模型加速“上车”,万亿市场将爆发,但实际应用仍有待观察

2024北京国际汽车展览会近日落下帷幕。据官方数据显示,本届北京车展期间,117款新车型全球首发,大约有280辆全电动、油电混动、卡车等类型车辆展出,小米汽车、大众汽车、日产、芯驰科技等超过500家车厂和供应商展示其产品。


10天内共有89.2万名参观者涌入展会,其中3%是经销商。

而对于钛媒体AGI来说,本届展会最大亮点之一,就是中国 AI 大模型“上车”。

车展期间,日产汽车宣布与百度共同签署了谅解备忘录,双方将在 AI、智能汽车领域的战略合作开展可行性研究;丰田、长安、岚图、广汽等整车品牌宣布与腾讯达成合作,联合打造汽车行业大模型方案,覆盖座舱助手、营销、客服等场景;此前,商汤绝影则和小米宣布合作,将在小米SU7汽车座舱中搭载日日新大模型技术。

据钛媒体AGI不完全统计,已经有超过20家汽车品牌宣布 AI 大模型技术“上车”。

大模型“上车”概念日渐火爆,尤其很多中国 AI 公司都“突出重围”,竞逐国际品牌汽车合作。而随着智能汽车下半场悄然到来,汽车正在升级为新一代“移动智能终端”,其智能化水平的高低也成为车企在智能网联时代决胜的关键,加速大模型“上车”也成为车企突显产品智能化、打造产品差异化的新选择与新方向。

然而,在北京车展现场,钛媒体AGI编辑也发现另一个现象,就是大模型“上车”还未规模化商用,多家企业反馈均为“展示”阶段,除了简单的“语音助手”,还未能产生更大的场景和应用。有专家指出,目前大模型上车概念成份居多,具体实际应用情况还有待观察,而且大模型上车不一定能提升企业经营业绩并带来稳定利润。

IDC中国高级分析师洪婉婷对钛媒体AGI表示,智驾技术本质上是以AI为核心驱动力的复杂系统工程,其发展高度依赖于企业的技术研发底蕴、资金投入规模以及对前沿科技的敏锐捕捉与高效转化能力。而国际车企持续与国内企业在智能辅助驾驶或 AI 领域展开合作,是中国智驾技术站上世界舞台迈出的重要一步,而背后核心动力,是国内企业在AI技术上的深度布局与持续投入。

AlixPartners大中华区汽车咨询业务合伙人章一超认为,目前大模型“上车”概念成份居多,硬件方面的确正进行储备,但具体应用是否相比之前有质的突破还有待观察。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

谷歌7大模型22项AI大招轰炸!70秒视频生成、Gemini安卓合体、200万tokens上下文

文章来源:智东西
作者 | 智东西编辑部

秀杀手级AI玩法、Gemini安卓合体截胡苹果、最强TPU,谷歌2小时提了121次AI。
智东西5月15日报道,今日凌晨,在一年一度的谷歌I/O开发者大会上,谷歌干了一场AI硬仗!
时长不到2小时的开幕式期间,谷歌CEO桑达尔·皮查伊携一众谷歌高管总共提到121次“AI”。


谷歌DeepMind的联合创始人兼CEO戴密斯·哈萨比斯首次在I/O大会上发表演讲,顺序仅次于皮查伊,足见AI大模型已经成谷歌的头等大事。
在昨天OpenAI发动奇袭、推出干掉传统语音助手的旗舰模型GPT-4o后,作为“全球AI一哥+搜索一哥”的谷歌,势必得扳回一城,搏一搏谁才是AI赛道的头号“大模王”。
这次,谷歌连珠炮般甩出了22项AI大招,包括公布200万tokens超长上下文Gemini 1.5 Pro进阶版、Gemini 1.5 Flash轻量级模型、通用AI Agent、高质量文生图模型Imagen 3、AI音乐创作工具Music AI Sandbox、70秒视频生成模型Veo、首个视觉语言开放模型PaliGemma等多款模型,还剧透了下一代Gemma 2大模型。
图片来源:由GPTNB生成
Veo生成视频的部分片段:
图片来源:由GPTNB生成
其他大招包括第六代TPU、AI基础设施、AI搜索新功能、Google Workspace应用Gemini功能、Gemini Live多模态功能、Gemini定制功能、Gemini Advanced、画圈即搜功能、Gemini Nano新功能、安卓Gemini合体、AI辅助红队技术、扩展和开源SynthID文本水印等。
谷歌还展示了一系列AI系统,包括将视觉和语言转化为机器人行动的RT-2、浏览复杂虚拟3D环境的SIMA、解决奥数问题的AlphaGeometry。
发布会开场,皮查伊称目前有超150万开发人员在使用Gemini模型,谷歌拥有20亿用户的产品都在使用Gemini,谷歌推出安卓和iOS上可用的应用程序直接与Gemini互动,3个月内已有超过100万人注册尝试。
谷歌今天的诸多AI大招还有哪些精彩细节,这些技术又将如何深度影响产业,我们将带你一文看尽。
图片来源:由GPTNB生成
01.未来通用AI Agent:日常生活随时答疑解惑的超级助手


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

重磅消息!OpenAI联合创始人Ilya Sutskever官宣辞职,奥尔特曼回应:我非常难过

刚刚,一条非常重磅消息引爆全网。

北京时间5月15日7点左右,AI先驱、OpenAI联合创始人、首席科学家伊尔亚·苏茨克维(Ilya Sutskever)发推文宣布,其将离开公司。


Ilya表示,“近十年后,我决定离开 OpenAI。公司的发展轨迹堪称奇迹,我相信 OpenAI将在Sam等人的出色领导下,打造既安全又有益的 AGI。能够与大家共事是我的荣幸,我会非常想念大家。再见,感谢你们所做的一切。我很期待接下来的计划——这个项目对我个人来说意义重大,我会在适当的时候分享细节。”

图片来源:由GPTNB生成

随后,仅间隔两分钟,OpenAI CEO奥尔特曼(Sam Altman)发推文回应称,对此非常难过,如果没有他,OpenAI 就不会有今天。

图片来源:由GPTNB生成

“Ilya 和 OpenAI 即将分道扬镳。这对我来说非常难过;Ilya 无疑是我们这一代最伟大的思想家之一,是我们领域的引路人,也是我亲爱的朋友。他的才华和远见众所周知;他的热情和同情心虽然不那么为人所知,但同样重要。

如果没有他,OpenAI 就不会有今天。虽然他有自己有意义的工作要做,但我永远感激他在这里所做的一切,并致力于完成我们共同开始的使命。我很高兴这么长时间以来,我能够与如此真正非凡的天才保持密切联系,而且他如此专注于为人类创造最好的未来。

Jakub 将成为我们的新任首席科学家。Jakub 无疑是我们这一代最伟大的人才之一;我很高兴他能接过接力棒。他负责过我们许多最重要的项目,我非常有信心,他将带领我们快速安全地朝着确保 AGI 造福所有人的使命迈进。”奥尔特曼称。

OpenAI 总裁Greg Brockman则感谢Ilya,称是他和OpenAI团队一起筹集资金,保持对 AGI 使命的关注。Ilya 在帮助 OpenAI 奠定今天的基础方面发挥了关键作用。

“Ilya 是一位艺术家。他的眼光和热情极具感染力,在我刚开始的时候,他帮助我了解了这个领域。他不惧于思考直觉的逻辑结论。我们受到了 1962 年出版的《未来概况》一书的启发,该书开篇描述了错误的思维模式,正是这种思维模式导致科学家声称在灯泡、飞行和进入轨道之前不久这些壮举是不可能实现的。因此,尽管人们怀疑 AGI 是否在可预见的未来出现,但我们会仔细思考并采取行动,坚信深度学习可以带我们到达那里。任务还远未完成,Ilya 在帮助 OpenAI 奠定今天的基础方面发挥了关键作用。谢谢你所做的一切。”Greg Brockman表示。

图片来源:由GPTNB生成

据悉,Ilya Sutskever是一名加拿大计算机科学家,从五岁起就在耶路撒冷长大(他仍然会说俄语、希伯来语和英语)。然后,他移居加拿大。

Ilya从事机器学习的研究,对深度学习领域做出多项重大贡献。他与亚历克斯·克里泽夫斯基和杰弗里·辛顿是卷积神经网络AlexNet的共同发明人。他也是AlphaGo论文的众多作者之一。

2000年至2002年期间,Ilya在就读于以色列开放大学。2002年,他与家人移居加拿大,并转入多伦多大学,随后在杰弗里·辛顿的指导下获得数学学士学位(2005年)、计算机科学硕士学位(2007年)和博士学位(2012年)。

2012年毕业后,Ilya在斯坦福的吴恩达那里做了两个月的博士后。之后他回到多伦多大学,加入辛顿的新研究公司DNNResearch,这是辛顿研究小组的一个衍生产品。四个月后,在2013年3月,Google收购了DNNResearch,并聘请Ilya为Google大脑的研究科学家。

在Google大脑,Ilya与奥里奥尔·维尼亚尔斯和Quoc Viet Le合作创建了Seq2Seq学习算法。

2015年底,Ilya离开Google,成为新成立的OpenAI联合创始人。同一年,Ilya被评为2015年《麻省理工科技评论》35位35岁以下的创新者,

Ilya对于OpenAI这家公司来说非常重要,是他领导的团队研发出风靡全球的ChatGPT,因此是ChatGPT背后的“技术英雄”,与奥尔特曼并称为“ChatGPT之父”。

与此同时,Ilya也是奥尔特曼遭遇“罢免”事件的关键人物。

去年11月,OpenAI 董事会宣布,罢免奥尔特曼的首席执行官职位,这一消息震惊全球科技领域。

在公告发出后,Greg Brockman在 X 上告知了他们当前所知道的一切,他指出,Sam 收到首席科学家 Ilya Sutskever 发来的要求周五中午沟通的短信。Sam 用 Google Meet 参加了这次会议,除了 Greg 之外,整个董事会成员都参与了这场会议。Ilya Sutskever 告诉 Sam 他将被解雇,并且消息很快就会发出。

随后,Greg 收到 Ilya Sutskever 发来的短信,要求尽快电话沟通。Ilya Sutskever则发送Google Meet 会议链接。Greg 被告知,他将被从董事会中除名(但他对公司至关重要,并将保留他的职位),而 Sam 已被解雇。大约在同一时间,OpenAI 发布了公告。

据 Greg 所知,管理团队不久后才知道这些,而临时 CEO Mira 在前一天晚上就知道了。

图片来源:由GPTNB生成

据 The Information 的报道,在 OpenAI 当天举行的全员会上,Ilya 承认员工所说的这是一场 “政变”。他表示 “你可以这么说(是政变),但我觉得这只是董事会在履行自己的职责。”

图片来源:由GPTNB生成

图:从左至右,四位联合创始人,Mira Murati (OpenAI CTO)、Sam Altman(OpenAI CEO)、Greg Brockman(OpenAI总裁)、Ilya Sutskever (此前是OpenAI 首席科学家)

尽管最终奥尔特曼重回OpenAI执掌大权,但其与Ilya两派对 OpenAI 公司发展观念的不同,这一争端一直没有解决。

实际上,随着ChatGPT 爆火,在奥尔特曼的带领下,OpenAI 加速了商业化步伐,通过追求利润来资助非营利目标,也不再开放。目前GPT-5 正在研发中,而且计划向微软和更多的投资方筹集资金。奥尔特曼认为,美国人放慢 OpenAI 的进展是愚蠢的。有消息称,去年OpenAI年化收入已经超过20亿美元。

《大西洋月刊》副主编 Ross Andersen 前不久发表的一篇关于 OpenAI 革命的特稿,就能察觉 Ilya和奥尔特曼关注点的不同。在这篇罕见的长文中,作者这样描述这位首席科学家,“有一种神秘主义者的感觉,有时会有点过头。” 去年,他声称 GPT-4 可能 “有轻微意识”,引起了一场小骚动。

图片来源:由GPTNB生成

经过半年多之后,如今,Ilya自己官宣辞职,终于将奥尔特曼罢免事件“结束”。

据悉,未来由研究总监 Jakub Pachocki 接任OpenAI首席科学家职位。自2017年以来,Jakub Pachocki一直在 OpenAI 工作,如今则成为OpenAI新任科学家。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

外媒爆马斯克 xAI 将斥资 100 亿美元租用甲骨文服务器!年底达 10 万台 H100

根据外媒最新消息,马斯克的 xAI 一直在与甲骨文高管讨论,以在未来几年斥资 100 亿美元租用服务器。
目前为止,XAI 已经是 Oracle 最大的 H100 客户,使用了超过 1.5 万个芯片。


新的 100 亿美元交易将使 xAI 成为甲骨文最大的客户之一。
上个月,马斯克在 X 上的音频聊天中表示,xAI 将需要 10 万个 H100 GPU 来训练 Grok 3.0。
目前为止,xAI 的竞争对手已经在训练和运行 AI 所需的专用服务器上花费了数十亿美元,马斯克试图迅速赶上竞争对手,计划这笔 100 亿美元交易规模与 OpenAI 以及 Anthropic 与云厂商达成的交易规模相似。
微软已经向 OpenAI 承诺了超过 130 亿美元,主要是为了让 ChatGPT 开发者能够付费从微软数据中心租用服务器来支持其业务。根据 OpenAI 去年预计,仅到 2023 年,就会在云计算上花费超过 10 亿美元,部分原因是使用配备英伟达的 AI 芯片。
Anthropic 已经从亚马逊和谷歌那里获得 70 亿美元投资,主要是为了让这家初创公司可以租用他们的云服务器。
目前,xAI 正在完成一轮 60 亿美元的股权融资,以此覆盖云成本,而最新 100 亿美元的预算,也意味着 xAI 未来需要筹集更多资金。马斯克希望这轮融资将加快其租赁芯片的能力,并帮助其在 2025 年下半年某个时候达到 10 万个 GPU。
根据 SemiAnalysis 分析师表示,租用 10 万台 H100 意味着每年可能花费约 17 亿美元,而即将推出的 GB200 可能贵 50%。
当前,xAI 正在大约 2 万个 H100 芯片上训练 Grok 2.0。与其他 AI 开发人员使用的数据相比,这个数字仍然很小。
微软计划在今年和明年为 OpenAI 提供容纳数十万个 GPU 服务器,而扎克伯格表示,到 2024 年底 Meta 将拥有 35 万台 H100,其中一些将用于训练公司的 Llama 开源 AI 模型。


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Ilya官宣离职,超级对齐负责人Jan直接辞职,OpenAI还是走散了

Ilya官宣离职,超级对齐负责人Jan直接辞职,OpenAI还是走散了

今天,OpenAI 联合创始人、首席科学家 Ilya Sutskever 发推宣告离职。

在 OpenAI 工作近 10 年后,我做出了离开的决定。


OpenAI 的发展轨迹可以称得上是奇迹,我相信 OpenAI 会在 Sam Altman、Greg Brockman 和 Mira Murati 的领导下,以及 Jakub Pachocki 的出色研究领导下构建安全有益的 AGI。

能够一起工作是一种荣幸,我会非常想念大家。这么久了,感谢你们大家所做的一切。我对接下来发生的事情感到兴奋,接下来从事的这个项目对我来说非常有意义,我会在适当的时候分享细节。

图片

Ilya Sutskever 还分享了与 Sam Altman、Greg Brockman 和 Mira Murati 等人的合照。

OpenAI CEO 奥特曼在推特上发文表示,Ilya 与 OpenAI 的分道扬镳令人非常难过。

![图片](https://mmbiz.qpic.cn/sz_mmbiz_png/KmXPKA19

[… truncated …]

Ilya Sutskever 说的很多话可能有些狂野,但在现在这个节点看,已经没有一两年前那样让人感觉「疯狂」了。正如他说的那样,ChatGPT 已经改写了很多人对未来的预期,把「永远不会发生」变成了「会比你想象的更快发生」。

参考链接:

https://twitter.com/sama/status/1790518031640347056

https://twitter.com/ilyasut/status/1790517455628198322



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

阿里“爆改”一周年:变法凶猛,增长艰难

14日晚间,阿里巴巴集团发布2024财年Q4及全年业绩。财报显示,阿里巴巴集团Q4收入2218.74亿元,同比增长7%,超市场预期。


2024财年全年,营收为9411.68亿元,同比增长8%。净利润为713.32亿元,同比增长9%;不按美国通用会计准则,净利润为1574.79亿元,同比增长11%(注:阿里巴巴财年与自然年不同步,2023财年4月1日至2024年3月31日为2024财年)。

经过一年剧烈变革,阿里重回健康增长轨道:本季度,淘宝天猫GMV双位数增长,阿里云核心公共云产品收入双位数增长、AI相关收入三位数增长,海外电商实现45%的同比增长,本地生活集团营收同比增长19%。

但纵观本季度财报,挤压式增长已成阿里新常态,最为核心且重要的淘系业务仍然承压。

主动求变,但核心业务增长仍乏力

本季度,阿里交上了一份喜忧参半的成绩单。

财报显示,阿里巴巴集团Q4收入2218.74亿元,同比增长7%,超市场预期。而上一季度,阿里营收2603.5亿元,低于市场预期2612.47亿元,同比增长仅5%,创下三个季度以来的最低增速。

继上一季度阿里巴巴经营利润、净利润双双下滑,本季度这两组数字仍不理想。

财报显示,这一季度阿里经营利润为147.65亿元,同比下降3%。净利润为9.19亿元,同比下滑96%,主要是由于所持上市公司股权投资按市值计价变动而产生的净亏损,而去年同期则为净收益所致;不按美国通用会计准则,净利润为244.18亿元,同比下滑11%。

值得注意的是,处于集团最高优先级的电商和云计算两大核心业务重燃了增长动力,海外电商、本地生活、菜鸟等回归健康增长轨道。

淘天集团方面,本季度营收932.16亿元(约合129.10亿美元),同比增长4%;整个2024财年营收4348.93亿元(约合602.32亿美元),同比增长5%。上一季度淘天集团的收入为1290.7亿元,同比增长…

寻求增长,“四小龙”被寄予厚望

2023年11月16日晚的阿里巴巴财报电话会上,阿里巴巴CEO吴泳铭公布了第一批战略级创新业务——“四小龙”,分别为1688,闲鱼,钉钉,夸克,这批战略级创新业务也是阿里未来发展的关键所在。并承诺,阿里将以3-5年为周期持续投入,培育面向未来的新动能。

其中,钉钉发展迅猛,承载着阿里AI驱动的厚望。

钉钉拥有着庞大的用户基数。1月9日,在钉钉7.5产品发布会上,钉钉交出2023年的成绩单:截至2023年底,钉钉注册用户数达7亿人。此外,钉钉企业组织数达2500万,软件付费企业数达12万。值得注意的是,预计2025财年钉钉开始盈利。

闲鱼,则成为了阿里接触z世代年轻消费者的“抓手”。

去年5月,闲鱼公布用户数超5亿,其中95后用户占比43%,成为最活跃的用户,00后占比22%….

阿里披露六大业务领导班子名单,人事地震已结束?

过去一年,阿里巴巴内部调整动荡不已。

2023年3月,阿里启动成立24年来最大规模的一场组织变革,正式拆分成“1+6+N”结构,即设立阿里云智能、淘宝天猫、本地生活、菜鸟、国际数字商业、大文娱等六大业务集团和多家业务公司。

2023年9月,在阿里担任了8年CEO、4年董事会主席的张勇退休,由蔡崇信和吴泳铭分别出任阿里巴巴集团董事会主席、阿里集团CEO。

2023年11月16日,阿里巴巴公布2024财年第二财季财报,并宣布一系列重大调整:盒马的首次公开募股计划暂缓;阿里巴巴不再推进云智能集团的完全分拆;菜鸟集团已申请在香港进行首次公开募股;1688,闲鱼,钉钉,夸克成为阿里巴巴第一批战略级创新业务“四小龙”。

12月,淘天集团高层发生变阵。担任淘天集团CEO仅半年,戴珊便宣布卸任,接力棒来到吴泳铭手中。与此同时,淘天集团核心管理层几乎全部更换,阿里智能事业群总裁吴嘉、饿了么首席运营官谌伟业等“少壮派”全面接管。

从一系列大刀阔斧的组织调整中可以看出,阿里在完成“大象转身”主动分拆之后,正试图重构组织以适应新周期,主动求变唤醒不同业务的新增长方式,为阿里找到全新的增长道路。

但当事物在流动时,变革是容易的,当事物凝固时,变革就十分困难。

作为电子商务的先驱,阿里正在面对拼多多、抖音等新锐平台的激烈挑战。如今阿里的业绩表现,远远不及当年井喷式的增长,这无疑给拆分重组中的阿里带来了更大的挑战。

在蔡崇信和吴泳铭接手后,阿里过去一年对内精简组织,对外战略聚焦,带领“大象”转身重拾增长。但目前来看,阿里在提升组织效能、保持应对外部变化的活力和创新力等方面,仍面临着严峻的考验。

但最起码,阿里已经有了直面问题、直面未来的勇气。

近日,阿里联合创始人、董事局主席蔡崇信与挪威主权财富基金首席投资官Nicolai Tangen对话的视频中,主持人问到,“你们面临的最严峻的竞争是什么?”

蔡崇信回答说,阿里过去几年忘记了真正的客户是谁,并说道:“我们的客户是使用我们的应用程序购物的用户,我们没有给他们最好的体验。所以在某种程度上,我们有点自食其果,并没有真正关注价值所在,我们能在哪里提供价值。”

值得注意的是,本季度财报还披露了业务集团董事和首席执行官的变更。或许,这意味着历时一年的阿里“人事地震”终于告一段落?

今晚财报电话会上,阿里巴巴集团首席执行官、淘天集团董事长吴泳铭表示:“随着‘用户为先’战略下的产品改进和投资策略逐步推进,我们对于持续赢得消费者信任,保持市场份额领先地位具备充分信心。”

通过自我革新、主动开刀,或许不久的将来阿里将重新回归效率至上、市场至上,变得简单和敏捷。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

阿里“爆改”一周年:变法凶猛,增长艰难

14日晚间,阿里巴巴集团发布2024财年Q4及全年业绩。财报显示,阿里巴巴集团Q4收入2218.74亿元,同比增长7%,超市场预期。


2024财年全年,营收为9411.68亿元,同比增长8%。净利润为713.32亿元,同比增长9%;不按美国通用会计准则,净利润为1574.79亿元,同比增长11%(注:阿里巴巴财年与自然年不同步,2023财年4月1日至2024年3月31日为2024财年)。经过一年剧烈变革,阿里重回健康增长轨道:本季度,淘宝天猫GMV双位数增长,阿里云核心…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用

中文 AI 社区迎来了一个好消息:与 Sora 同架构的开源文生图大模型来了!

5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

官网地址:https://dit.hunyuan.tencent.com/
GitHub 项目地址:https://github.com/Tencent/HunyuanDiT
Hugging Face 模型地址:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
技术报告地址:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

据了解,这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。


升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,即全新的 Hunyuan-DiT 架构,不仅可以支持文生图,也可以作为视频等多模态视觉生成的基础。

为了全面比较 Hunyuan-DiT 与其他文生图模型的生成能力,腾讯混元团队构建 4 个维度的测试集,邀请超过 50 名专业评估人员进行评估,包括文本图像一致性、排除 AI 伪影、主题清晰度、审美。

从下表结果可以看到,采用 Hunyuan-DiT 架构的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型,整体能力属于国际领先水平。

与其他 SOTA 模型的比较。

与这些 SOTA 模型的定性比较结果如下图所示。

全新 DiT 架构

腾讯混元文生图要做开源模型 No.1

大模型的优异表现,离不开领先的技术架构。

升级后的腾讯混元文生图大模型采用了全新的 DiT 架构(DiT 即 Diffusion With Transformer),这是 OpenAI Sora 和 Stable Diffusion 3 的同款架构和关键技术,是一种基于 Transformer 架构的扩散模型。

过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量增加,基于 Transformer 架构的扩散模型展现了更好的扩展性,有助于进一步提升模型生成质量及效率。Sora 很好地说明了这一点。

腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。从 2023 年 7 月起,腾讯混元文生图团队就明确了基于 DiT 架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为 DiT 架构。

Hunyuan-DiT 的模型结构如下图 7 所示,采用了创新的网络架构,结合了双语 CLIP 和多语言 T5 编码器,通过精心设计的数据管道进行训练和优化,支持多轮对话,能够根据上下文生成并完善图像。

在 DiT 架构之上,腾讯混元团队支持了中英双语文本提示生成图像,并在算法层面优化模型的长文本理解能力,能够支持最多 256 字符的内容输入,达到行业领先水平。

此外,混元文生图大模型在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。

更多多轮对话生成示例如下图所示。

中文原生也是腾讯混元文生图大模型的一大亮点。此前,像 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够。

作为首个中文原生的 DiT 模型,混元文生图具备了中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。我们可以看以下一些生成示例。

腾讯混元文生图还更擅长细粒度文本提示生成。

评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过了 20%,不仅在语义理解、画面质感与真实性方面全面提升,而且在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

这一次

腾讯混元选择全面开源文生图模型

腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。

腾讯混元文生图大模型的开源,填补了中文原生 DiT 文生图架构的缺失,有助于更多的开发者和创作者参与进来,一起探索、共创基于 DiT 架构的视觉生成生态,更好地去验证、挖掘这个技术架构的潜力。

腾讯文生图负责人芦清林表示:「腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。」

基于腾讯开源的文生图模型,开发者及企业无需从头训练,即可以直接用于推理,并可基于混元文生图打造专属的 AI 绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也让模型的安全性和可靠性得到保障。

此外,基于开放、前沿的混元文生图基础模型,也有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样原生插件,推动中文文生图技术研发和应用。


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

告别3D高斯Splatting算法,带神经补偿的频谱剪枝高斯场SUNDAE开源了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

本论文作者包括帝国理工学院硕士生杨润一、北航二年级北京理工大学二年级硕士生姜洲北京理工大学四年级本科生叶柏均、中国科学院大学本科大三学生张逸飞、中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)负责人赵健、清华大学智能产业研究院(AIR)助理教授赵昊等。

最近,3D Gaussian Splatting (3DGS) 作为一种新颖的 3D 表示方式,因其快速的渲染速度和高渲染质量而受到关注。然而,这种方法也伴随着高内存消耗,例如,一个训练好的高斯场可能会使用超过三百万个高斯基元和超过 700 MB 的内存。

近日,帝国理工学院、北航、北京理工大学、中国科学院大学、中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)、清华大学智能产业研究院(AIR)等机构的研究者联合发表了一篇论文《SUNDAE: Spectrally Pruned Gaussian Fields with Neural Compensation》,我们认为这种高内存占用是由于没有考虑基元之间的关系。在论文中,我们提出了一种名为 SUNDAE 的内存高效的高斯场,采用频谱修剪和神经补偿。

文章链接:https://arxiv.org/abs/2405.00676

项目主页:https://runyiyang.github.io/projects/SUNDAE/

一方面,我们基于高斯基元的空间信息构建了一个图,用于模拟它们之间的关系,并设计了一个基于图信号处理的降采样模块来剪枝,同时保留所需信号。另一方面,为了补偿剪枝造成的质量下降,我们利用了一个轻量级神经网络来混合渲染特征,有效地补偿了质量下降,同时在其权重中捕获基元之间的关系。

我们通过大量的结果展示了 SUNDAE 的性能。例如,在 Mip-NeRF360 数据集上,SUNDAE 可以在使用 104 MB 内存的情况下达到 26.80 PSNR 和 145 FPS,而标准的 3D Gaussian Splatting 算法在使用 523 MB 内存的情况下达到 25.60 PSNR 和 160 FPS。

与此同时,自从开源后,SUNDAE 受到国际上广泛的关注,受到了知名 NeRF 社区 MrNeRF,AI research 社区维护者 Ahsen Khaliq、以及多位相关领域研究人员转发关注。

一、带神经补偿的频谱剪枝高斯场

1.1 基于频谱图的剪枝策略

3DGS 使用一组高斯基元来表示场景,由于这些基元在三维空间中的分布不规则,我们提出了基于图的方法来捕获基元之间的关系,而不是使用网格这样的常规结构。

具体来说,我们采用图信号处理理论来推导一个最优的采样策略,该策略能够基于图信号保留特定频谱的信息。通过控制频谱带宽,我们可以灵活地控制剪枝比例,建模高斯基元之间的关系。

我们使用高斯基元的中心来作为图上的信号输入,将高斯基元之间的距离作为图的边,图的邻接矩阵可以表示为

其中是高斯基元的中心点, 是一个阈值超参数, 是距离矩阵的方差。也就是说,如果两个高斯基元之间的距离比一个阈值小,那么我们将其之间建立一条图的边。建立好图的邻接矩阵之后,我们可以根据 Haar-like 滤波器对图上的信号进行处理,得到特定频段的图信号。最终根据想要的频段信号进行剪枝,本文中我们使用了带阻滤波器,保留表示物体细节的高频信号和背景点的低频信号。

1.2 神经补偿机制

经过频谱剪枝后,渲染质量因为删去了过多的高斯基元不可避免会下降,为了解决这个问题,我们…

(以下内容省略)

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

亚马逊网络服务首席执行官将离职,资深人士接任

亚马逊盈利最丰厚、增长最快的部门的负责人将在三年任期后于下个月离职。


亚马逊云计算部门AWS的首席执行官将于下个月在任期结束后离职。57岁的亚当·塞利普斯基(Adam Selipsky)是亚马逊团队的成员,为CEO提供建议,根据周二亚马逊的声明,他将于6月3日离职。他将由负责AWS的销售和营销的高级副总裁马特·加曼(Matt Garman)接任。塞利普斯基在两个任期中在AWS工作了14年。他曾是Salesforce旗下Tableau Software的CEO,从2016年至2021年,当时他接替亚西(Jassy)负责该部门,亚西则被任命为亚马逊CEO。

在塞利普斯基的领导下,AWS实现了快速增长,销售额从他任命前的454亿美元增长到2023年的908亿美元,利润在该期间也近乎翻倍,达到246亿美元。尽管如此,AWS受到批评,认为其没有对竞争对手,包括OpenAI,提出的挑战,推出足够快速的竞争性生成人工智能服务。最近,AWS使其Amazon Q聊天机器人服务面向企业广泛提供。

尚不清楚塞利普斯基接下来会做什么,尽管他表示他离开公司是为了“更多时间陪伴家人”。尽管在美国云市场拥有最大份额,但AWS的主导地位正受到微软快速增长的Azure服务的压力,后者受益于与OpenAI合作推出的人工智能产品。谷歌的母公司Alphabet预计将于周二在其年度开发者大会上推出新的人工智能服务。

AWS是亚马逊仅次于电商的第二大业务部门,被广泛视为亚马逊的增长引擎,为公司的营收贡献约40%。

加曼在2005年夏季在亚马逊开始实习,次年成为全职员工之一,担任首席产品经理。

塞利普斯基还带领AWS进行了几轮裁员,包括去年四月在负责线下技术销售和营销的部门中裁减了数百个职位。2023年,亚马逊裁员约2.7万人,AWS是裁员幅度最大的部门之一。

探索更多关于这些主题的内容:

  • 亚马逊
  • 云计算
  • 计算
  • 互联网
  • 新闻

分享并重复使用这些内容。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB