GPTNB · AI资讯与技术分享站

2024-06-29发表2025-03-21更新 ByteAILab 12 分钟读完 (大约1739个字)

来源：硬AI

作者 | 卜淑倩

编辑 | 硬 AI

人工智能信仰下，科技巨头们预计，未来几年AI资本支出将高达1万亿美元的空前规模。这些投资将主要集中在数据中心、芯片、基础设施和电网等关键领域，旨在为AI的未来发展打下坚实的基础。

全球科技巨头纷纷加大AI投资之际，高盛一份报告揭露了AI投资回报的不确定前景。

高盛周二发布报告称，除了在开发者群体中报告的效率提升外，AI技术的实际效益仍然难以捉摸。即便是在AI领域获益最多的公司，如英伟达，其股价也经历了剧烈的波动，反映出市场对AI投资回报的担忧和不确定性。

在这份报告中，一些分析师对AI技术的长期经济潜力持乐观态度，认为尽管AI的“杀手级应用”尚未出现，但最终将超越当前的“工具和铲子”阶段，产生更大的经济回报。也有分析师对此表示怀疑。他们认为，AI技术的发展可能不会像预期的那样迅速，且其成本效益比可能并不如想象中的那么有吸引力。

展望未来十年，质疑者预测，AI只能将美国生产率提高0.5%，对GDP增长的贡献累计仅为0.9%。乐观分析师则预计，生成式AI最终将自动化25%的工作任务，并将美国生产率提高9%，使GDP增长6.1%。

尽管分歧巨大，高盛仍认为，即使AI技术的基本叙事最终无法在资本市场站住脚跟，AI泡沫也可能需要更长时间才会破裂。

怀疑的声音：

AI自动化任务不到5%
作为怀疑论者之一，麻省理工学院教授Daron Acemoglu认为，在未来十年内，只有四分之一的AI相关任务能够实现成本效益的自动化，这意味着AI对所有任务的影响将不到5%。
Acemoglu认为，历史上技术随时间改善和成本降低的趋势不可以简单地应用到AI上，AI模型的进步可能不会像许多人预期的那样迅速或令人印象深刻。
他还怀疑AI技术是否能达到人类最有价值的认知能力，特别是考虑到AI模型通常是基于历史数据训练的，这可能限制了它们复制人类复杂认知能力的范围。
Acemoglu预测，在接下来的十年内，AI将只会使美国的生产率提高0.5%，并且对GDP增长的贡献累计仅为0.9%。
高盛全球股票研究主管Jim Covello则更为悲观，他认为AI技术的成本高昂，且并非为解决复杂问题而生。
Covello指出，与互联网初期相比，AI技术的成本并没有显示出随着时间降低的趋势，而且他怀疑AI技术的成本会降低到足以使大量任务自动化的程度。

乐观的观点：

AI使25%的任务自动化
未来十年美国GDP提高6.1%
高盛分析师Joseph Briggs持有更为乐观的态度，他预计生成式AI最终将自动化25%的工作任务，并在未来十年内提高美国生产率9%和GDP增长6.1%。
Briggs认为，尽管目前许多AI相关的任务自动化并不具有成本效益，但新技术的长期成本下降潜力以及劳动力重新分配和新任务创造的可能性，将推动更多的AI自动化。
高盛的Kash Rangan和Eric Sheridan也对AI的长期转型和回报潜力保持热情。他们认为，尽管大型科技公司在AI基础设施上的投资巨大，但并没有迹象表明存在非理性的繁荣。
Rangan强调，当前的资本支出相对于收入的比例与以前的技术投资周期并没有显著不同，而且投资者只会奖励那些能够将AI变现的公司。

发展瓶颈：

芯片和电力供应短缺
高盛分析师们普遍认为，芯片和电力供应的短缺可能会限制AI技术的发展潜力。
其中，高盛半导体分析师认为，由于高带宽内存技术和芯片封装的关键组件短缺，芯片将在未来几年内限制AI的增长。
更大的问题是电力供应是否能够跟上。
高盛公用事业分析师预计，AI技术的普及和必需的数据中心将推动电力需求的大幅增长。然而，美国公用事业公司在过去二十年中几乎没有经历过电力消耗增长，并且正在应对已经老化的电网，因此可能没有准备好迎接即将到来的需求激增。

AI泡沫还将持续多久？
尽管存在对AI技术经济效益的怀疑，但高盛的分析师们仍一致同意，即使AI技术的基本叙事最终无法在资本市场站住脚跟，AI泡沫也可能需要更长时间才会破裂。
高盛股票策略师Ryan Hammond认为，AI概念股有更多的运行空间，并预计AI受益者将继续扩大，不仅仅是英伟达等半导体巨头，大型公用事业公司也将受益。
长期来看，高盛产配置研究主管Christian Mueller-Glissmann从宏观的角度分析了AI对市场的影响。
他发现，如果AI显著加速经济增长和企业盈利能力而不加剧通胀问题，标普500指数的长期回报就高于平均水平。
不过，他警告，AI技术实现投资者预期的潜力对于提高市场回报至关重要。尽管AI可能通过提高生产率增长来利好股票，但市场往往在实际生产力增长实现之前就已经预期了这一点，这增加了定价过高的风险。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-29发表2025-03-21更新 ByteAILab 18 分钟读完 (大约2756个字)

AI驾驶平台Waabi获2亿美元融资，自动驾驶的ChatGPT时刻就要来了？

“行业观察者”是我们针对人工智能、XR、元宇宙和Web3等前沿科技而设立的专栏，主要分享这些领域中的新兴企业或者创业者们的故事。物理生成式AI驾驶平台Waabi在官网宣布获得2亿美元融资，本次由英伟达、沃尔沃、保时捷、Uber等全球知名企业领投。

作为仅成立3年就获得4级自主驾驶权限的AI平台，究竟有何魅力？以下是我们的第16期内容，以下Enjoy。

近日，AI驾驶制造商Waabi在其官网宣布，成功获得2亿美元的融资，投资方包括全球知名企业英伟达、沃尔沃、保时捷、Uber等。这一“巨额融资+知名企业领投”的投资组合，也意味着自动驾驶技术正受到全球顶级企业的高度认可和支持。小鹏汽车创始人何小鹏在试驾特斯拉FSD后更是预言：“2025年会是完全自动驾驶的ChatGPT时刻。”

自动驾驶技术的飞速发展，或许会为我们带来一个全新的交通时代。

01.1分钟项目速览

项目名称: Waabi Driver
成立时间: 2021年
产品简介: Waabi Driver专注于下一代自动驾驶卡车技术，由生成式AI驱动。结合了端到端训练的AI堆栈和可解释架构，为工厂级OEM集成、大规模商业化和安全部署提供完整解决方案.
创始人团队: CEO：Raquel Urtasun, SSE：Jur van den Berg, CCO：Vivian Sun
融资情况: 自2021年成立以来，Waabi的A轮总融资规模已达2.8亿美元。2023年1月完成来自Volvo Group Venture Capital的风险轮融资。Waabi于2024年6月宣布完成了2亿美元的B轮融资，由Uber和Khosla Ventures领投.

02.自动驾驶技术的领航者
“Waabi”这一名字源自于加拿大原住民的语言，意为“智慧”。正如公司成立的初心：推动自动驾驶技术发展，实现更安全、更高效、更环保的物流运输的使命。Waabi的创始人Raquel Urtasun女士不仅是AI和自动驾驶领域的先驱，也是一位在计算机视觉和机器学习领域有着深厚背景的科学家.

Waabi创立后，Raquel Urtasun迅速聚集了一支由世界顶尖的AI领域创新者、工程师和解决方案架构师组成的团队，共同致力于将Waabi的自动驾驶技术推向新的高度，实现技术的突破和创新. Waabi自研的Generative AI技术能够生成新的数据样本，从而训练自动驾驶系统在各种复杂和未知的环境中做出决策. 与传统的自动驾驶技术相比，Waabi的Generative AI技术更加安全、高效，并且具有更好的可扩展性. 这种技术的运用，使得Waabi的自动驾驶系统能够在没有人类干预的情况下，自主学习和适应各种驾驶场景. Waabi的自动驾驶技术不仅仅是技术上的突破，更是对未来交通方式的一次深刻思考. 随着技术的不断成熟和市场的逐步开放，Waabi正站在自动驾驶技术革命的前沿，推动着行业的发展.

03.引领自动驾驶技术新时代
Waabi的核心技术基于一种被称为“Waabi World” 的虚拟世界模拟器. Waabi World结合了先进的机器学习和深度学习算法，能够模拟各种复杂的驾驶场景，包括不同的天气条件、道路状况和交通状况. 这使得自动驾驶系统可以在一个安全、可控的环境中进行大量的训练和测试，从而提升其应对实际道路情况的能力. 具体来说，Waabi通过多种传感器（如激光雷达、摄像头和雷达）来获取道路状况、交通流量、行人行为等大量的道路数据. 利用其强大的计算平台和先进的机器学习算法，Waabi对采集到的数据进行分析和处理. 随后，Waabi将不断进行各种复杂的驾驶场景的模拟测试和实际道路测试，进行必要的优化和调整. 正是经过这些反复优化调整，Waabi的自动驾驶系统的可靠性和安全性得以不断提升.

长距离的卡车驾驶本就是个枯燥且存在安全隐患的职业，这位安全、可靠的“数字驾驶员”Waabi Driver将极大程度地为企业解决运输链难题.

提高运输效率: Waabi的自动驾驶卡车可以在全天候运行，无需休息时间. 这种持续运作的能力可以显著提高货运效率，加快货物的配送速度，从而使物流公司能够更快速地响应客户需求. 例如，在长途货运中，自动驾驶卡车能够不间断地行驶，大大缩短了货物从仓库到目的地的时间.
降低运营成本: 自动驾驶技术可以减少对人力驾驶员的依赖，从而降低运营成本. 传统的货运公司需要支付驾驶员的工资、保险以及其他福利，而自动驾驶卡车则可以节省这些人力成本. 此外，自动驾驶技术可以优化行驶路线，减少燃油消耗和车辆磨损，从而进一步降低运营费用.
提高安全性: 交通事故不仅会导致人员伤亡，还会造成货物损失和延误. Waabi的自动驾驶系统通过高精度的传感器和先进的算法，能够实时监控周围环境，快速响应突发情况，从而大大降低交通事故的风险. 例如，在高速公路上，自动驾驶卡车可以精确地保持车道和速度，避免因疲劳驾驶或分心驾驶引发事故.
应对劳动力短缺: 物流行业面临着驾驶员短缺的问题. 自动驾驶卡车的引入可以缓解这一问题，确保货物运输不受劳动力短缺的影响. 尤其是在一些偏远地区或恶劣条件下，自动驾驶卡车可以替代人工驾驶，确保货物按时到达.

日前，Waabi开发了一个端到端的大模型Copilot4D，可以模拟人类的智力、推理和驾驶习惯. 该模型相比传统的自动化驾驶方案所需要的训练数据和算力资源更少，在安全、环境侦测方面却有巨大提升. 或许正如Raquel Urtasun所言，“自动驾驶卡车有可能改变物流世界，挽救许多生命，并提供更可持续的未来。而Waabi正在将这一承诺变为现实.” 她还表示，这笔全新的融资将投入于研发完全无人驾驶的生成式人工智能自动驾驶卡车。“本轮融资为我们提供了所需的一切，包括资金和战略上的支持，使我们能够在2025年推出完全无人驾驶的卡车并加速发展.”Urtasun补充道. Waabi期望他们的人工智能应用最终能够超越卡车运输，包括人形机器人和仓库机器人两方面的应用. 这对运输行业来说具有里程碑意义，也标志着人工智能下一个前沿领域的开始.

04.物理世界中的生成式人工智能
随着人工智能令人瞩目的进步，数字革命正在全世界范围内开展. 不断扩大的数据存储库、突破性的加速计算等刺激着基础模型的巨大发展和升级. 在没有人工干预的情况下，这些模型也能够自主地在海量数据集上进行训练，从而为众多生成式人工智能应用提供发展支撑. 这些随之诞生的生成式人工智能改变了许多行业的生产效率，甚至颠覆了人类在数字领域的体验. 而Waabi不仅看到了人工智能在数字领域良好的发展现状，也找准了人工智能内部还没有被挖掘到的潜力. Waabi相信，通过他们的努力，一定能实现生成式人工智能从虚拟世界走向物理世界的飞跃，从而释放人工智能前所未有的效率，做到既保证安全性，又让其能与人类在日常生活中进行互动. 当然，挑战也接踵而来. 这一全新的领域需要独特且创新的方法来构建人工智能系统.

而Waabi十分清楚，在当下和未来它所要面临的挑战。以自动驾驶为起点，该公司想要最终实现：一个单一的人工智能系统可以端到端学习，同时以完全自主且保证安全的方式执行高度复杂的任务. 基于这个愿景，再加上考虑到物流行业供应链效率低下和卡车司机短缺的痛点，它选择了从此处入手.

截至目前，该公司开发的新一代基础模型——虚拟驾驶员Waabi和高保真闭环模拟器Waabi World已经被实际运用于北美的商业运输中. 但Waabi并不满足于现状，也正是因为它颠覆性的方法和雄心勃勃的愿景，让越来越多代表深度技术、汽车以及航运和物流生态系统的先驱和开拓者愿意给它提供资金和技术帮助. 未来，随着Waabi产品技术的灵活性和通用能力逐渐提高，各种类型的人形和仓库机器人将会不断迭代升级. 这将彻底颠覆现实物理世界，并以非凡的方式赋予人类不可估量的能力.

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-29发表2025-03-21更新 ByteAILab 1 分钟读完 (大约155个字)

200 亿估值之后，中国大模型公司还能拿谁的钱？

来源：AI科技评论

2023 年看技术，2024 年看战略。

作者 | 张进
编辑 | 陈彩娴

「无论是美元基金，还是人民币基金，大家普遍觉得，大模型公司估值超越 200 亿（人民币）是一个槛。

」投资人林秋实告诉 AI 科技评论。

…

文章来源：https://www.aixinzhijie.com/article/6846162
转载请注明文章出处

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-29发表2025-03-21更新 ByteAILab 5 分钟读完 (大约699个字)

软银与Tempus AI成立医疗合资公司

软银集团首席执行官孙正义宣布一项最新人工智能投资；软银已与Tempus AI成立了一家合资企业，旨在使用人工智能（AI）来分析个人医疗数据，以提出治疗建议。

编辑 | 周子意

图片来源：由GPTNB生成

日本科技公司软银集团首席执行官孙正义周四在新闻发布会上透露，软银已与Tempus AI成立了一家合资企业，旨在使用人工智能（AI）来分析个人医疗数据，以提出治疗建议。

Tempus AI是美国一家精密医疗科技领域的企业，致力于为全球医疗保健领域提供先进的数据和分析工具，其核心业务为基因组检测服务。

孙正义在新闻会上称，软银和Tempus AI希望将人工智能的治疗建议和临床试验建议带到日本市场，使日本成为美国以外另一个可以提供此类服务的医疗保健市场。

根据公司当天新闻稿，软银和Tempus将各自向合资企业投入150亿日元（合9300万美元），预计将于7月完成。

图片来源：由GPTNB生成

今年4月，软银在Tempus的G轮融资中向其投资了约2亿美元，之后Tempus于本月在纳斯达克上市。6月14日的首次公开发行价格为37美元，而截至周三（6月26日）收盘，其股价已跌至27.50美元左右。

这是软银最近宣布的一系列人工智能投资中的最新一笔。在沉寂了几年之后，软银加快了投资活动的步伐。

据知情人士的最新消息，该集团的愿景基金2号将向美国搜索初创公司Perplexity AI投资1000-2000万美元，后者整体估值达到30亿美元。

Perplexity是谷歌搜索引擎的一大竞争对手，成立迄今不到两年时间。它提供的服务是所谓的“答案引擎”，以文本格式而不是链接回复用户。

该公司于今年1月从英伟达和亚马逊创始人贝索斯处筹集了7360万美元，其估值当时达到5.2亿美元。软银的这笔潜在投资凸显出软银在人工智能领域的投资雄心。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-29发表2025-03-21更新 ByteAILab 5 分钟读完 (大约709个字)

软银与Tempus AI成立医疗合资公司

编辑 | 周子意

图片来源：由GPTNB生成

Tempus AI是美国一家精密医疗科技领域的企业，致力于为全球医疗保健领域提供先进的数据和分析工具，其核心业务为基因组检测服务。

根据公司当天新闻稿，软银和Tempus将各自向合资企业投入150亿日元（合9300万美元），预计将于7月完成。

图片来源

这是软银最近宣布的一系列人工智能投资中的最新一笔。在沉寂了几年之后，软银加快了投资活动的步伐。
据知情人士的最新消息，该集团的愿景基金2号将向美国搜索初创公司Perplexity AI投资1000-2000万美元，后者整体估值达到30亿美元。

Perplexity是谷歌搜索引擎的一大竞争对手，成立迄今不到两年时间。它提供的服务是所谓的“答案引擎”，以文本格式而不是链接回复用户。

该公司于今年1月从英伟达和亚马逊创始人贝索斯处筹集了7360万美元，其估值当时达到5.2亿美元。软银的这笔潜在投资凸显出软银在人工智能领域的投资雄心。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-29发表2025-03-21更新 ByteAILab 12 分钟读完 (大约1736个字)

对于AI最敏感的问题，高盛内部分歧不小

文章来源：硬AI

“即便是泡沫，也会持续很长时间”

作者 | 卜淑倩
编辑 | 硬 AI
人工智能信仰下，科技巨头们预计，未来几年AI资本支出将高达1万亿美元的空前规模。这些投资将主要集中在数据中心、芯片、基础设施和电网等关键领域，旨在为AI的未来发展打下坚实的基础。

全球科技巨头纷纷加大AI投资之际，高盛一份报告揭露了AI投资回报的不确定前景。
高盛周二发布报告称，除了在开发者群体中报告的效率提升外，AI技术的实际效益仍然难以捉摸。即便是在AI领域获益最多的公司，如英伟达，其股价也经历了剧烈的波动，反映出市场对AI投资回报的担忧和不确定性。
在这份报告中，一些分析师对AI技术的长期经济潜力持乐观态度，认为尽管AI的“杀手级应用”尚未出现，但最终将超越当前的“工具和铲子”阶段，产生更大的经济回报。也有分析师对此表示怀疑。他们认为，AI技术的发展可能不会像预期的那样迅速，且其成本效益比可能并不如想象中的那么有吸引力。
展望未来十年，质疑者预测，AI只能将美国生产率提高0.5%，对GDP增长的贡献累计仅为0.9%。乐观分析师则预计，生成式AI最终将自动化25%的工作任务，并将美国生产率提高9%，使GDP增长6.1%。
尽管分歧巨大，高盛仍认为，即使AI技术的基本叙事最终无法在资本市场站住脚跟，AI泡沫也可能需要更长时间才会破裂。

怀疑的声音：
AI自动化任务不到5%
作为怀疑论者之一，麻省理工学院教授Daron Acemoglu认为，在未来十年内，只有四分之一的AI相关任务能够实现成本效益的自动化，这意味着AI对所有任务的影响将不到5%。
Acemoglu认为，历史上技术随时间改善和成本降低的趋势不可以简单地应用到AI上，AI模型的进步可能不会像许多人预期的那样迅速或令人印象深刻。
他还怀疑AI技术是否能达到人类最有价值的认知能力，特别是考虑到AI模型通常是基于历史数据训练的，这可能限制了它们复制人类复杂认知能力的范围。
Acemoglu预测，在接下来的十年内，AI将只会使美国的生产率提高0.5%，并且对GDP增长的贡献累计仅为0.9%。
高盛全球股票研究主管Jim Covello则更为悲观，他认为AI技术的成本高昂，且并非为解决复杂问题而生。
Covello指出，与互联网初期相比，AI技术的成本并没有显示出随着时间降低的趋势，而且他怀疑AI技术的成本会降低到足以使大量任务自动化的程度。

乐观的观点：
AI使25%的任务自动化
未来十年美国GDP提高6.1%

高盛分析师Joseph Briggs持有更为乐观的态度，他预计生成式AI最终将自动化25%的工作任务，并在未来十年内提高美国生产率9%和GDP增长6.1%。
Briggs认为，尽管目前许多AI相关的任务自动化并不具有成本效益，但新技术的长期成本下降潜力以及劳动力重新分配和新任务创造的可能性，将推动更多的AI自动化。
高盛的Kash Rangan和Eric Sheridan也对AI的长期转型和回报潜力保持热情。他们认为，尽管大型科技公司在AI基础设施上的投资巨大，但并没有迹象表明存在非理性的繁荣。
Rangan强调，当前的资本支出相对于收入的比例与以前的技术投资周期并没有显著不同，而且投资者只会奖励那些能够将AI变现的公司。

发展瓶颈：
芯片和电力供应短缺

高盛分析师们普遍认为，芯片和电力供应的短缺可能会限制AI技术的发展潜力。
其中，高盛半导体分析师认为，由于高带宽内存技术和芯片封装的关键组件短缺，芯片将在未来几年内限制AI的增长。
更大的问题是电力供应是否能够跟上。
高盛公用事业分析师预计，AI技术的普及和必需的数据中心将推动电力需求的大幅增长。然而，美国公用事业公司在过去二十年中几乎没有经历过电力消耗增长，并且正在应对已经老化的电网，因此可能没有准备好迎接即将到来的需求激增。

AI泡沫还将持续多久？
尽管存在对AI技术经济效益的怀疑，但高盛的分析师们仍一致同意，即使AI技术的基本叙事最终无法在资本市场站住脚跟，AI泡沫也可能需要更长时间才会破裂。
高盛股票策略师Ryan Hammond认为，AI概念股有更多的运行空间，并预计AI受益者将继续扩大，不仅仅是英伟达等半导体巨头，大型公用事业公司也将受益。
长期来看，高盛产配置研究主管Christian Mueller-Glissmann从宏观的角度分析了AI对市场的影响。
他发现，如果AI显著加速经济增长和企业盈利能力而不加剧通胀问题，标普500指数的长期回报就高于平均水平。
不过，他警告，AI技术实现投资者预期的潜力对于提高市场回报至关重要。尽管AI可能通过提高生产率增长来利好股票，但市场往往在实际生产力增长实现之前就已经预期了这一点，这增加了定价过高的风险。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-29发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1520个字)

将图像自动文本化，图像描述质量更高、更准确了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

皮仁杰：香港科技大学博士三年级学生，师从张潼教授和周晓方教授。于 2024 年获得苹果奖学金。目前主要研究方向是多模态大语言模型和数据为中心的 AI。

张鉴殊：武汉大学本科三年级学生，目前在张潼教授的指导下担任研究实习生，主要研究方向是大语言模型，多模态大语言模型以及持续学习。当下在寻找 2025 fall 博士入学机会。

在当今的多模态大模型的发展中，模型的性能和训练数据的质量关系十分紧密，可以说是 “数据赋予了模型的绝大多数能力”。

在这其中，图像 - 文本数据集发挥着至关重要的作用，在图像理解、文本生成和图像检索等多个领域发挥着关键作用。

然而，现有的图像描述数据集主要来源于网络抓取和人工标注，存在着质量参差不齐、细节缺失、描述噪音多等问题。尽管人类可以为图像提供详细的描述，但高昂的标注成本限制了其规模和可行性。因此，迫切需要一种高效、可扩展的方法来生成准确且详细的图像描述。

为了应对上述挑战，来自香港科技大学、武汉大学、浙江大学、UIUC的研究者联合提出了一种创新的自动化框架 ——Image-Textualization（IT），该框架通过整合多模态大语言模型（MLLMs）和多种视觉专家模型的协作，将图片信息进行文本化，最后利用拥有强大的推理能力的纯文本大语言模型将这些文本化的信息转化为高质量的图像描述。

论文：Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
论文地址：https://arxiv.org/pdf/2406.07502v1
项目地址：https://github.com/sterzhang/image-textualization/

Image Textualization 方法

Image-Textualization（IT）框架包括以下三个阶段：

粗粒度的图片文本化（Holistic Textualization）：首先利用多模态大语言模型对图片生成参考描述，尽管这些描述可能存在细节缺失和幻觉，但它们为图像的视觉信息和语言表达提供了基本结构。这里视觉的结构主要体现在参考描述中往往会包含一些大的，核心的物体，这个可以为后续的细节提供类似 “锚点” 的作用，能够使得最后的文本化重述（Textualized Recaptioning）更好的添加细节。另外，语言表达上的结构主要体现在…
视觉细节文本化（Visual Detail Textualization）：这个阶段我们同时从图片端和文本端进行细节的提取。首先是文本端，由于在上一阶段中我们利用多模态大模型生成的参考描述可能含有幻觉，所以这里首先做的是 “幻觉检测”。我们首先利用 LLM 去抓取参考描述中含有的实体，再利用了一个开集检测器去图片里对这个实体进行匹配，如果没有被检测出来，则将这个实体判断为幻觉。这里我们把检测出来的幻觉也进行了文本化，在最后的文本化重述（Textualized Recaptioning）进行删除。在视觉端，我们利用在高分辨率图片上训练出来的各个任务上的视觉专家模型提取图像中的细节信息。想要将一个图片上的物体的细节信息利用文本表达出来仅仅用物体的 caption 是不够的，我们首先利…
文本化重述（Textualized Recaptioning）：结合前两个阶段的图片信息文本化的结果，加上我们通过精心设计的改写 prompt，纯文本的大语言模型能够很好的通过纯文本还原出图片的信息，并通过强大理解和推理能力生成详细且准确的图像描述。

全面评估与实验验证

为了验证我们框架的有效性，我们构建了三个评估基准，分别是 DID-Bench（详细图像描述基准）、D2I-Bench（描述到图像基准）和 LIN-Bench（语言基准）。我们进行了广泛的实验，结果表明 IT 框架生成的图像描述在细节丰富度和准确性方面显著优于现有方法。尤其是，通过我们的 IT 框架生成的数据集训练的 MLLMs，如 LLaVA-7B，展现出了更强的图像描述能力，减少了幻觉现象。

未来展望

我们的工作不仅解决了现有图像描述数据集的局限性，也为设计更高效、可扩展的方法提供了灵感。我们期待 IT 框架在更多应用领域中展示其潜力，推动图像理解和生成技术的进一步发展。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-29发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1025个字)

展览综述 | 期待值拉满！WAIC 2024展览新品首曝，硬核看展攻略来袭！

全球人工智能领域正迎来历史性变革与迅猛发展，上海抢抓新一代人工智能发展机遇，以人工智能驱动形成新质生产力，加快打造世界级高端产业集群。举办世界人工智能大会，是推动人工智能产业创新发展，搭建国际合作交流平台的重要举措。

2024世界人工智能大会暨人工智能全球治理高级别会议持续扩容升级，展览规模、参展企业数、亮点展品数、首发新品数均达历史最高。大会展览面积超5.2万㎡，重点围绕核心技术、智能终端、应用赋能三大板块，聚焦大模型、算力、机器人、自动驾驶等重点领域，集中展示一批“人工智能+”创新应用最新成果，首发一批备受瞩目的创新产品。500余家企业确认参展，市外企业和国际企业占比超50%，展品数量已超1500项。

看点一：

首发首秀创历届之最

模型算法推动应用落地

大会展览现场将呈现大模型涌现的生动图景，文生文、文生图、文生视频模型、端侧模型、开源模型等集体亮相，展现赋能千行百业的最新实践。百度、阿里巴巴、腾讯、华为、商汤科技、科大讯飞、中国移动、中国联通、中国电信、星环科技等头部行业展现硬核产品力；Minimax、百川智能、智谱AI、阶跃星辰等“新锐势力”悉数登场；此外，微软、戴尔科技、联想、中兴通讯、金山办公、猿力科技等重点发力端侧应用，展现模型落地前景。

必看首发首秀

新一代模型
- 商汤科技“商汤日日新5.5”
- 科大讯飞“讯飞星火大模型V4.0”
- 星环科技“基于AIPC的星环无涯大模型”
- 百川智能“最新一代基座大模型Baichuan 4”
- 阶跃星辰“Step-2万亿参数语言大模型”
- 高通“全球首个在Android智能手机上运行的大语言和视觉助理大模型”
- 联汇科技“多模态大语言模型——OmModel V4及智能体应用”
模型应用
- 阿里巴巴“通义灵码”
- 蚂蚁集团“基于蚂蚁百灵大模型的‘支付宝智能助理’”
- 金山办公“WPS AI 企业版”
- 出门问问“短视频自动生成平台「元创岛」”
平台与系统
- 华为“昇腾AI全流程使能平台”
打卡现场亮点
- 新一代模型
  - 百度“文心大模型4.0”
  - 腾讯“通用大模型—腾讯混元”
  - 华为“盘古大模型5.0”
  - 智谱AI新一代认知智能大模型
  - 蜜度信息“蜜巢政务大模型”
  - 云知声“山海大模型”
  - 面壁智能“面壁MiniCPM旗舰端侧大模型系列”
模型应用
- 亚马逊云科技 “Amazon Q -专为企业定制的生成式AI助手”
- 无限光年“晓象”
平台与系统
- 希施玛“金融大语言模型服务平台”
- 稀宇“MiniMax开放平台”

智能机器人驱动未来

2023年，全国机器人市场规模达839亿元，市场发展蓬勃。本届大会展览重点打造人形机器人专区，将展出人形机器人25款，现场发布全球首个全尺寸开源公版人形机器人青龙，以及国内首个全尺寸人形…

[Remaining content truncated for brevity]

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-29发表2025-03-21更新 ByteAILab 6 分钟读完 (大约922个字)

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

就像动物有了眼睛，谢赛宁 Yann LeCun 团队的 Cambrian-1 能让 AI 获得强大的视觉表征学习能力。

古往今来，许多哲学家都探究过这个问题：理解语言的含义是否需要以感官为基础？尽管哲学家们看法不一，但有一点却不言而喻：坚实有效的感官定基（grounding）至少能带来助益。

比如科学家们普遍相信，寒武纪大爆发期间视觉的出现是早期动物演化的关键一步；这不仅能帮助动物更好地找寻食物和躲避捕食者，而且还有助于动物自身的进化。事实上，人类（以及几乎所有动物）的大多数知识都是通过与物理交互的感官体验获取的，比如视觉、听觉、触觉、味觉和嗅觉。这些感官体验是我们理解周围世界的基础，也是帮助我们采取行动和决策的关键。

这些思想不仅仅能用来探究哲学概念，而且也具有实用价值，尤其是近期多模态大型语言模型（MLLM）的发展，更是让视觉表征学习与语言理解来到了实践应用的关注核心。语言模型表现出了非常强大的规模扩展行为，而多模态学习领域的近期进展也很大程度上得益于更大更好的 LLM。

另一方面，人们仍旧没有充分探索视觉组件的设计选择，并且这方面的探索与视觉表征学习的研究有所脱节。这主要是因为这方面的研究非常困难：MLLM 涉及复杂的训练和评估流程，需要考虑的设计选择非常多。

近日，纽约大学谢赛宁和 Yann LeCun 团队以视觉为中心对 MLLM 进行了探索，填补了这一空白；他们还基于这些探索成果构建了 Cambrian-1（寒武纪 1 号）系列模型。（本文有三位共同一作：Shengbang Tong（童晟邦）、Ellis Brown 和 Penghao Wu。）

论文标题：Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
论文地址：https://arxiv.org/pdf/2406.16860
网站：https://cambrian-mllm.github.io
代码：https://github.com/cambrian-mllm/cambrian
模型：https://huggingface.co/nyu-visionx/
数据：https://huggingface.co/datasets/nyu-visionx/Cambrian-10M
CV-Bench：https://huggingface.co/datasets/nyu-visionx/CV-Bench
评估：https://github.com/cambrian-mllm/cambrian

具体来说，他们将 MLLM 指令微调用作了多种视觉表征的评估协议，如图 1 所示。

该团队表示：「我们这项研究的动机源自当前多模态学习研究的两个潜在问题：1）过度且…
```

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-29发表2025-03-21更新 ByteAILab 13 分钟读完 (大约1889个字)

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者李宏康，美国伦斯勒理工大学电气、计算机与系统工程系在读博士生，本科毕业于中国科学技术大学。研究方向包括深度学习理论，大语言模型理论，统计机器学习等等。目前已在 ICLR/ICML/Neurips 等 AI 顶会发表多篇论文。

上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力，但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。

近期，一个来自美国伦斯勒理工大学和 IBM 研究院的团队从优化和泛化理论的角度分析了带有非线性注意力模块 (attention) 和多层感知机 (MLP) 的 Transformer 的 ICL 能力。他们特别从理论端证明了单层 Transformer 首先在 attention 层根据 query 选择一些上下文示例，然后在 MLP 层根据标签嵌入进行预测的 ICL 机制。该文章已收录在 ICML 2024。

论文题目：How Do Nonlinear Transformers Learn and Generalize in In-Context Learning?
论文地址：https://arxiv.org/pdf/2402.15607

背景介绍

上下文学习 in context learning (ICL)
上下文学习 (ICL) 是一种新的学习范式，在大语言模型 (LLM) 中非常流行。它具体是指在测试查询 (testing query)前添加 N 个测试样本 testing examples (上下文)，即测试输入和测试输出的组合，从而构成一个 testing prompt，作为模型的输入以引导模型作出正确的推断。这种方式不同于经典的对预训练模型进行微调的方式，它不需要改变模型的权重，从而更加的高效。

ICL 理论工作的进展
近期的很多理论工作都是基于 [1] 所提出的研究框架，即人们可以直接使用 prompt 的格式来对 Transformer 进行训练 (这一步也可以理解为在模拟一种简化的 LLM 预训练模式)，从而使得模型具有 ICL 能力。已有的理论工作聚焦于模型的表达能力 (expressive power) 的角度。他们发现，人们能够找到一个有着 “完美” 的参数的 Transformer 可以通过前向运算执行 ICL，甚至隐含地执行梯度下降等经典机器学习算法。但是这些工作无法回答为什么 Transformer 可以被训练成这样 “完美” 的，具有 ICL 能力的参数。因此，还有一些工作试图从 Transformer 的训练或泛化的角度理解 ICL 机制。不过，受制于分析 Transformer 结构的复杂性，这些工作目前止步于研究线性回归任务，而所考虑的模型通常会略去 Transformer 中的非线形部分。

本文从优化和泛化理论的角度分析了带有非线性 attention 和 MLP 的 Transformer 的 ICL 能力和机制：

基于一个简化的分类模型，本文具体量化了数据的特征如何影响了一层单头 Transformer 的域内 (in-domain) 和域外 (out-of-domain, OOD) 的 ICL 泛化能力。
本文进一步阐释了 ICL 是如何通过被训练的 Transformer 来实现了。
基于被训练的 Transformer 的特点，本文还分析了在 ICL 推断的时候使用基于幅值的模型剪枝 (magnitude-based pruning) 的可行性。

理论部分

问题描述
本文考虑一个二分类问题，即将 x 通过一个任务映射到 y。为了解决这样的一个问题，本文构建了 prompt 来进行学习。训练网络为一个单层单头 Transformer。预训练过程是求解一个对所有训练任务的经验风险最小化 (empirical risk minimization)。损失函数使用的是适合二分类问题的 Hinge loss，训练算法是随机梯度下降。

本文定义了两种 ICL 泛化的情况。一个是 in-domain 的，即泛化的时候测试数据的分布和训练数据一样，注意这个情况里面测试任务不必和训练任务一样，即这里已经考虑了对未见任务 (unseen task) 的泛化。另一个是 out-of-domain 的，即测试、训练数据分布不一样。

本文还涉及了在 ICL 推断的时候进行 magnitude-based pruning 的分析，这里的剪枝方式是指对于训练得到的中的各个神经元，根据其幅值大小，进行从小到大的删除。

对数据和任务的构建
这一部分请参考原文的 Section 3.2，这里只做一个概述。本文的理论分析是基于最近比较火热的 feature learning 路线，即通常将数据假设为可分（通常是正交）的 pattern，从而推导出基于不同 pattern 的梯度变化。本文首先定义了一组 in-domain-relevant (IDR) pattern 用于决定 in-domain 任务的分类，和一组与任务无关的 in-domain-irrelevant (IDI) pattern，这些 pattern 之间互相正交。IDR pattern 有个，IDI pattern 有个。一个被表示为一个 IDR pattern 和一个 IDI pattern 的和。一个 in-domain 任务就被定义为基于某两个 IDR pattern 的分类问题。

类似地，本文通过定义 out-of-domain-relevant (ODR) pattern 和 out-of-domain-irrelevant (ODI) pattern，可以刻画 OOD 泛化时候的数据和任务。

本文对 prompt 的表示可以用下图的例子来阐述，其中是 IDR pattern，是 IDI pattern。这里在做的任务是基于 x 中的做分类，如果是那么其标签为 + 1，对应于 +q，如果是那么其标签为 - 1，对应于 -q。α，α’ 分别被定义为训练和测试 prompt 中跟 query 的 IDR/ODR pattern 一样的上下文示例。下图中的例子里面，。

理论结果
首先，对于 in-domain 的情况，本文先给了一个 condition 3.2 来规定训练任务需要满足的条件，即训练任务需要覆盖所有的 IDR pattern 和标签。然后 in-domain 的结果如下：

这里表明：1，训练任务的数量只需要在全部任务中占比达到满足 condition 3.2 的小比例，我们就可以对 unseen task 实现很好的泛化；2，跟当前任务相关的 IDR pattern 在 prompt 中的比例越高，就可以以更少的训练数据，训练迭代次数，以及更短的 training/testing prompt 实现理想的泛化。

接下来是

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

文章来源：https://www.aixinzhijie.com/article/6846162
转载请注明文章出处

该公司于今年1月从英伟达和亚马逊创始人贝索斯处筹集了7360万美元，其估值当时达到5.2亿美元。软银的这笔潜在投资凸显出软银在人工智能领域的投资雄心。

我们的工作不仅解决了现有图像描述数据集的局限性，也为设计更高效、可扩展的方法提供了灵感。我们期待 IT 框架在更多应用领域中展示其潜力，推动图像理解和生成技术的进一步发展。

[Remaining content truncated for brevity]

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

该团队表示：「我们这项研究的动机源自当前多模态学习研究的两个潜在问题：1）过度且…
```

接下来是

链接

分类

最新文章

归档

标签

订阅更新

文章来源：https://www.aixinzhijie.com/article/6846162转载请注明文章出处

该公司于今年1月从英伟达和亚马逊创始人贝索斯处筹集了7360万美元，其估值当时达到5.2亿美元。软银的这笔潜在投资凸显出软银在人工智能领域的投资雄心。

我们的工作不仅解决了现有图像描述数据集的局限性，也为设计更高效、可扩展的方法提供了灵感。我们期待 IT 框架在更多应用领域中展示其潜力，推动图像理解和生成技术的进一步发展。

[Remaining content truncated for brevity]

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

该团队表示：「我们这项研究的动机源自当前多模态学习研究的两个潜在问题：1）过度且…```

接下来是

链接

分类

最新文章

归档

标签

订阅更新

文章来源：https://www.aixinzhijie.com/article/6846162
转载请注明文章出处

该团队表示：「我们这项研究的动机源自当前多模态学习研究的两个潜在问题：1）过度且…
```