谷歌因涉嫌排挤竞争对手在英国被起诉50亿英镑

谷歌在英国因涉嫌在互联网搜索市场排挤竞争对手并滥用这一优势向企业过高收费而被起诉,索赔金额高达50亿英镑。


周三在竞争上诉法庭提交的集体诉讼指出,这家美国公司采取了措施,使其在搜索查询中展示的广告收取的价格高于公平市场下的价格。

据称,谷歌(属于Alphabet公司)与手机制造商签订合同,要求在安卓设备上预装谷歌搜索应用和Chrome浏览器,并支付苹果公司,使其在iPhone上成为默认搜索引擎,目的是排挤竞争对手。该诉讼由竞争法专家Or Brook代表数千家企业提起,指控谷歌确保其搜索引擎在功能和特性上优于竞争对手的广告产品。

谷歌的一位发言人表示:“这又是一起投机和机会主义的案件,我们将坚决反对。”她进一步表示,消费者和广告商使用谷歌是因为它有用,而不是因为没有替代品。

Brook表示,企业几乎没有选择,只能使用谷歌广告来宣传他们的产品和服务。“全球范围内的监管机构将谷歌视为垄断企业,确保在谷歌的首页获得一个位置对于可见性至关重要,”她在一份声明中说。 “谷歌一直在利用其在一般搜索和搜索广告市场的主导地位,向广告商收取过高费用。”

英国竞争与市场管理局(CMA)自1月起对谷歌的搜索服务进行调查,调查仍在进行中,包括对其对广告市场影响的调查。CMA当时表示,数以百万计的人和企业依赖谷歌的服务,谷歌的搜索服务占据了90%的市场份额,超过200,000家英国企业利用它进行广告宣传。

谷歌在全球范围内面临多起与其数字广告市场主导地位相关的竞争调查和诉讼。自9月份以来,它正在参与第二场反垄断审判,以确定其是否非法垄断数字广告行业,此前在8月份的一个标志性案件中败诉,目前正在上诉。

在美国政府的投诉中,一位谷歌广告高管将该公司的商业模式与高盛或花旗银行拥有纽约证券交易所进行了比较。若在该审判中败诉,谷歌可能被迫拆分其业务的部分并剥离一些广告技术,这将打击其主要收入来源,并对更广泛的科技产业和在线出版商产生深远影响。

3月份,欧盟委员会指控谷歌违反其数字市场的竞争规则,优先显示指向Alphabet自家服务的搜索结果,侵犯了对第三方服务“透明、公平和非歧视”的待遇要求。

根据欧盟数字市场法的规定,违反者可能面临全球收入的10%的罚款,若再次违规导致罚款提高至20%。

唐纳德·特朗普曾试图施压政府和机构停止对科技公司的竞争诉讼,并表示他将把对美国公司进行的任何监管行动纳入对外货物征收大规模关税的决策中。

本月有消息称,英国政府正在考虑降低其数字服务税的法定税率,该税在2020年对包括谷歌、亚马逊和苹果在内的科技公司的收入征收2%的税,年收入约为8亿英镑,以试图安抚美国总统。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Deepgram推出Aura-2

Aura-2在对话企业应用案例的偏好测试中击败了ElevenLabs、Cartesia和OpenAI,提供无与伦比的清晰度、速度和成本效益的自然、上下文感知语音合成,适用于实时企业互动。图片{ width=60% }


Deepgram是领先的企业用语音AI平台,今天宣布发布其下一代文本到语音 (TTS) 模型——Aura-2,专为关键业务环境中的实时语音应用而设计。Aura-2经过优化,具有清晰、一致和低延迟的性能,可通过云或本地API进行部署,使开发人员能够构建可扩展的类人语音体验,适用于企业中的自动化交互,包括客户支持、虚拟代理和AI驱动的助手。Aura-2建立在Deepgram Enterprise Runtime之上——同样支撑该公司的行业领先的语音到文本 (STT) 和语音到语音 (STS) 功能,为企业提供控制、适应性和性能,以满足生产级语音AI的部署和扩展需求。通过Aura-2,Deepgram在企业语音技术领域进一步巩固了其领导地位,使企业能够在大规模上提供自然、响应迅速和上下文准确的对话。目前,已有超过200,000名开发者和1,200家公司,包括财富500强企业和像Jack in the Box、Vapi及OneReach.ai这样的语音AI初创公司在使用Deepgram。

“我们依赖Deepgram的语音识别在规模上支持实时语音交互,因此能够在同一企业级基础设施中部署TTS是非常有吸引力的,”Vapi首席技术官Nikhil Gupta表示。“从单一供应商获取STT和TTS显著降低了集成复杂性和延迟,为构建大规模对话AI的团队提供了更顺畅的体验。”

“Aura-2出色的清晰度和自然性显著提升了我们的对话AI解决方案,使客户互动更加流畅和引人入胜,”Cognigy人工智能转型高级副总裁Thys Waanders表示。“Deepgram能够以规模化的方式提供实时、领域特定的发音,确保我们满足企业呼叫中心在高效和降低成本方面的复杂需求。”

弥合差距:企业优化的语音AI
在当今的TTS领域,娱乐导向模型与企业级语音系统的运营需求之间存在显著差距。虽然以娱乐为导向的TTS平台是针对故事讲述、角色声音和情感表达交付进行训练和优化的,但当应用于企业用例时,它们却无法满足需求。企业应用需要的不仅仅是自然声音——它们还要求领域特定的发音、专业语调、一致的上下文处理,及在需要完全部署控制的环境中,能够可靠、经济高效地运行。Aura-2弥合了这一差距,提供为企业关键环境的规模、精确和弹性所设计的高质量、上下文感知的语音。与针对创造性表达进行优化的娱乐导向系统不同,Aura-2反映了企业语音AI的优先事项,在关键维度上提供优势:

  1. 领域特定的发音卓越——Aura-2确保精确处理行业术语,准确发音医疗术语、金融行话、产品名称和复杂数字,无需手动标记。这一内置的准确性消除了对广泛发音词典或手动干预的需求,确保在专业领域清晰沟通,其中精确性至关重要。

  2. 专业语音质量和自然性——Aura-2提供40多种覆盖美国英语和本地口音的声线,发布真实的、适合商业的语音,避免了娱乐导向TTS中常见的过于戏剧化的语调。组织可以选择与其品牌身份一致的声线角色,从“充满同情和魅力”到“冷静而专业”,在所有客户接触点保持一致。

  3. 上下文感知的表现——Aura-2根据上下文智能调整节奏、停顿、语调和表达——无论是拨打电话号码、处理支持升级还是进行交易交互,结果都是平滑、连贯的语音,音量均匀,发音清晰。

这些语音和交付优势转化为真实用户偏好。在企业场景的面对面比较中,Deepgram几乎在60%的情况下胜出。

实时性能——Aura-2针对现实企业工作负载进行了优化,提供低于200毫秒的首次字节时间 (TTFB),实现超响应的交互。它高效支持成千上万的并发请求,同时在高容量部署中维持持续低延迟和高质量语音输出——从呼叫中心到虚拟助手。对于具有严格安全或数据驻留要求的团队,在本地或VPC中部署Aura-2不仅确保完整控制——还可以通过消除往返云端的延迟来减少延迟。

成本效益——Aura-2以透明的定价提供企业级语音,优化了大宗使用。每1000个字符仅需0.030美元,相较于ElevenLabs Turbo(0.050美元)和Cartesia Sonic(0.038美元)提供可观的节省。Deepgram的基于使用量的模式包括所有40多种声音,以单一费率计费,无隐藏费用,并提供分层的企业定价,从而显著降低高容量实施的成本。这种方法消除了质量与成本的权衡,使企业能够在不牺牲性能的情况下,在所有接触点提供一致的声音体验,以控制成本。

“我们的客户需要的不仅仅是听起来不错的声音——他们需要在专业环境中精确、可靠地交流的声音,”Deepgram首席执行官Scott Stephenson表示。“Aura-2实现了自然语音与企业级准确性的完美平衡,使组织能够创建真正强化客户互动的语音体验,同时维护运营效率。”

“Aura-2为企业级TTS设定了新的标杆。它所提供的清晰、一致和低延迟的体验为我们的AI代理体验带来了变革,”Stack AI联合创始人Bernardo Aceituno表示。“凭借Deepgram的语音合成,我们能够构建不仅听起来更人性化,而且在企业所需的可靠性中表现出色的工作流程。”

“我们选择Deepgram是因为它提供了我们支持大规模实时交互所需的速度、成本效益和准确性,涵盖从STT到TTS,”LockedIn AI首席执行官Caesar Gui表示。“Aura-2的响应性和质量让我们能够创建语音自然的AI代理——同时从单一供应商获得整个语音堆栈意味着更快的迭代和更少的集成麻烦。”

企业级架构用于实时应用
Aura-2由Deepgram Enterprise Runtime (DER) 提供支持——这是一个专为企业级性能定制的基础设施层,运行Deepgram所有的语音模型。DER专门设计用于实时协调语音AI,提供生产规模部署所需的速度、可靠性和适应性。主要功能包括:

  • 自动模型适应——通过高价值数据策划、合成数据生成和自动训练持续改善表现,使语音模型随着业务演变。
  • 模型热切换——允许在生产中即时更换模型而无须停机,支持实时个性化和快速迭代。
  • 极端压缩——专有无损压缩显著减少计算负载和运营成本,同时不影响质量。
  • 灵活部署——支持公共云、私有云 (VPC) 和本地环境,使企业能够控制和灵活地整理内部基础设施、合规政策和数据治理标准。
  • 为实时而非回合制设计——旨在流畅、人性化的对话,具备中断处理和思维结束检测,支持动态、重叠的语音模式。

通过运行在DER上,Aura-2继承了一个为关键任务性能构建的企业级基础。此架构优势意味着组织可以部署先进的TTS能力,同时维护Deepgram可信平台所定义的安全、可靠性和可扩展性的运营标准。不同于限于云端的供应商,Deepgram提供真正的部署灵活性——在云、VPC和本地环境中实现对称性能,因此企业可以在没有权衡的情况下满足安全和基础设施要求。企业获得的不是运营特征迥异的独立系统,而是一个为生产环境设计的统一语音AI基础设施。

Deepgram在STT方面的领导地位增强了TTS功能
Deepgram在STT领域的公认领导地位使Aura-2在提供准确、生产就绪的TTS方面具备了明显优势。通过运行在驱动Nova-3语音识别和对话AI的同一企业运行时上,Aura-2受益于共享学习、统一部署和无缝的开发者体验。Deepgram语音AI堆栈的这种深度集成消除了通常因为将多个供应商的工具拼接在一起而出现的操作复杂性和调试挑战。

“我们多年来开发Nova-3和其他STT模型使我们对现实世界的语音模式有了深刻的洞察,”Deepgram产品副总裁Natalie Rutgers表示。“借助Enterprise Runtime,Aura-2直接利用我们的声学模型和发音数据集,实时提供精确、特定于行业的语音合成。”

这一统一架构允许持续的跨模型学习,语音识别中的改进自动增强语音合成,利用共享运行时。这一平台根据您的特定行业术语和用户互动不断学习和适应,将孤立的语音组件转变为一个随着每次交互不断增强的统一语音AI平台。对于企业来说,这意味着更可衡量的性能:系统间一致的发音、减少的端到端延迟和实时模型自定义——所有这些都出自于Deepgram所定义的同样可靠的平台。

亲自体验Aura-2
马上开始构建企业级的TTS。通过我们的互动游乐园立即体验Aura-2,或在deepgram.com上探索深入的产品能力。新用户可获得200美元的免费积分——足以生成超过1300万字符(约220小时的语音)。迈出转型您的语音应用的第一步,使用Deepgram的行业领先技术。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Spotify在用户全球报告问题后重新运行

数万名Spotify用户在全球报告无法在应用上播放音乐,该流媒体平台周三遭遇数小时的技术问题。


监测平台Downdetector显示,周三下午有超过48,000条关于Spotify的故障报告。在英国,报告Spotify无法正常运行的用户数量在下午1:30达到峰值,问题在30分钟前开始。到了下午3点,这一数字降至约10,000。Spotify在两个小时后确认服务已经恢复正常。该流媒体平台在下午5:08在社交平台X上发布消息:“一切恢复正常 – 感谢您的耐心。如果您仍然需要帮助,请联系@SpotifyCares。”用户表示,他们能够播放下载到设备上的音乐,但无法查看艺术家或使用应用的搜索功能。其他人反映该平台运行缓慢或没有响应。在尝试搜索音乐时,Spotify似乎超时,显示“出了点问题”的信息,并带有一个刷新按钮。许多用户在社交媒体上表达了他们的沮丧,称此次故障打断了他们的健身或学习计划。一位来自瑞典的流媒体平台发言人表示:“Spotify于上午6:20(东部时间)左右发生故障。至上午11:45(东部时间),Spotify已恢复正常运行。”稍早之前,该发言人曾表示公司“已意识到故障,并正在尽快解决”问题,并补充说:“关于这是一场安全攻击的报告完全不准确。”Spotify没有进一步提供有关故障原因的信息。Spotify全球拥有超过6.75亿用户,该公司告诉BBC“搜索方面的问题已得到解决”,并正在向用户推出更新。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Barracuda任命Ketan Tailor为首席客户官

资深领导者在快速增长的业务中提升客户体验
Barracuda Networks, Inc.是一家领先的网络安全公司,为各种规模的企业提供全面保护,以应对复杂威胁。图片{ width=60% }


今天宣布任命Ketan Tailor为首席客户官。Tailor拥有20多年领导经验,在Barracuda这个关键时刻加入,以提升客户体验举措,同时加速其网络安全平台的增长。
“凯坦是一位富有激情和远见的领导者,拥有建设世界级以客户为中心的组织、推动增长、促进创新和培养长期忠诚度的成功经验,”Barracuda Networks首席执行官Hatem Naguib表示。“他在客户成功、支持及全球运营扩展方面的深厚专业知识,将在我们进入下一个增长阶段时发挥关键作用。Ketan的领导力将确保我们不仅满足客户不断变化的需求,而且继续超越他们的期望,为我们的全球扩展提供卓越的价值。”
在加入Barracuda之前,Tailor曾担任Ping Identity的全球支持副总裁,在那里他成功地将支持职能转变为高增长的收入引擎,并在后并购整合中发挥了关键作用。他的领导对扩展全球运营并通过创建分层服务提供,即为客户提供适当级别的参与和支持,从而提高客户满意度至关重要。
Tailor还曾担任xMatters的客户成功与支持副总裁,期间在被Everbridge收购时实施了全面的客户旅程框架,开发了预测性客户健康评分,并领导了将客户转变为品牌倡导者的策略。在此之前,他还在Sophos领导美洲的支持运营,在那里推动了运营效率并建立了可以扩展的全球支持团队,从而提升服务交付,缩短响应时间。
“这是一个令人振奋的时刻,Barracuda及其合作伙伴和客户将迎来一个新的阶段,我很高兴能加入这样一个创新且以客户为中心的组织,”Tailor表示。“我渴望与这支才华横溢的团队合作,进一步增强客户体验,推动有意义的增长,并在我们继续塑造网络安全的未来时,为客户提供更大的价值。”



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

FireMon欢迎Skybox顶尖人才以加速全球扩展

来自Skybox Security的网络安全专家加入FireMon,以推动在EMEA、APAC和北美的增长,提供统一的客户价值
FireMon,网络安全政策管理(NSPM)的领导者,今天宣布招聘四位来自Skybox Security的战略销售领导者,进一步增强其对全球增长和客户成功的承诺。图片{ width=60% }


随着Alessio Fasano(南EMEA)、Morris Becker(DACH)、Veera Subramanian(东南亚)和Brian Matzke(纽约市)的加入,FireMon继续扩大其全球足迹,强化地区领导能力,增强其提供可扩展、安全和创新解决方案的能力,以满足各市场企业的需求。
Alessio Fasano,曾担任Skybox的意大利、希腊、塞浦路斯和马耳他的国家经理,以公司中最成功的销售高管的身份加入FireMon。作为一名经验丰富的技术领导者和企业家,Fasano拥有数十年的经验,领导团队、发展渠道合作伙伴关系,并在压力下交付可衡量的成果。他还曾担任Retelit的集团首席安全官,从另一侧深入了解客户的痛点。
Morris Becker,位于德国,在Skybox成功任职后加入FireMon,帮助指导企业参与并在中欧地区发展业务。以其顾问式销售方法和深厚的地区知识而闻名,Becker将在FireMon的DACH地区增长中发挥关键作用。
Veera Subramanian,曾任Skybox的东南亚和香港地区销售总监,现在负责FireMon在东南亚和澳大利亚的战略客户。凭借在APAC地区构建和扩展销售运营超过20年的经验,Subramanian因帮助组织通过可见性、分析和自动化实现更强的安全态势而被认可。他还是Vincere CyberTech的创始人,并曾在F5、Picus Security等快速增长的安全供应商担任领导职务。
Brian Matzke以纽约市战略客户执行官的身份加入FireMon,此前他在Skybox Security的任期内推动了东北部的企业销售。他的加入进一步增强了FireMon在北美团队的实力,这是对客户领导力进行广泛全球投资的一部分。凭借超过30年的技术销售经验,包括过去15年的网络安全领域,Brian在网络和信息安全解决方案方面具有深厚的专长。他的背景还包括在Radware、Tenable和IntSights的职位。
“FireMon在网络安全政策管理方面已有超过25年的领先地位,帮助全球企业应对复杂性、降低风险,并在不断演变的威胁环境中保持安全,”FireMon首席营收官Brian Keets表示。“引进Alessio、Morris、Veera和Brian这样的行业资深领导者,对于推进这一使命至关重要。他们每个人都带来了深厚的地区专业知识和以客户为中心的强烈意识,这些品质在我们全球扩展和继续为客户提供有意义的结果时至关重要。”
继Skybox Security关闭后,FireMon看到来自一些行业知名安全专业人士的全球兴趣和招聘急剧上升。这些新聘员工是FireMon在国际市场扩展和响应能力方面进行的一系列战略举措的一部分,同时继续支持其企业客户,提供业界最智能的安全政策管理平台。
FireMon的全球足迹目前覆盖70多个国家,服务于超过1,700个客户。公司继续引领混合云安全、自动化和通过持续合规和智能政策治理来降低风险的市场。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Phantom Neuro获得奥托博克领投的1900万美元A轮融资

投资将加速Phantom X的临床试验和商业化进程,奥托博克将加入Phantom Neuro董事会
Phantom Neuro,一家推进人机界面的神经科技公司,今天宣布完成一轮超额认购的1900万美元A轮融资,由全球假肢、矫形和外骨骼技术的领导者奥托博克(Ottobock)领投。图片{ width=60% }


此次融资还包括现有投资者Breakout Ventures、Draper Associates、LionBird Ventures、Time BioVentures和Risk and Return的参与,以及新投资者Actual VC、METIS Innovative、e1 Ventures、Jumpspace、MainSheet Ventures和Brown Advisory的加入。
此次投资使Phantom Neuro的总融资达到2800万美元,并标志着公司在将Phantom X机器人控制平台带入患者生活的使命中的一个里程碑。资金将支持前临床测试、首个人体试验的完成、监管提交,以及为更广泛的控制应用进行更深入的研发,超越假肢的应用。
“奥托博克的支持凸显了神经科技、假肢和机器人技术日益融合的趋势,”Phantom Neuro创始人兼首席执行官Connor Glass博士表示。“数十年来,奥托博克一直处于为数百万人的恢复移动能力的最前沿。通过与他们的合作,我们正在加速Phantom X的市场路径,并为我们渴望的未来打下基础:助行设备真正作为人体的自然延伸。”
作为投资的一部分,奥托博克将加入Phantom Neuro的董事会,带来在全球假肢和外骨骼市场的专业知识,以支持Phantom的商业化努力。
“Phantom Neuro正在改变人们与助行设备的互动方式,他们的微创神经接口技术代表了该领域的一个激动人心的进步,”奥托博克首席执行官Oliver Jakobi表示。“我们的投资反映了我们作为医疗技术先锋在假肢市场领先的雄心,确保患者能够获得最有效的解决方案。我们期待与Phantom Neuro合作,扩大这一突破性技术的普及。”
此次融资是在Phantom Neuro最近获得美国食品药品监督管理局(FDA)授予的突破性设备认证和目标加速通道(TAP)认证之后进行的。这些认证验证了该平台改善患者结果的潜力,通过提供类人控制的假肢和辅助设备,并帮助加速监管审批。
此外,Phantom Neuro的ASCENT研究表明,Phantom X在解码实时手势方面,达到了94%的准确率,涵盖11种关键的手腕和手部运动,进一步支持其恢复功能和独立性,帮助有行动障碍的个体。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Loftware推出新的SAP标签集成

Loftware, 全球领先的企业标签和艺术品管理解决方案提供商,今天宣布推出两项新的集成,以增强任何SAP环境中的标签能力。图片{ width=60% }


这些集成简化了标签流程,减少了错误,并确保了法规合规,使企业能够实现更高的效率、无缝的供应链标签打印以及合规驱动的成本节约。

Loftware Integration for SAP BTP和S/4HANA Cloud以及Loftware Integration for SAP GLM+支持整个供应链中的安全和自动化标签,帮助企业消除手动重新贴标签的工作,降低误标风险,并保持与不断变化的法规要求一致。这对那些在化学品和危险材料领域运营的公司尤其重要,因为他们正在为即将于今年5月开始实施的修改版欧洲CLP法规做好准备。

“最新的集成加强了我们与SAP的紧密合作关系,以及我们帮助各类企业提升准确性、维持合规和降低成本的承诺。通过与SAP的Clean Core倡议对齐并启用Loftware Cloud,我们使客户能够简化供应链操作,并为他们的标签策略的未来做好准备,”Loftware首席产品官Michelle Northey说道。

Loftware Integration for SAP GLM+通过促进来自SAP全球标签管理(GLM+)系统的打印请求,同时提供实时作业状态更新,扩展了企业标签能力。这一集成使组织能够轻松管理复杂的标签要求,减少对IT资源的依赖,同时通过Loftware Cloud的直观和用户友好的平台显著简化标签设计。

Loftware Integration for SAP BTP和S/4HANA Cloud是一种产品无关的集成,它接收来自SAP Cloud(公共版)和SAP BTP系统的打印请求,以驱动标签打印流程。该集成经过SAP BTP和SAP S/4HANA Cloud(公共版)的认证,进一步巩固了Loftware的可靠性和市场领导地位,同时支持SAP打印队列以实现无缝的标签打印通信,并提供实时作业状态更新。随着与SAP Cloud和SAP BTP的集成的增加,Loftware现已提供了一整套SAP集成选项,可以满足SAP客户在云迁移过程中当前和未来的需求。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开

文生图领域权威的第三方榜单Artificial Analysis竞技场发布消息称,字节跳动Seed团队图像生成模型Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o,稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等模型,进入全球第一梯队。

截屏2025-04-16 10.25.01

Seedream 3.0是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。


据Seedream 3.0技术报告,Seedream3.0是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。

值得一提的是,Seedream 3.0在3秒左右即可快速生成1K分辨率的高品质内容,相比之下,业界同类模型生成该分辨率内容的耗时基本在10秒以上,而此前文生图SOTA模型GPT-4o平均耗时为77秒。

1280X1280 (3)

图注:Seedream3.0 技术报告中评测结果

豆包大模型团队推文介绍称,Seedream3.0研发始于2024年末,通过调研设计师等群体的实际需求,团队不仅将图文匹配、结构、美感等行业共识性指标纳入攻坚方向,同时,也将挑战小字生成与复杂文本排版、2K高清直出、快速图片生成等难题作为核心目标。

针对2K分辨率、多尺寸图像直出能力实现,团队借助了Transformers架构对变长输入序列的灵活处理能力,在从512x512到2048x2048的多种分辨率和不同长宽比上混合训练,让模型实现不经过额外深加工的高清直出,同时也支持多种分辨率输出。

为支持快速生成高品质图像,模型采用自研推理加速算法,依靠一致性噪声预测,叠加重要时间步采样,最终实现对模型的无损加速。在保障图文匹配、美学质量、结构准确度等指标的前提下,Seedream 3.0 生成1K分辨率图像仅需 3 秒。

1280X1280 (9)

图注:Seedream3.0输出图像细节丰富,蝴蝶绒毛根根分明

Seedream3.0还大幅提升了小字体高保真生成、多行文本语义排版表现,满足设计师对海报设计的需求。团队在预训练阶段,引入跨模态旋转位置编码,补足传统方法模态特征对齐短板,进一步加强了文字渲染能力。

Seedream3.0模型可完成小字生成、多行文本排版,并兼顾画面美感

图注:Seedream3.0模型可完成小字生成、多行文本排版,并兼顾画面美感

据Seedream团队介绍,相比此前2.0版本,Seedream 3.0在数据和RLHF阶段也使用了全新方案。团队采用缺陷感知的训练策略,使有效数据集扩充超过20%,同时设计了精准的美感描述维度,并进一步拓展RLHF奖励模型,使Seedream 3.0具备多维度质量判别能力,综合性能大幅提升。

Seedream3.0在美感等方面较2.0进一步提升

图注:Seedream3.0在美感等方面较2.0进一步提升

Seedream团队表示,“新模型在海报创作、生成效率、结构与美感等方面取得了明显进步,但在生成可用性、美感与结构、智能化方面仍有提升空间。”

据了解,未来,团队计划探索更高效的结构设计,包括构建效果更好、成本更低、生成更快的文生图模型,并进一步拓展模型对世界知识的理解,赋予模型交织生成等能力。同时,团队也计划探索数据、模型量级、奖励模型等维度的Scaling现象,将认知积累应用于下一代模型中。

Seedream 3.0 技术报告:https://arxiv.org/abs/2504.11346

Seedream 3.0 官方网页:https://team.doubao.com/zh/tech/seedream3_0



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws

最近一段时间,各家新势力都在角力部署端到端的智能驾驶系统。

作为公认的新范式,它可以让整个智能驾驶系统反应更快,更加拟人,能处理以往方法无法解决的大量 corner case,被认为是自动驾驶通向 L3、L4 的正确方向。


在国内,小鹏于去年 7 月就宣布了量产端到端大模型上车,并构建了从算力、算法到数据的全面体系,在端到端方向上一直保持着领先的身位。

本周,小鹏在 AI 技术分享会上介绍了自己在智能驾驶领域的重要突破和进展,首次披露了正在研发 720 亿参数的超大规模自动驾驶大模型,即「小鹏世界基座模型」。

小鹏的技术人员表示,在物理世界,信息和模态的复杂程度要比数字世界复杂数倍,自动驾驶本质上是物理世界中的复杂 AI 问题,也是具身智能的第一步。

小鹏发展的云端世界基座模型以大语言模型为骨干,使用海量的优质多模态驾驶数据进行训练,具备视觉理解、链式推理和动作生成能力。通过强化学习训练,其基座模型可以不断自我进化,逐步发展出更全面、更拟人的自动驾驶技术。

图片

小鹏汽车自动驾驶负责人李力耘表示,小鹏早在去年就开始布局 AI 基础设施,建成了国内汽车行业首个万卡智算集群,用以支持基座模型的预训练、后训练、模型蒸馏、车端模型训练等任务,小鹏将这套从云到端的生产流程称为「云端模型工厂」。

端到端大模型虽然是各家车企的共识,但仍然面临着算力等瓶颈。当前主流的智驾系统,如运行在 2× 英伟达 Orin 芯片上的系统,大部分只能支持 0.5-1 亿参数,在部署时必须对学习到的知识进行取舍。相比之下,云端大模型体量可以达到车端模型的 140 倍以上。

自去年下半年开始,小鹏面向 L4 级别的自动驾驶启动研发全新的「AI 大脑」,即小鹏世界基座模型。

其团队利用优质自动驾驶训练数据先后开发了多个尺寸的基座模型,目前正在着手推进 72B(72 Billion,即 720 亿)超大规模参数世界基座模型的研发,参数量是主流 VLA 模型的 35 倍左右。

图片

据介绍,该模型的一大优势是具备链式推理能力(CoT),能在充分理解现实世界的基础上像人类一样进行复杂常识推理,并做出行动决策,如输出方向盘、刹车等控制信号,实现和物理世界的交互。

小鹏希望通过基座模型的能力让智驾系统从「模仿人类」进化到「超越人类」,最终能够处理全场景的自动驾驶问题,包括一些模型从未在训练数据中遇到的问题。

更进一步,端到端模型的研究也可以延伸到整个具身智能领域。李力耘表示:「世界基座模型是小鹏自动驾驶真正走向 L3、L4 的基础,也会是未来小鹏所有物理 AI 终端的通用模型。」

从零打造云端模型工厂

小鹏的云端模型工厂「车间」涵盖基座模型预训练和后训练(强化学习)、模型蒸馏、车端模型预训练到部署上车的完整生产链路。整个体系采用强化学习、模型蒸馏的技术路线,能够生产出小体量、高智能的端侧模型,甚至为不同需求的汽车定制不同的「大脑」,让「千人千面」的模型研发成为可能。

图片

目前,小鹏依靠自有万卡集群已拥有 10 EFLOPS 的算力,集群运行效率常年保持在 90% 以上,从云到端的全链路迭代周期可达平均 5 天一次。

小鹏世界基座模型负责人刘博士介绍,多模态模型训练的主要瓶颈不仅是 GPU,也需要解决数据访问的效率问题。小鹏汽车自主开发了底层的数据基础设施(Data Infra),使数据上传规模提升 22 倍、训练中的数据带宽提升 15 倍;通过联合优化 GPU / CPU 以及网络 I/O,最终使模型训练速度提升了 5 倍。目前,小鹏汽车用于训练基座模型的视频数据量已达到 2000 万 clips,这一数字今年还将增加到 2 亿 clips。

依托强大的 AI 算力基础设施和数据处理机制,小鹏开启了全新的基座模型研发范式,从云端模型预训练到车端模型部署,整个「云端模型工厂」的迭代周期达到平均 5 天一次。

三大阶段性成果

在率先量产端到端大模型的同时,小鹏在物理世界大模型研发上也再进一步,其分享了基础大模型研发的三个阶段性成果:

验证了 Scaling Laws 在自动驾驶领域持续生效:

图片

在后装算力的车端上成功实现基模控车:

图片

启动 72B 参数模型训练,搭建针对强化学习的模型训练框架:

图片

规模法则(Scaling Law)揭示了大模型的性能随着模型的计算量、训练数据量和参数量的提升而提升,在大语言模型(LLM)领域一直是人们追逐的目标。而在自动驾驶领域上,训练数据远不止单模态的文本数据,还包括摄像头、激光雷达等关于物理世界的多模态数据,本质上,这要求模型对物理世界形成认知和理解。

小鹏团队首次验证了 Scaling Laws 在自动驾驶领域持续生效,刘博士表示:「过去一年,我们做了大量实验,在 10 亿、30 亿、70 亿、720 亿参数的模型上都看到了明显的规模法则效应:参数规模越大,模型的能力越强。同样的模型大小,训练数据量越大,模型的能力也会越强。」

不久前,小鹏实践了理论,在后装算力的车端上用小尺寸模型实现了控车。尽管只是非常早期的实车测试,全新基模已经展现出令人惊讶的智驾能力。例如模型在未训练的情况下就能适应香港的右舵驾驶环境。

在 AI 技术上,小鹏也一直在探索最新方向,自去年就已开始研发大模型中的强化学习技术。强化学习能够帮助模型自我进化,学会处理训练数据中未出现的长尾问题,做到更安全的自动驾驶。只有足够强大的基座模型,才能被强化学习不断激发出能力上限。这也是小鹏汽车选择云端蒸馏路线的原因之一:在云端不计成本地训练出高智能、泛化能力强的模型,再将其蒸馏到适配车端算力的小模型上,才可以让车端模型的性能超越算力限制。

值得一提的是,强化学习、云端蒸馏等技术的思路,在今年初爆火的 DeepSeek R1 中得到了验证,目前正在逐渐成为行业共识。

基础模型是小鹏汽车 AI 化转型的重要一步,不过在智能驾驶的大模型时代,过去规则时代的经验仍能发挥作用。在开发强化学习的奖励模型(Reward Model)时,小鹏研发团队基于规则经验设计了奖励函数,将规则时代的沉淀转化为了新的生产力。

图片

小鹏也在推动世界模型(World Model)的研发,小鹏的世界模型是一种实时建模和反馈系统,能够基于动作信号模拟出真实环境状态,渲染场景,并生成场景内其他智能体(即交通参与者)的响应,从而构建一个闭环的反馈网络,可以帮助基座模型不断进化,逐渐突破过去「模仿学习」的天花板。

这也意味着人们能够以更有效的方式构建新模型,产生新能力。小鹏工程师表示,我们或许可以像黄仁勋展望的那样,用 AI 模型来生成一个新模型。

据介绍,小鹏世界基座模型研发和训练成果更多的细节,预计还会再今年 6 月的全球 AI 顶会 CVPR 上进行分享。

昨天,小鹏又宣布开启自研 AI 芯片计划,预计将在 2025 年底在中国内地率先实现 L3 级智能驾驶落地。

未来,小鹏还希望通过云端蒸馏小模型的方式将基模部署到车端,给「AI 汽车」配备全新的大脑。这款模型的能力同时也将拓展至小鹏的 AI 机器人、飞行汽车等。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

JHU提出最强ToM方法,AutoToM横扫五大基准

本文有三位共同第一作者,分别为 Zhining Zhang(张芷宁)、Chuanyang Jin(金川杨)、Mung Yao Jia。他们在约翰霍普金斯大学 Social Cognitive AI Lab 共同完成这篇论文。


本文的指导老师为 Tianmin Shu(舒天民),是 JHU Social Cognitive AI Lab 的主任。该实验室致力于构建能够在现实世界中理解、推理和与人类互动的社会智能系统,从而推进以人为中心的 AI。

如何让 AI 像人一样思考?如何拥有像人一样的认知能力和社会能力?

心智能力(Theory of Mind, ToM)是指通过观察他人的行为来理解他们内心想法的能力,这一能力对开发具备社会智能的智能体至关重要。

近日,来自JHU 的研究团队提出了 AutoToM,一种全自动、开放式的心智推理方法。作为首个面向开放场景的 model-based ToM 方法,以类似人类的思维模式,AutoToM 在 5 个基准测试中都取得了最好成绩,并展现出良好的可扩展性、鲁棒性以及可解释性。

图片

论文标题:AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind

论文地址: https://arxiv.org/abs/2502.15676

项目主页: https://chuanyangjin.com/AutoToM/

代码地址: https://github.com/SCAI-JHU/AutoToM

基于模型的心智推理

当前在实现心智能力的推理方面主要有两种方法:

  1. 使用大型语言模型(LLM)来推理他人的心理状态。然而,即使使用了换位思考、变化追踪和时空推理等提示策略,LLM 在复杂情境中仍然会出现系统性的错误。
  2. 采用基于模型的推理方法。特别是贝叶斯逆向规划(Bayesian Inverse Planning, BIP)。BIP 假设 agent 会根据一个贝叶斯心智模型(Bayesian Theory of Mind, BToM)做出理性行为。这个模型使用 MDP、POMDP、I-POMDP 等给定框架描述 observation、belief、action、goal 等心理变量之间的依赖关系,来模拟 agent 做出行为的过程。BIP 通过逆推这个生成过程,来判断哪些潜在心理状态可能导致我们观察到的行为。

JHU 该团队之前的论文(ACL 2024 杰出论文奖)将 BIP 和 LLM 结合,以实现既具可扩展性又稳健的模型化心智推理。这类方法更加稳健,在特定领域中相较于直接使用 LLM 有明显优势,但它们依赖的是固定、人工设计的模型,没有办法泛化到不同的领域。

图片

不同基准测试中的示例问题及其所需的 BToM 模型。

AutoToM 第一个适应开放场景的 model-based ToM 方法

AutoToM 引入了一种全新范式。它是一种完全自动化、开放式的基于模型的 ToM 推理方法。AutoToM 实现了对贝叶斯逆向规划的全流程自动化,包括模型结构的提出与调整、关键时间点的识别、假设的生成以及贝叶斯推理的执行。

它无需任何领域知识,可在任意情境中运行,能够推断任何心理状态,推理涉及任意数量的智能体,并支持任意层级的递归推理。这体现了团队对一种开放、通用且稳健的机器心理理论的愿景。

图片

AutoToM 的流程图。X 是已知的可观测变量,V 是潜在的心理变量,q 表示问题中查询的变量。ts:t 表示用于推理的信息来自 ts 到 t 的时间段。变量 s、o、b、a、g 分别表示 state、observation、belief、action、goal,图中的实线箭头表示模型中它们的依赖关系。

全自动的贝叶斯逆向规划

给定一个贝叶斯心智理论模型(BToM)中,我们引入大语言模型(LLM)作为计算后端,用于实现贝叶斯逆向规划(BIP)的各个关键环节。

假设采样(Hypothesis Sampling)

传统的 BIP 方法通常依赖人为设定的假设空间,以及为每个潜在心理变量指定具体的假设表示方式。而我们的假设采样模块则利用 LLM,根据上下文中可观测变量及其取值,生成一小集合的高质量假设。随后,我们还会通过假设筛选机制,去除不太可能的假设,从而压缩假设空间。

贝叶斯推理(Bayesian Inference)

我们使用 LLM 来估计 BToM 模型中每个局部条件概率。接着,通过对非目标潜在变量进行边缘化,我们得到目标变量的后验概率。与以往方法相比,我们的方法具有更强的通用性:支持任意结构的 BToM 模型,能够同时考虑多个潜在变量,并支持任意层级的高阶的心智推理。

图片

在给定的 BToM 模型下,AutoToM 进行全自动的贝叶斯逆向规划。

全自动的模型发现与改进

之前的方法依赖于人工设计的 BToM 模型,这限制了它们在特定领域外的适用性。相比之下,AutoToM 能够自动提出模型,并动态调整模型结构,从而在推理过程中兼顾有效性(即准确地推断出智能体的心理状态)和高效性(即尽可能简化模型和计算复杂度)。

信息提取

信息提取模块会处理给定的信息,识别可观测变量的取值,包括状态、动作和言语等信息,并按时间顺序组织。

提出初始模型

我们使用 LLM 根据已有的信息和任务提出一个初始的 BToM 模型。基于该模型,我们执行自动化的 BIP。如果该模型的效用超过某个阈值,我们便接受该模型的推理结果,否则将进行后续的模型调整。

模型调整

我们通过两种方式迭代式地优化初始模型:变量调整时间节点调整

  1. 变量调整:在某个具体时间点上,我们会引入新的、相关的潜变量来扩展模型结构,从而缓解推理过程中的不确定性。每引入一个变量,我们都会重新计算模型效用,并选择提升效用最大的修改方案进行保留。
  2. 时间节点调整:以往的研究通常假设所有历史都是相关的,而 AutoToM 能够在上下文中发现相关的历史信息,这种能力对于 AutoToM 在长上下文环境中成功进行心理理论推理并降低计算成本至关重要。从最小的时间范围开始,如果在当前的时间范围内,变量调整仍无法显著提升模型效用,我们会考虑加入新的时间节点以引入更多上下文信息。在考虑新的时间节点后,会在此基础上继续执行变量调整。

图片

AutoToM 通过在变量调整和时间节点调整之间交替进行,自动优化 BToM 模型。

自动适应情境,横扫五大基准测试

该团队在 ToMi、BigToM、MMToM-QA、MuMA-ToM 和 Hi-ToM 五个测试基准上进行了测试。这些基准覆盖了不同的心理变量、环境、agent 数量、有无语言表达、措辞风格以及模态类型。

与 AutoToM 不同,许多近年来的 ToM 方法只能应用于特定的基准测试。而在通用的方法中,AutoToM 在所有基准测试中都取得了最优的表现。

图片

AutoToM 和 baselines 在所有基准测试上的表现。

本文的消融研究突出了 AutoToM 在变量调整、时间步调整和假设减少方面的优势。AutoToM 能够构建一个合适的模型,该模型不仅支持丰富的 ToM 推理,还能减少计算量,在准确性和成本之间取得平衡。

图片

AutoToM 及其消融方法在所有基准测试中的平均正确率与计算量。

总结和展望

总的来说,AutoToM 是一个 ToM 推理任务的新颖框架。面对任何 ToM 推理问题,AutoToM 都可以自动构建一个合适的 BToM 模型,并借助 LLM 执行自动的贝叶斯逆向规划。

AutoToM 在所有测试上取得了最好的结果,这是因为 BIP 在面对复杂环境和较长上下文时可以稳健地推理。此外,AutoToM 具有可解释性,能够通过其发现的概率模型来解释模型的判断过程。

该论文为实现更具人类思维特征的推理方式,以及构建具有人类认知基础、具备可扩展性、稳健性和开放性的心理能力模型,指明了一个有前景的方向。该论文也引发了关于 inference-time compute,以及可扩展的 model-based inference 的广泛讨论。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB