汤道生谈腾讯大模型:腾讯要打造“好用的AI”

腾讯的AI业务,究竟是如何布局的?

今天举办的腾讯全球数字生态大会上海峰会上,围绕大模型的研发与应用,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生详细解读了对于AI的思考和业务最新进展。

汤道生表示,DeepSeek的开源与深度思考的突破让大家都很兴奋,它给大模型带来的绝不只是评测多跑了几分的“量变”,而是里程碑式的“质变”。


用户在实际使用过程中,切实感受到了AI的“可用性”在进一步提升。

“AI正在跨过产业化落地的门槛,站在普及应用的全新节点上。行业由之前的模型训练主导,发展到今天更多是应用与Agent驱动;我们看到,云上DeepSeek API调用量激增,语音交互的需求也带动了ASR(自动语音识别)与TTS(文本转语音)模型的API调用;模型推理的算力消耗正在高速增长,规模化推理的成本优化,成为云厂商的核心竞争力。”汤道生说。

面向未来,腾讯将立足于用前沿的AI技术,打造“好用的AI”,为用户提供有实效、有温度、可进化的智能产品和解决方案,助力大家的美好生活,推动实体产业创新突破。

汤道生强调,腾讯将做好两个坚持:一是坚持在模型研发上的持续投入,全力夯实模型底座,满足不同场景的需求;其次是坚持“用户为先”,将AI与多元场景深度融合,打造高可用、高稳定的AI应用,为用户带来“有用、好用”的智能体验。

大家上午好!

很高兴与大家相聚在腾讯云城市峰会,共同探讨数智化带来的创新发展与产业机遇。我们把峰会的首站定在上海,也是想借这个机会,对上海市政府长期以来给予我们的关心和支持,表示衷心的感谢!

上海是改革开放的前沿阵地,外贸进出口总额超过4万亿元,超过1000家跨国公司在这里设立了地区总部。上海也是技术创新的标杆,集成电路、生物医药、人工智能三大先导产业,产值突破了1.8万亿,其中人工智能产值超过4500亿,位居全国前列。

这些年,腾讯也为上海的发展持续贡献力量。我们打造了长三角地区算力规模最大的人工智能计算中心,建设了腾讯优图、科恩等创新技术实验室;服务了临港集团、上汽集团、老凤祥等一大批本地企业的数字化升级;也帮助外资企业更好的扎根中国;支持出海企业拓展新市场。

半个月前,我刚刚来过上海,和本地几家企业展开了深入交流,明显感受到,大家对于增长的信心显著回升。当下,AI新技术的快速突破,实体产业的持续升级,以及国际市场的不断开拓,都在为企业发展打开新的空间。腾讯也愿意以数字技术,为大家提供持续的增长助力。

第一个增长助力,是以AI实现产业的提质增效。

最近,DeepSeek的开源与深度思考的突破让大家都很兴奋。它给大模型带来的绝不只是评测多跑了几分的“量变”,而是里程碑式的“质变”。用户在实际使用过程中,切实感受到了AI的“可用性”在进一步提升。AI正在跨过产业化落地的门槛,站在普及应用的全新节点上。行业由之前的模型训练主导,发展到今天更多是应用与Agent驱动;我们看到,云上DeepSeek API调用量激增,语音交互的需求也带动了ASR(自动语音识别)与TTS(文本转语音)模型的API调用;模型推理的算力消耗正在高速增长,规模化推理的成本优化,成为云厂商的核心竞争力。

首先,腾讯在模型研发持续投入,全力夯实多个模型底座,满足不同场景的需求。

大模型技术是智能AI应用的基础。腾讯一方面坚定不移的推进大模型的全链路自研,另一方面,也积极拥抱先进的开源模型,让客户针对不同场景自由选择,满足各自对场景与性价比的要求。

2023年,腾讯推出了腾讯混元大模型,率先采用MoE架构,旗舰模型参数规模达万亿级,在各类行业测评中,无论是通用基础能力,还是专业应用能力,都稳居国内第一梯队;还有多个规格的蒸馏模型,在开源社区也深受开发者欢迎。

今年,我们又推出新一代快思考模型混元Turbo S,对大多数通用任务,实现“积极响应”,首字时延降低近一半。此外,更擅长完成复杂任务、深度推理的混元T1模型,也即将推出正式版。在多模态领域,混元全新上线并开源“图生视频模型”,用户只需要上传一张图片,输入创意描述,就可以生成一支自带音效、具有2K分辨率的5秒高清短片。

其次,在AI应用方面,我们坚持“用户为先”,将AI与多元场景深度融合,打造高可用、高稳定的AI应用,为用户带来“有用、好用”的智能体验。

大模型是AI应用的核心,但好的模型还需要搭配实用的场景、权威的内容来源、稳定的算力服务,才能在用户需要的时候,提供可靠的AI服务。

从用户需求出发,是腾讯的产品价值观。春节过后,用户迫切期望用到深度思考的推理能力,我们也快速响应用户需求,无论是面向C端的腾讯元宝、微信搜一搜、ima、地图等应用,还是面向开发者的大模型知识引擎、腾讯云AI代码助手等平台工具,都支持腾讯混元和DeepSeek的“双模调用”。

例如腾讯元宝,借助腾讯云智算强大的算力支撑与海量的运维经验,确保了用户使用过程流畅“不卡顿”。同时,叠加了自身积累多年的多模态能力,元宝能够对用户发送的图片做分析理解与优化处理。元宝利用了全网最优质的微信公众号内容,以及强大的“联网搜索”能力,确保了检索和生成结果的质量和时效性。最近,元宝还与腾讯文档打通,用户可以直接上传腾讯文档到元宝,让AI辅助总结、提炼要点,也能一键导出对话到腾讯文档,随时修改、分享或者继续创作。

如果模型是“大脑”,知识库也许就是“课本”。大脑智商再高,如果没有相应的知识做基础,也无法很好地解决问题。我们可以通过智能工作台ima,将模型与个人知识库融合,助力高效的工作和学习。用户基于本地文件、公众号文章等内容,构建个人和团队共享知识库,就能够实现对个人资料的精准检索、高质量的AI问答,辅助文本创作等。

企业同样可以将大模型与企业知识库结合,打造更懂业务的AI,让AI助力营销、客服和研发,提高市场竞争力。最近,腾讯乐享就上线了AI知识库功能,将深度思考与企业专属知识结合,获得了更强大的智能问答能力,为企业缩短新员工培训时间,提高员工专业水平,提高客户满意度,最终提高销售转化率。

除了腾讯乐享,还有腾讯会议、企点智能客服、AI 代码助手等,也都全面接入了深度思考的能力,为企业客户带来了更智能的使用体验。腾讯云自身就是这些产品的深度用家,边用边迭代。

例如,腾讯云AI代码助手,代码生成准确率提升30%以上,它支持上百种编程语言,能够完成代码补全、技术对话、代码诊断、单元测试等任务,已经落地了上百家数字化企业。

我们看到,很多企业也需要将大模型做进一步定制,结合企业自身的场景与数据,训练出自己的行业大模型,打造企业级的AI中台,让数据可以统一管理与复用,支撑在生产、销售和服务等环节的智能应用。

为此,腾讯推出了腾讯云TI平台,帮助开发人员一站式完成混元、DeepSeek、Llama等主流模型的精调与推理,覆盖数据获取、处理、模型训练、评估、部署到应用的全流程,数据标注成本下降70%,模型训练效率提升30%,同时还支持公有云、私有化及专属云部署。

另外,腾讯云大模型知识引擎,通过提供RAG(文件检索)、Workflow(工作流)、Agent等多种应用开发方式,来加速大模型应用的落地。企业可以获得稳定和精确的多模态知识问答效果;也可以用“拖拉拽”的简单方式,编排企业专属的工作流,快速搭建符合实际场景需要的大模型应用。

头部物流集团DHL就使用大模型知识引擎,编排了41条企业专属的工作流,快速搭建适合物流场景的智能服务,用AI自动接待客户,并完成查询快件、修改地址和时间、咨询保险和寄送等服务。更重要的是,通过工作流的模式,一线业务人员也可以直接配置智能服务,大幅降低了技术门槛和沟通成本。

目前,腾讯云大模型已在政务、零售、金融、工业、医疗、教育、文旅等30多个行业落地。

在推动模型应用落地产业的过程中,算力也非常关键。我们通过整合高性能计算、存储、网络、加速套件、云原生智能调度编排等能力,推出了腾讯云智算套件。模型训练的千卡日均故障率,仅为业界水平的三分之一;千卡集群训练的并行加速比达到96%,通信时间占比缩短到6%。此外,通过软硬件技术能力的整合,腾讯云智算集群从机器上架到开始训练,最快只需要1天。

当然,除了AI之外,腾讯运营多年的互联网服务,已经打磨出稳定与高性价比的基础设施服务,数字化技术如操作系统、云原生、网络安全等软件也全面开放给更多行业的客户。

国产软件企业也从早期侧重应用开发,逐步向更底层、更基础的平台技术扎根,技术水平与国外头部企业对齐,兼顾到国内外团队的需求与习惯,提供更高性价比、更及时响应的服务体验。

腾讯打造了以“6T”为代表的“全栈自主创新企业级软件”,覆盖数据库TDSQL、操作系统TencentOS、专有云TCE、PaaS平台TCS、大数据TBDS、AI开发平台TI,核心产品不仅通过了国家安全测评的最高标准,而且产品的兼容性、易用性和扩展性在市场上很受欢迎。比如协同办公领域,腾讯会议、企业微信、腾讯文档、腾讯乐享等应用,不仅稳定易用,而且有独特的C2B连接能力,在多个行业头部客户渗透率,都超过了50%。

无锡地铁集团就借助TencentOS操作系统,成功实现了50多个业务系统、400多套操作系统的国产化替换升级,通过底层系统的统一管理、协同变更,为全量的生产和管理信息系统打下坚实的支撑。值得一提的是,在替换过程中,我们实现了系统的“热迁移”,业务几乎0中断,用户全程无感知,成为轨道交通行业操作系统国产化标杆。

在AI和数字化融合创新的同时,我们也看到,新市场的拓展也成为了企业增长的重要驱动因素,国际化发展成为行业共识。在华东,特别是上海,很多企业都有出海的诉求,还有大量的外企,也希望分享中国大市场机遇。腾讯云也以数字化助力企业全球化发展,开拓增长新空间,在金融、泛互、媒体、游戏、电商等30多个领域,服务了10000多家海外客户,覆盖欧美、日韩、东南亚、中东、非洲等80多个国家和地区。

一方面,我们持续打造覆盖全球、稳定可靠的云基础设施,为企业国际化铺好宽平大路。例如在广汽出海的过程中,我们帮助埃安快速部署了面向东南亚地区的数字基础设施,成功复制“智能网联云平台”,3个月内完成了在泰国市场的车联网量产落地。很多客户反馈说,腾讯云在产品适应性、性价比和贴身服务等方面,都更有优势,成为大家出海的首选。我们持续加大一带一路市场的投入,在印尼的第三个可用区,与在沙特阿拉伯的数据中心也即将上线。

另一方面,中国互联网行业三十年的创新发展,所沉淀的经验和能力,也越来越受到全球客户的认可。最近,在泰国市场,正大集团旗下零售公司CP AXTRA,就把主要的零售及批发业务系统,成功迁至腾讯云。未来还将借助腾讯云的大数据解决方案,开展零售流程中的库存和需求预测、定价、促销等场景的数据应用,实现经营提效和商业增长。此外,很多欧美日韩企业,包括法国电信、日本万代、韩国网石、Coupang等众多当地的行业头部企业,也在广泛采用腾讯云的全球化资源、音视频、CDN、网络安全以及小程序框架等,服务全球用户。

各位领导、各位嘉宾!

我们正在共同见证数字技术为各行各业注入新动能。从大模型驱动的智能转型,到自主创新的国产软件崛起;从国内市场的数字化深耕,到扬帆出海开拓全球市场,腾讯云始终与千行百业并肩前行,成为企业最坚实的数字基石。

今天,我们不仅提供前沿技术,更传递一种信念——在这个充满不确定的时代,唯有锚定技术创新、开放协作、专注价值,才能将挑战转化为机遇,将焦虑升华为破局的力量。让我们携手并进,在数字浪潮中书写更多的辉煌!



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

DeepSeek真帮黄仁勋了,你们怎么不信呢?

文章来源:直面AI

图片来源:由无界AI生成
图片来源:由无界AI生成

北京时间3月19日凌晨,站在圣何塞GTC大会的舞台上,连黄仁勋自己都调侃:GTC是AI届的超级碗。

几周以来,外界已经对黄仁勋在GTC的演讲万分期待。


这个演讲可不好做,在DeepSeek的冲击之下,英伟达今年的股价已经下跌了12%。

这不再是发布新产品,高喊AI就是未来就可以完成任务的演讲,今年,黄仁勋需要回答很多问题。

而这场持续了两个半小时的演讲也的确和往年有很大的不同,黄仁勋在一开始就花了很长的时间去解释为什么推理时代缩放定律没有死、为什么英伟达依然非常重要。

而后,他不仅拿出了Blackwell的超大杯产品,还透露了下一代芯片,甚至下下代架构,时间一直蔓延到2028年。压轴出场的,则和黄仁勋勾画的AI发展路线图中的最后一站“物理AI”相关。

黄仁勋拯救了英伟达股价吗?至少从当日来看,截至收盘英伟达股价跌了3.43%,总市值缩水至2.82万亿美元。

到底是市场还需要几天时间消化,还是黄仁勋“游说”失败,还得等等看。

演讲要点:

  1. 发布超大杯Blackwell Ultra,性能提升1.5倍。
  2. 下一代AI“超级芯片”Vera Rubin,计划2026年底推出,并透露下下代芯片架构为Feynman,计划2028年推出。
  3. AI工厂的操作系统Dynamo,推理框架,资源利用最大化,搭配Blackwell强上加强。
  4. 推出“AI超级电脑”DGX Spark、DGX Station,提高本地运行大型AI模型的能力。
  5. 宣布网络组件的最新动作,推出Spectrum X和Quantum X交换机。
  6. 发布首个开放式人性机器人基础模型Isaac GROOT N1;并宣布与谷歌DeepMind和迪士尼研究院合作开发Newton开源物理引擎。

01、现场“开课”,

黄仁勋:你们真的都搞错了

自从号称训练只用了几百万美元的DeepSeek推理模型问世,世界就没有停止对英伟达的质疑。

起先,黄仁勋不语。然后,他开始发声,在采访中和财报会议上表示推理时代仍然需要大量计算,仍然需要英伟达的力量。

这次,他终于把这点摊开揉碎地说明了一番。

在发布会上,老黄拿出例子,让Llama3.3(LLM的代表)和DeepSeek R1(推理模型的代表)回答同一个问题:

“在我的婚礼上,需要7个人围坐同一桌。我的父母和岳父岳母不能挨着坐。此外,我妻子坚称她在我左手边的话,拍照更好看。同时,我需要坐在伴郎身边。我们怎么安排座位?如果我们邀请牧师和我们坐一起呢?”

看完这个问题,大部分人可能已经头大了。要回答它,不仅要识别其中包含多少个不同的需求,还要同时满足所有需求。有意思的是,最后又有一个进一步的问题,需要先回答主问题再补充这个问题的答案。

Llama 3.3非常简单粗暴,回答得很快,只用了439个tokens。但是,它的回答并不正确,未能满足所有要求。快、省但对于提问的人来说无用。

DeepSeek R1则反复思考,尝试了很多可能,反复检验答案,最终消耗了8559个tokens,才最终给出了答案。时间久,消耗大,但是给出的答案准确。

图片示例1

而每一个token生成的背后,都是整个模型的加载。推理模型更复杂,也就需要更多地计算。DeepSeek R1的参数规模达到6800亿,下一代有可能达到数万亿参数规模。

两相对比,DeepSeek R1比Llama 3.3多生成了20倍的tokens,计算需求高出150倍。

大模型推理是一种极限计算。”老黄表示。

通过这个对比,老黄很直观地告诉大家:推理模型也许预训练的时候消耗少,但推理起来可是实打实的吸金兽啊。英伟达GTC的官方博文中,把Tokens视为AI的语言和货币。

“去年,关于扩展定律Scaling Law,全世界几乎都预测错了。”老黄在台上再次强调。他进一步指出,如今扩展定律从一个变成了三个:预训练、后训练(微调)和推理。

图片示例2

那英伟达在推理时代要做什么呢?两方面:一方面,让芯片能在单位时间内处理更多tokens,另一方面,让单位算力的成本和能耗降低。

黄仁勋此前就在财报会议上表示,Blackwell就是为推理而生的,这次演讲中在说清楚推理模型为什么需要更多算力之后,黄仁勋也拿出图表,展开讲了讲这一点。

以Blackwell和Hopper做对比,都是1兆瓦功耗,Hopper数据中心每秒生成250万tokens。Blackwell数据中心提高了25倍,如果是推理模型,则比Hopper好40倍。

图片示例3

这让图表中出现了一个向上鼓的曲线,这个曲线正是黄仁勋想让各位AI制造商关注的“赚钱要点”。

图片示例4

黄仁勋称,成本是AI输出的token,收益就是用户获得的token。如果纵轴是前者,横轴是后者,横轴扩张更多时——也就是收益比成本扩张更多时——一个漂亮的利润弧线就出现了。

图片示例5

为了强调Blackwell是为推理而生这一点,老黄甚至不惜“拉踩”Hopper,称:“当Blackwell开始大量出货的时候,就算你送Hopper,别人基本也不会要的。”

以前老黄总说,(英伟达AI芯片)买得越多越省钱,现在他更进一步,告诉大家,买得越多越赚钱。

02 软硬兼施,

Blackwell超大杯与“AI工厂操作系统”Dynamo

花了40分钟讲明白为什么英伟达依然能打,为什么说Blackwell是为推理而生之后,黄仁勋当然还得说说新产品。

首先是Blackwell Ultra,专为AI推理时代而打造,Ultra的后缀大家也不陌生了,超大杯。

“我们专为这一刻设计了Blackwell Ultra,一个多功能平台,(利用它)可以高效地进行预训练、后训练和推理。”

其中GB300 NVL72在一个机架规模设计中连接了72个Blackwell Ultra芯片,并包含36个基于Arm Neoverse的Grace CPU。较上一代性能提升1.5倍,与Hopper相比收入潜力提高50倍。还是以DeepSeek R1为例,老款Hopper运行这个模型时每秒只能处理100 tokens,而GB300 NVL72每秒能处理1000 tokens。

图片示例6

这意味着用户获得回答的速度大大提高。

而HGX B300 NVL16系统相比于Hopper一代,推理速度提升11倍,计算能力提升7倍,内存大4倍。

英伟达一直都有软硬兼施的策略,此前也针对自家的芯片做了不少优化(不过,DeepSeek的开源周展示的一些优化甚至比英伟达还强),这次黄仁勋也同步官宣了开源推理框架Dynamo。

黄仁勋将之称为“AI工厂的操作系统”。这样说可能有点抽象,具体来说,Dynamo像一个交通指挥官,帮助GPU之间实现更好的通信。对思考和生成可以进行独立优化,高效利用资源。如此一来,(还是回到演讲开头强调的token问题上)每秒就能产生更多token了。

不过,黄仁勋也表示,Hopper虽然也可以用Dynamo优化,但是效果不会那么明显。

为推理而生的Blackwell再加上为推理优化而生的Dynamo,就是强上加强,DeepSeek R1的吞吐量一下提高30倍。

03 下一代更好

2028年还不够远,黄仁勋勾勒AI发展路径图

除了现在,黄仁勋当然还得谈到未来。

英伟达下一代AI芯片Vera Rubin首次走到台前,黄仁勋介绍,该名称来源于天文学家Vera Rubin(以暗物质研究著称)。

其中CPU Vera内容容量是前代的4倍多,内存带宽是前代的2倍多,而GPU Rubin讲配备299GB的HRM4。

用老黄的话说就是“几乎所有细节都是新的”。

图片示例7

这一代Grace Blackwell(GB)将在今年下半年发货,Vera Rubin将在2026年下半年发货。

黄仁勋也预告了Vera Rubin的超大杯,Rubin Ultra,对比GB300性能提升13倍,预计2027年下半年发货。

除此之外,连Vera Rubin之后的下一代AI芯片架构也被揭露,它被命名为Feynman,这个名字同样取自于一位科学家,对量子计算领域有突出和贡献的Richard Phillips Feynman。黄仁勋预告,Feynman甲沟将于2028年登场。

此外,值得注意的是,在演讲一开始,黄仁勋给出了AI的发展路线图,从2012年深度学习突破的起点AlexNet开始,经历Perception AI(感知AI,这个阶段AI主要用于理解数据,如识别语音、图片等)、Generative AI(生成式AI,也就是现阶段的以ChatGPT为代表的技术)。

图片示例8

接下来,已经看到苗头的是Agentic AI(代理AI),从简单的数据生成到执行任务。

而最终,AI的终极目标是Physical AI(物理AI),实现从软件到硬件、从虚拟到现实的跨越。让AI具备物理行动能力,如机器人和自动驾驶技术的发展。

英伟达作为AI计算的核心玩家,显然希望引领这一进程。

对物理AI这部分的具体展开,在黄仁勋的此次演讲中占比并不算高,但作为压轴出现,足见其重要程度。

舞台上出现了《星球大战》中的小机器人Blue,它在舞台上走来走去、摇头晃脑,看起来充满好奇心,不得不说看起来就非常灵动。

图片示例9

这个机器人搭载了英伟达Isaac GR00T N1,号称是全球首个开源且完全可定制的人性机器人基础模型。模型包含双系统架构,一个系统负责快思考,另一个负责慢思考。据英伟达介绍,该模型能轻松掌握抓取、移动等复杂人物。

图片示例10

与此同时,黄仁勋还宣布正在与谷歌DeepMind和迪士尼研究院合作下一代开源仿真物理模型Newton,专为机器人开发而生。

“通用性机器人的时代已经到来。”

04 老黄委屈,

英伟达推出好产品还远远不够

英伟达的高速增长也一直伴随着“泡沫”担忧,很长的一段时间,这家公司不断推出新的产品,但市场波动时有发生。很多次财报发布时,明明业绩全线飘红,黄仁勋也大表信心,股价还是会抖三抖。

“我们发了新东西,但人们立刻就会说,好,然后呢?这放在任何公司身上都不是正常都。”

这次,黄仁勋很少见地在GTC的舞台上倒了点苦水:“这不是买个笔记本电脑”。他表示,这既需要计划,也需要资源和人,规划是以几年为计的。

也许这也解释了为什么黄仁勋这次演讲持续了两个半小时(去年不到两小时),为什么他一口气掏出这么多成果,为什么AI芯片连2028年的下下代都透底了,为什么在最后拿出了AI发展路径的最后一站“物理AI”的最新成果。

老黄这次该讲的、能讲的都讲了,尽力了。

至于人们还会不会问“然后呢”,他也管不了了。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

又走一位合伙人!高管们集体「逃离」百川智能

王小川的AI创业合伙人们,陆续离开了他。

近日,百川智能被曝联合创始人焦可已经离职,联合创始人、模型研发负责人陈炜鹏即将离职。


对于这些消息,百川智能方面选择保持沉默。

新浪科技从知情人士处了解到,陈炜鹏管理着百川超过一半的研发人员,但公司聚焦医疗战略及内部激烈的资源竞争,其主动提出了离职,目前正等待百川智能内部放行。

此外,金融To B业务的负责人——百川智能商业合伙人、金融事业群总裁邓江,虽未官宣离职,但也已经离开,下一步或将加入一家大模型创业公司。

加上去年12月,联合创始人、商业化负责人洪涛也选择了离开。细数下来,在最近三个月以来,已出现三位联创及合伙级高管离职,另一位“等待离职中”。

二次创业仍拢不住人心,王小川和百川智能,究竟怎么了?

内斗或加剧高管们“出逃”

据知情人士近日爆料,“百川智能创始团队近期出现变动,其中,主要负责互联网业务的联创焦可已经离职,另一位主要负责百川大语言模型技术的联创陈炜鹏也将离职,目前还在走内部流程。”

据悉,焦可和陈炜鹏两人都已经分别开始AI领域创业。其中,焦可在AI语音方向创业,且正在寻求融资。陈炜鹏的创业项目为AI Coding方向,同样也在陆续接触一些投资人。

对于上述消息,百川智能方面至今未做回应。新浪科技曾向陈炜鹏本人求证相关消息是否属实,但对方未做回应。

不过,有知情人士对新浪科技透露,“陈炜鹏此次离职系本人主动提出,如果百川通过离职请求,很快就会离开。”

该人士进一步透露称,“陈炜鹏其实在百川负责基础大模型,管理着公司一大半的研发人员,是百川绝对的核心技术领导人。但是,由于2024年,百川内部爆发过激烈的人才、资源争抢,处于旋涡重心的陈炜鹏也深受其累,“主动提出离职”。

对于具体为何会发生人才和资源争斗,该人士并未直言。不过结合坊间传闻及百川智能近期动态,大致可以推测为百川进一步聚焦医疗战略,资源向医疗集中,进而导致内部分歧。

本月初,百川智能传出主要负责金融行业To B业务的B端组被裁撤,员工均在当天签署离职协议。据彼时百川智能方面回应新浪科技,“百川正按照既定规划,对金融业务进行优化调整,以集中资源、聚焦核心业务,加速实现“造医生、改路径、促医学”的愿景。”据彼时员工透露,“未来百川将以更高效的团队和更丰富的资源,推动优质医疗服务的普及与普惠。”

该公司内部人士表示,结合陈炜鹏被曝正筹备AI Coding方向创业项目来看,陈炜鹏本人对于AI医疗的兴趣或许没有那么浓厚。与王小川认定的公司战略方向不太一致,主动提出离职,或许也是不得已为之。

除了焦可和陈炜鹏外,知情人士还透露,本月初百川智能金融行业To B业务B端组调整的力度极大,目前整个组均已裁撤,之前负责该业务的百川智能商业合伙人、金融事业群总裁邓江,目前也已经离职。

至此,王小川的AI高管们,已有三名联合创始人离职,一人已经提离职等待批复中。

百川的步调乱了?

2024年7月,百川智能曾宣布完成A轮50亿元融资,同时将以200亿元估值开启B轮融资,成国内第三家估值200亿元大模型独角兽。在A轮融资中,百川的投资方包括阿里、小米、腾讯、亚投资本、中金等头部大厂和市场化投资机构,也有北京市人工智能产业投资基金、上海人工智能产业投资基金、深创投等国资背景产投基金。

去年还备受资本热捧的百川智能,缘何今年却忽然战略大转,多位高管陆续被曝离职?

资深AI行业人士李谋(化名)对新浪科技直言:“主要还是受到了DeepSeek的冲击”。李谋认为,“DeepSeek有着不弱于国内任何一家企业的AI infra能力,但他们却选择了开源路线,这直接击穿了各模型厂商的技术护城河,在AI infra能力比不过DeepSeek的情况下,大模型厂商想要在模型方案等B端业务上超越DeepSeek,唯有从算力和数据层面入手,算力比拼的是资金和GPU采购能力,唯一能做出差异化的,其实更多的是数据。”

“医疗行业足够大,这一领域的数据壁垒也很高,如果百川真的能够扎进去,发挥自己的模型能力同时构建起自己的数据壁垒,确实会有非常多的想象力”,在李谋看来,相比AI+金融领域目前已经布满大厂、各类创企,竞争已经非常激烈,AI与医疗的结合目前业务成熟的企业还不太多,但“健康长寿”的诱惑力又足够大,仍能够吸引资本为其不断买单。

但是,作为AI 1.0时代的“AI四小龙”们,很早就看到并进行布局,随后又陆续放弃的领域,王小川的AI+医疗新故事,又能够坚持多久?

以去年底刚上市的AI+医疗行业头部公司讯飞医疗为例。在2024年上半年,其账上还有着1.34亿元的亏损,且相较同期,亏损数额还在进一步扩大。行业头部企业尚且吃不上肉的情况下,急着聚焦医疗的百川智能,在大多数人看来更像是“步调乱了”。

据百川智能内部人士透露,公司不会放弃基础大模型研发,后续将会做医学增强的基础大模型。从长的时间线来看,AI与医疗的结合是王小川的理想、星辰大海,他甚至可以围绕AI怎么攻克癌症、衰老进行布局,对于早已财务自由的他,可以有耐心去追求自己的情怀,但他身边的人,又有多少能一直陪着他“做时间的朋友”?



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI如何重塑全球生物多样性研究,麦吉尔大学最新综述

编辑 | 2049

在全球生物多样性快速丧失的背景下,准确理解和监测生物多样性变化显得尤为重要。

目前全球约有 870 万种真核生物,但仅有约 200 万种得到正式描述。


即便是已知物种,我们对其分布、种群动态、生态功能等认知也存在巨大空白。

最近,由麦吉尔大学(McGill University)和匹兹堡大学(University of Pittsburgh)牵头,联合麻省理工(MIT)等多家研究机构的团队发表了一篇综述,系统探讨了人工智能(AI)技术如何帮助克服这些认知障碍。

论文不仅系统总结了 AI 在生物多样性研究中的现状,还为跨学科合作指明了方向,对推动生物多样性科学发展具有重要的指导意义。

该研究以“Harnessing artificial intelligence to fill global shortpositions in biodiversity knowledge”为题,于 2025 年 2 月 20 日发表在《Nature Reviews Biodiversity》。

图片

论文链接:https://www.nature.com/articles/s41467-025-56733-w

生物多样性认知短板

生物多样性监测与保护长期受限于数据获取与分析能力,自 1980 年代起,生态学界逐步确立困扰大规模生物多样性知识的七大不足:

Linnaean(分类描述)、Prestonian(丰度的估计和模式)、Wallacean(生物地理物种分布)、Hutchinsonian(非生物耐受性和基本生态位)、Raunkiaeran(功能性壮变异)、Darwinian(进化关系)和 Eltonian shortfalls(物种相互作用)。

图片

图示:生物多样性知识的七个不足。(来源:论文)

这些系统性缺陷严重制约着《昆明-蒙特利尔全球生物多样性框架》(GBF)2030 年目标的实现。

相关链接:https://www.cbd.int/gbf

传统监测手段在物种分布追踪(Wallacean 缺口)和种群动态监测(Prestonian 缺口)方面存在时空分辨率低、覆盖范围有限等缺陷,而新兴传感器网络产生的多模态数据(图像、音频、DNA 等)亟需新型分析方法。

AI 技术特别是深度学习(Deep Learning)在计算机视觉(Computer Vision)和自然语言处理(Natural Language Processing,NLP)领域的突破,为整合异构数据、提升生态模型预测能力提供了新范式。

图片

图示:人工智能在填补生物多样性知识空白和下游应用方面的潜在作用。(来源:论文)

技术路线演进与核心挑战

当前人工智能(AI)在生物多样性研究中的技术进展主要体现在三个方面:基于传感器网络的自动化监测系统(如无人机与声学记录仪)、多模态数据融合建模(整合图像、DNA与遥感数据),以及生物性状量化分析(如形态与功能性状提取)。

在物种识别领域,视觉语言模型(Vision-Language Models,VLMs)通过跨模态对比学习,成功实现跨物种图像特征提取,展现出在大规模分类任务中的潜力。

联合物种分布模型(Joint Species Distribution Models,JSDMs)则突破传统单物种建模局限,整合卫星遥感、环境 DNA(eDNA)和公民科学观测数据,显著提升了物种分布预测的空间精度。

然而技术演进面临三重核心挑战:

  1. 长尾分布困境——稀有物种在训练数据中占比不足,导致模型在实验室与野外场景的识别性能差异显著;
  2. 地理泛化瓶颈——模型在不同地理场景下的性能衰减显著;
  3. 生态语义隔阂——现有机器学习框架难以编码种群动态方程等生态过程机制,限制了其在生态研究中的应用。

关键技术突破与验证

突破性进展体现在多模态融合与知识引导学习领域。

  1. 多模态数据融合——基于对比学习框架的多模态模型,通过联合编码 DNA 条形码与显微图像数据,显著提升了物种分类的准确性。这种方法在生物多样性研究中展现了跨模态表征对齐的潜力,特别是在处理复杂数据集时表现出色。

  2. 生态网络建模——在 Eltonian(物种相互作用)研究中,图神经网络(Graph Neural Networks, GNNs)被用于构建生态网络模型,能够更准确地预测物种相互作用关系。相比传统方法,GNNs 在捕捉复杂生态网络结构方面表现出更强的能力。

  3. 种群动态预测——整合机理知识(如 Leslie 矩阵)与数据驱动模型(如 LSTM)的混合方法,在种群动态预测中表现出更高的稳定性和准确性。这种方法不仅提高了模型的预测精度,还增强了模型在长时序预测中的可靠性。

开放问题与未来突破方向

基础模型(Foundation Models)的生态适配性成为攻坚重点:

  1. 机理-数据融合架构——将 Lotka-Volterra 方程等生态动力学模型嵌入递归神经网络(Recurrent Neural Networks, RNNs),在生态系统模拟中展现出潜力,显著提升了长期预测的稳定性和准确性。

  2. 小样本学习范式——基于元学习(Meta-learning)的 Few-shot 分类器在小样本生物多样性监测中表现出色,为稀有物种的跨区域识别提供了有效解决方案。

  3. 边缘计算部署——轻量化模型在智能相机陷阱等边缘计算设备中降低了功耗,但在热带潮湿等极端环境下的设备适应性仍需进一步优化。

未来应优先开发动态过程感知模型(dynamic process-aware models),通过同化卫星影像、声学传感器网络和 DNA 元条形码等多模态数据流,构建濒危物种栖息地选择的实时反馈系统,实现栖息地适宜性预测的动态更新,为自适应保护决策提供量化依据。

在遗传多样性缺口监测中,纳米孔测序(Nanopore Sequencing)与 AI 模型的结合展现了高效性,为野外实时基因分型提供了技术支持。

未来展望

AI 技术正在重塑生物多样性研究的范式,其价值不仅体现在数据处理效率的量级提升,更在于启发性发现(如通过无监督学习识别隐性生态关系)。

当前亟需建立跨学科协作平台,将生态学机理知识编码为机器学习约束条件,同时防范技术滥用风险(如物种定位数据泄露导致的盗猎风险)。

展望 2030 年,融合过程模型与 AI 的“下一代生物多样性观测网络”,有望实现从基因到生态系统的全景式认知跃迁,为全球保护决策提供实时动态支持。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

我下下决心再给老板发哈哈哈

编辑 | 萝卜皮

原子结构的高分辨率可视化对于理解材料微观结构与宏观性质之间的关系具有重要意义。然而,在原子分辨率显微镜中,快速、准确、稳健地自动解析复杂模式的方法仍然难以实现。


北京大学、厦门大学、中南大学以及深势科技等组成的研究团队,提出了一种基于 Trident 策略增强的解缠结表示学习方法(生成模型)。该方法利用少量未标记的实验图像和大量低成本的模拟图像来生成大量与实验结果非常相似的带注释的模拟数据,从而产生高质量、大容量的训练数据集。

基于残差神经网络的结构推理模型,能精准识别多种材料(如 MoS₂、WS₂ 等)在范德华界面的复杂堆叠(stack)方式,无论是双层还是三层结构,其层间滑移和旋转的测量精度可达皮米级,且抗干扰能力强,不受缺陷、成像噪声或表面污染影响。

该模型不仅能捕捉堆叠模式的渐变过渡,还能区分频域分析难以辨别的莫尔条纹,其高通量特性更揭示了范德华外延中多种热力学稳定构型的共存规律。

该研究以「Auto-resolving the atomic structure at van der Waals interfaces using a generative model」为题,于 2025 年 3 月 25 日发布在《Nature Communications》。

图片

背景

二维范德华材料通过层间扭转和滑移可调控莫尔超晶格,从而诱导超导性、铁电性等新颖物性,虽然扫描透射电子显微镜(STEM)能够解析其原子级结构,但传统人工分析方法存在效率低、误差大等瓶颈。

机器学习为此提供了新思路:无监督学习可自动聚类结构特征但解释性差,而监督学习虽精度更高却受限于标注数据——实验数据标注成本高昂,模拟数据则因与真实图像的风格差异导致质量不足,这使得当前方法仅能处理简单的分类任务(如缺陷识别)。

然而,针对连续变化的复杂问题(如皮米级层间位移或转角测量),现有方法仍面临挑战,虽有人尝试通过 CycleGAN 增强模拟数据的真实性,但其图像内容保真度不足。

因此,开发高效、高精度的监督学习框架成为关键突破方向,需在数据质量与规模之间取得平衡,并提升算法对噪声、污染等实际条件的稳健性,最终实现从「识别离散结构」到「求解连续变量」的跨越,完成复杂堆叠模式的自动化定量分析。

在最新的研究中,北京大学等机构的研究人员开发了一种 Trident 策略增强的解缠结表示 (DR) 学习方法,该方法利用一小组未标记的实验 STEM 图像和大量低成本模拟图像来生成一个大型带注释的训练数据集,该数据集与实验图像风格非常相似,并且在风格转换后严格保持模拟图像内容,从而在训练数据的质量和数量之间显示出优越的平衡。

然后利用残差神经网络对这些高质量的模拟图像进行结构推理模型训练,以端到端的方式直接输出多样化复杂堆叠模式的层间滑移和旋转,精度达到皮米级。

模型概述

具体来说(下图所示),该框架的第一步是通过解缠结表示图像到图像转换(DRIT)算法训练生成模型,该算法可以生成高质量的 STEM 模拟图像。它是通过将软件生成的低质量、无噪声模拟图像中的结构信息(例如原子的位置、亮度和大小)与实验图像中的视觉风格相结合来实现的。

图片

图示:机器学习工作流程。(来源:论文)

第二步是定义滑移和扭曲堆叠的结构描述符,以表示所有潜在的堆叠配置,然后在第一步通过训练有素的 DRIT 模型生成逼真的 STEM 模拟图像。由此获得了具有精确标记且与实验图像风格相似度高的大型训练数据集,缓解了因 STEM 实验成本高以及逐个原子手动标记实验图像效率低下而导致的数据稀缺问题。滑移堆叠的描述子是通过沿单层晶胞面内两个基矢量方向分解滑移矢量 D 得到的滑移坐标(Da,Db),而对于扭曲堆叠,则应用层间旋转角 θ。

第三步,以 ResNet-50 架构作为回归网络的主干,训练端到端的堆叠结构识别模型。通过两个 ResNet 模型分别学习堆叠结构标签,即(Da,Db)和 θ,与真实的STEM模拟图像之间的关系,从而能够从实验图像中直接、准确、高效地自动解析范德华界面处的层间滑动和扭曲。

整个工作流程的关键在于 DRIT 模型的训练,它决定着能否将大量、低成本但质量较低的 STEM 模拟图像成功转化为结构信息严格不变、视觉风格与实验图像高度相似的高质量模拟图像,从而为后续的监督学习获取大量的训练数据。

有两点需要深入理解:一是选择 DRIT 算法进行风格转换的原因;二是需要对基本 DRIT 模型进行修改才能更好地完成任务。

能力评估

该框架首先被用于解决滑移堆叠范德华双层的原子 registries 问题,这些双层具有旋转排列的顶层和底层(无层间扭曲),但在层间滑动中表现出亚埃级的差异,从而表现出各种物理特性。虽然不同滑移堆叠的结构信息被编码在其复制二维快速傅里叶变换(FFT)中,并且可以通过四维 STEM 布拉格干涉法等先进的衍射技术来解析,但对实空间高分辨率 ADF-STEM 图像进行逐原子分析仍然是最简单、最快捷的识别方法,而且对设备的要求也不高。

实验中观察到双层 ReS2 显示出多样化的滑移堆叠模式,因此研究人员选择该测试案例来评估该框架的四种能力:(i)从原始 ADF-STEM 图像中解析滑移堆叠配置,(ii)定量感知模式的细微结构演变,(iii)准确定位模式转换界面,以及(iv)有效地对大量数据进行统计分析并为创新发现做出贡献。

结果显示,他们的推理模型可以快速计算出滑移矢量坐标,随后将其自动转换为原子模型(底部面板),并根据专家知识和图像模拟验证其正确性。

研究人员使用步长为 0.05 Å 的 DRIT 生成的双层 ReS2 图像作为测试数据集,并使用欧氏距离 ∆D 来评估由步长范围为 0.1 至 0.4 Å(以 0.1 为增量)的 DRIT 生成的图像训练的不同推理模型推断的滑移坐标的准确性。欧氏距离 ∆D 表示如下:

图片

下图中的箱线图显示,随着步长的增加,平均 ∆D 和对应于中间 95% 数据的 ∆D(箱上限)都在增加,这意味着模型精度下降。考虑到推理模型精度和训练成本之间的平衡,研究人员选择 0.1 Å 的步长来构建模拟图像数据集,得到的平均 ∆D 为 0.03 Å,95% 的推断结果与真实值的偏差小于 0.05 Å,这足以应对实验图像,其空间分辨率为 ~0.7 Å。

图片

图示:滑移堆叠范德华 (vdW) 双层的自动结构分析。(来源:论文)

这个达到皮米级精度框架可以很容易地推广到测量大面积 STEM 图像中微弱的滑移堆叠位移。另外,当实验图像存在一定浓度缺陷或信噪比较低时,该模型的推理精度仍然保持稳健。

ML 框架还可以根据 STEM 图像捕获的莫尔条纹直接解析范德华材料的扭曲角,这对于理解此类超晶格的结构-性质关系至关重要。

图片

图示:滑移堆叠分析推理模型的稳健性和普遍性。(来源:论文)

该模型可以很容易地推广到滑移堆叠三层的结构分析,在这种情况下,由于结构复杂性的激增,人类专家只能通过反复试验,就像玩拼图游戏一样,来推断潜在的答案。

结语

总而言之,基于 Trident 策略增强的 DR 学习算法,解决了监督学习中的一个关键问题,即如何轻松获得高质量、大量的训练数据。

利用 DRIT 生成的高质量模拟图像训练的结构推断模型可以根据不同堆叠方式(滑移和扭曲)、层数(双层和三层)和成像状态(缺陷率、信噪比、污染)的各种材料的 STEM 图像中的堆叠模式直接、快速、准确地确定范德华界面处的原子尺度结构,并有可能扩展到其他复杂的微观结构分析。

ML 方法的自动化和高通量处理能力引起了范德华外延模式的发现,其中多种热力学有利的滑移堆叠与几乎连续的变化共存,展示了 ML 对知识涌现的贡献。

这项工作扩展了监督学习的能力,从识别离散和简单的微结构到分析复杂且不断变化的主题。机器学习方法在效率、准确性和解决问题的复杂性方面表现出优于人类专家的优势,这可能会彻底改变显微镜图像中原子结构的表征和解释模式,为快速、准确、自动和基于统计的纳米材料信息提取铺平道路。

论文链接:https://www.nature.com/articles/s41467-025-58160-3



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

一脑多机!智源的新发布,让不同机器人轻松协作

3 月 29 日,智源研究院在 2025 中关村论坛 “未来人工智能先锋论坛” 上发布首个跨本体具身大小脑协作框架 RoboOS 与开源具身大脑 RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。

开源链接如下:

具身多模态大脑模型 RoboBrain

为机器人操作任务设计的高质量异构数据集 ShareRobot

增强长程操作任务能力 打造感知 - 认知 - 决策 - 行动闭环

图片

在具身场景中,长程操作任务是机器人执行复杂任务的核心能力之一。


具身大脑 RoboBrain 融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力,通过将抽象指令映射为具象动作序列,增强长程操作任务的能力。

RoboBrain 由三个模块组成:用于任务规划的基座模型、用于可操作区域感知的A-LoRA 模块和用于轨迹预测的 T-LoRA 模块。在推理时,模型首先感知视觉输入,并将输入指令分解为一系列可执行的子任务,然后执行可操作区域感知和轨迹预测。RoboBrain 采用多阶段训练策略,使其具备长历史帧记忆和高分辨率图像感知能力,进而提升场景感知和操作规划的能力。

RoboBrain 在任务规划、可操作区域感知和轨迹预测评测任务中均表现出卓越性能。

任务规划方面,RoboBrain 在不牺牲通用能力的前提下,在机器人规划评测集 OpenEQA、ShareRobot(自建)和 RoboVQA 上多个维度优于 GPT-4V、Claude3 等 6 个当时领先的闭源 / 开源 MLLMs。

图片

RoboBrain 在具身规划评测基准上的性能

可操作区域感知方面,RoboBrain 在 AGD20K 测试集上的平均精度超过了当时最先进的开源模型 Qwen2-VL,验证了其在指令理解和物体属性方面的卓越能力。

图片

RoboBrain 在可操作区域感知基准上的性能

在轨迹预测方面,RoboBrain 预测的操作轨迹具有与真实轨迹较高的相似度,展现了其在轨迹预测中的高精度和稳定性。RoboBrain 的未来迭代版本会持续提高轨迹预测的能力。

图片

RoboBrain 在轨迹预测基准上的性能

目前,RoboBrain 能够解读人类指令和视觉图像,以生成基于实时图像反馈的行动计划和评估,预测每一步的轨迹并感知相应的可操作区域。具体而言,RoboBrain 能够有效利用环境信息和交互对象的状态 —— 无论是从第一人称还是第三人称视角捕捉的图像 —— 生成针对不同类型机器人操作任务的任务规划,并基于人类指令和视觉信息,提供合理的可操作区域,并能在不同场景中表现出良好的泛化能力。

图片

具身大脑 RoboBrain小脑技能库以及跨机器人数据中枢,是跨本体框架 RoboOS 的核心要素。具身大脑 RoboBrain,负责全局感知与决策,构建动态时空感知、规划指导和反馈纠错机制;小脑技能库,负责低延迟精准执行,实现柔性与精密操作等;跨机器人数据中枢,负责实时共享空间、时间和本体记忆,为决策规划与优化协作操作提供信息支持,从而形成感知 - 认知 - 决策 - 行动的闭环。

一脑多机实现跨本体协作 从单体智能迈向群体智能

跨本体具身大小脑协作框架 RoboOS,基于“大脑-小脑” 分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供高效、灵活、可扩展的底层支持,实现从单机智能到群体智能的跃迁。

在 RoboOS 的分层架构下,具身大脑 RoboBrain 的复杂场景感知与决策能力,可与小脑技能库的高效执行能力深度结合,确保协作框架在长周期、高动态任务中的稳定运行。实现大脑模型(如 LLM/VLM)与小脑技能(如抓取、导航)的 “即插即用”,目前,可支持松灵双臂、睿尔曼单 / 双臂、智元人形、宇树人形等不同类型的具身本体。

通过共享记忆系统(空间记忆 / 时间记忆 / 本体记忆),实现多个机器人之间的状态同步与智能协作,突破传统 “信息孤岛” 限制,实现跨本体协作控制。

RoboOS 可动态管理多机器人任务队列,支持优先级抢占与资源优化分配,确保复杂场景下实时响应,实现高并发任务调度。

此外,RoboOS 可基于执行反馈动态调整策略,结合环境变化,持续优化任务规划,提升鲁棒性,做到实时闭环优化。

图片

基于 RoboOS 及 RoboBrain 的多机器人跨本体协作递送任务 Demo

在 “递送苹果和水果刀” 的任务场景中,基于 RoboOS 及 RoboBrain,睿尔曼单臂机器人(转运)、宇树人形 G1(挑拣水果)、松灵双臂机器人(挑拣水果刀)分工协作。

整体任务流程是睿尔曼调用 “导航技能” 移动至餐桌前,宇树 G1 调用 “视觉抓取技能” 完成指定物体的挑拣,睿尔曼调用 “抓取技能” 提起果篮并导航至松灵餐桌前。紧接着,松灵调用 “抓取技能” 获取水果刀,并放置在果篮中心,睿尔曼依据 “空间记忆” 导航至办公桌位置,递送果篮后返回。

RoboOS 接收 “拿离杯子最近的水果,并递送一把水果刀” 指令后,递送 RoboBrain 进行任务拆解,并将拆解后的子任务分发给 3 台跨本体机器人。RoboBrain 通过 “空间记忆” 感知环境,确定果篮、苹果位置,并拆解任务为 “宇树 G1 挑拣苹果→睿尔曼传递果篮→松灵机器人抓取水果刀→睿尔曼返回”。

各机器人本体执行子任务过程中,由 RoboOS 提供端云协作能力,将任务规划为技能粒度,实现云端 RoboBrain 分发规划,端侧执行技能并实时反馈。RoboBrain 识别 “离杯子最近的水果位置”、“果篮抓取位置 affordance”、“水果刀抓取位置 affordance”、“果篮空闲位置 Pointing”,经由** RoboOS 递送指导各机器人本体完成任务。**

“即插即用” 快速轻量化泛化部署 打造统一生态

RoboOS 作为面向多机器人系统的跨本体具身大小脑协作框架,专为解决当前具身智能落地过程中的通用性适配与多机调度难题而设计。针对异构本体难以统一接入、任务调度效率低、缺乏动态错误反馈机制等痛点,基于 RoboOS 的 “大小脑协同” 的架构范式,云端的具身大脑 RoboBrain 负责统一的任务理解、规划决策与上下文感知,本体侧则接入轻量级的小脑执行模块,实现感知 - 认知 - 决策 - 行动的闭环协作。

该机制能够动态感知本体差异、灵活适配操作指令、自动修复异常行为,有效提升系统在复杂任务场景下的鲁棒性与泛化性。RoboOS 原生支持异构机器人本体的灵活接入,以 Profile 模板机制快速完成机器人能力建模与适配。

本体的小脑模块可调用包括开源技能库、自研低阶控制器等多种技能接口,形成一个支持模块复用、即插即用的运行体系,大幅降低开发门槛与接入成本。

在云端,RoboOS 提供完备的模型适配与 API 接入能力,兼容自研的多模态 VLM,作为可插拔的大脑决策引擎,从而在服务机器人、工业自动化、智慧物流、智能制造等领域支撑复杂任务的多机协作需求。

借助 RoboOS 的端云一体化协同能力与动态调度机制,整个系统不仅具备高度的扩展性与可迁移性,更为未来具身智能的规模部署与生态构建奠定了通用操作系统级的基础。

图片

RoboOS 基于智源研究院研发的并行训练与推理框架 FlagScale,原生支持多机器人系统的端云协同能力,打造具身智能的统一底座。系统在设计上充分考虑 “多机器人 - 多模态 - 多任务” 场景,具备极高的可扩展性与低时延响应能力。

在端侧部署中,机器人注册即可自动与云端部署的 RoboBrain 大脑建立双向通信链路,通过高效发布 - 订阅机制实现实时任务调度与状态反馈,指令响应延迟低于 10ms,满足复杂动态任务的闭环控制需求。

面向机器人在长期运行中产生的海量感知与行为数据,RoboOS 提供基于内存优化的数据访问引擎,支持 TB 级别历史数据的内存随机访问能力,为任务复现、异常回溯、跨任务知识迁移等场景提供基础能力。结合 RoboBrain 的任务推理与策略优化模块,历史数据还可用于多机之间的协作知识共享,实现更强的智能演化与自主学习能力。

此外,FlagScale 作为底层支撑框架,支持大模型在多设备间的并行推理与多任务协同调度,可无缝集成视觉语言模型、轨迹生成模块、感知识别等子系统,全面释放具身大模型的系统潜力。

目前,智源研究院依托多模态大模型技术优势资源,正在联合北大、清华、中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业,积极建设具身智能创新平台,重点开展数据、模型、场景验证等研究。

此次智源研究院发布的跨本体具身大小脑协作框架 RoboOS 及开源具身大脑 RoboBrain,将有机融合和广泛链接不同构型的具身本体与丰富多元的具身模型,加速具身智能跨本体协作与规模化应用。

开放、协作、共享,是具身智能生态繁荣的必经之路,智源研究院愿携手更多产业合作伙伴,共绘具身智能生态蓝图。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

欢笑而非笔记本电脑:咖啡文化反击键盘入侵者

“去咖啡馆,那里的谈话热烈如大火,”塞缪尔·佩皮斯在他17世纪咖啡馆之旅中写道——那时的咖啡馆是伦敦八卦精英的社交神经中心。


快进到21世纪,喧闹的聊天群体已被键盘敲击的声响取代——远程工作者忙于在笔记本电脑键盘上敲打,并且在视频通话中大喊,以便听到机械磨豆机的声音。随着后疫情时代居家办公的兴起与整天呆在家的实际弊端相冲突,咖啡馆成了远程工作者的避风港,只需花费一杯扁平白咖啡的价格便可以获得一张桌子和一个WiFi连接。

但一些咖啡馆老板正在发起反击,抵制这一笔记本电脑劳动力的入侵。“禁止使用笔记本电脑”的标志在英国各地的咖啡馆窗户上纷纷出现,店主们试图为了宁静而重新夺回自己的空间。为Ollie Gold这位Pophams Bakery的共同创始人而言,在2022年新开业的最新店铺中,限制笔记本电脑的使用初期是一项业务决定,旨在确保更高的翻台率,从而使企业能够生存下去。“我依稀记得那些早期的日子,我希望有人在笔记本电脑前坐上八个小时,但当生意变得越来越忙时,你就开始不得不做出更具商业意识的决定。”他说。

“有些人花三英镑买一杯茶,却整天坐在那里……你不能以那种方式让一个地方持续经营。”不久后,Gold觉得笔记本电脑的屏幕不仅侵占了Pophams的社区灵魂,也侵蚀了利润率。在最初的周末禁令后,他决定在日常工作日全面限制笔记本电脑的使用。伦敦田野的分店对笔记本电脑的使用进行了限制,仅允许在高桌和窗边使用。“有些日子我走进去,看到处都是笔记本电脑,我想:让我们回到创办这个商店的初衷,创造一个社区,让人们进来交谈,无论是与伴侣、家人还是朋友。我们不想让笔记本电脑充斥,因为那完全改变了一个地方的能量和氛围。”

Milk and Bean咖啡馆的老板Chris Chaplin也感到失望,当初梦想中的“像家一样”的咖啡馆却开始变得像一个共享空间。“我们有一些人会组团前来工作,然后围在一台笔记本电脑旁,把我们当作他们的办公室,这让我感到非常反感。”因此,他们决定每人每天限制使用笔记本电脑一小时,并在周末全面禁用,认为这是对这家小咖啡馆公平的妥协。这个政策通过咖啡馆里一块友好的宣传牌表示,“我们更愿意将桌子留给欢笑、调情和交谈”,大多数顾客对此表示欢迎。

位于伦敦Bow的Grounded咖啡馆从周一到周五的上午11点到下午3点也实施了笔记本电脑禁令,顾客的反应褒贬不一。“有些人会说:‘哦,是的,我很抱歉,我不知道,’”总经理Vestina Pranaityte说。但也有人表示不满。“我们有一个常客以前经常一早就来,大约半点钟,她只点一杯长黑咖啡,用笔记本电脑待到三点。她对我们的笔记本电脑政策很不满,结果她离开了我们,”Pranaityte补充道。

根据国家统计局的数据显示,去年秋天,有超过四分之一的成年人兼职在家工作。大学生Ed Fisher是Grounded的顾客,他表示允许在咖啡馆使用笔记本电脑可以给年轻人带来好处,因为他们的居住空间通常很小。“伦敦的住房条件可能相当拥挤。我和四个小伙子住在一个小公寓……并不是每个人都拥有一个大地方,所以如果人们想完成一些工作,咖啡馆是个不错的去处,”他说。

英国的连锁咖啡馆,包括Costa、Caffè Nero和星巴克,至今尚未跟随一众独立咖啡馆对笔记本电脑使用进行限制,不过星巴克在美国和加拿大最近结束了其允许顾客在未消费的情况下在店内使用设施的开放政策。来自Black Sheep Coffee的代表表示:“顾客在饮用时如何花费时间完全由他们决定。我们在Black Sheep欢迎每个人,无论有无笔记本电脑:学生和老年人、年轻专业人士和全职父母。无论你是单独来,还是与约会对象,或者和整个家庭一起,无论你是来读书还是开会,我们都会为你提供服务,让你感到受欢迎。”



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

大想法:我们是否过于担心错误信息?

在1938年10月30日,一家美国广播电台播出了HG 威尔斯的末世小说《世界大战》的戏剧化版本。


有些听众据说没有意识到自己收听的是什么;随后出现的报道显示,听众们误以为这是一则新闻公告,造成了恐慌。随后的学术研究估计超过一百万人相信他们正在经历真实的火星侵略。也许这是一个关于错误信息如何轻易蔓延的惊人例子。但是,这个故事并不像乍看起来那么简单。尽管人们常常提到这一事件,但大规模的恐慌几乎肯定没有发生。在国家电台的听众调查中,只有2%的受访者报告在广播时收听过任何类似《世界大战》的节目。那些收听的人似乎也意识到这是虚构的。很多人提到了“这部戏”或者它的叙述者奥逊·威尔斯,但没有提到新闻广播。事实证明,学术分析错误地解读了听众关于被这部戏剧所恐惧的陈述,将其视为对真实入侵的恐慌。

近一个世纪之后,大规模错误信息的观念似乎比以往任何时候都更加显著。我们经常看到关于数百万人在网上接触到虚假信息的头条新闻。在2018年的一项盖洛普调查中,受访的美国人平均认为,他们在社交媒体上遇到的新闻中有三分之二是虚假信息。但是,正如那场《世界大战》的广播一样,错误信息未必是我们认为的问题。2020年春季,当新冠病毒传播时,由评级服务NewsGuard标记为“不可信”的英语新闻网站的月访问量——例如Breitbart和Daily Wire——从1.63亿增加到1.94亿。但在同一时期,像BBC和《卫报》这样的“可信”来源的访问量从50亿增长到80亿。换句话说,可信网站在2020年初的访问量是可疑网站的40倍。

我发现令人惊讶的是,阴谋论者手中掌握的很多证据在技术上都是正确的。完全错误的信息可能比我们想象的要少;而且在识别事实和虚构时,错误信息只是我们所面临问题的一部分。在接近真相时,我们必须避免两种错误:我们不应该相信错误的东西,也不应该忽视真实的事物。如果我们仅仅专注于减少对虚假内容的信任,就像当前的努力倾向那样,我们可能会冒着以牺牲对真实事物的信任为代价来打击一种错误。毕竟,防止上当受骗的最简单方法就是永远不相信任何事物。

当我指导新入门的科学研究的学生时,我经常看到他们态度的变化。起初,他们会将已出版的学术期刊中的论文视为几乎神圣的。因为论文已经发表并经过同行评审,因此逻辑上认为它必须是准确的。然后,随着学生意识到这些论文通常存在缺陷,并且偶尔会完全是欺诈性的,怀疑开始产生。一切都可能是错误的;没有什么可以信任。

这并不是一个新问题。20世纪初,数学家亨利·庞加莱警告道,过度的信任或不信任存在风险。“怀疑一切或相信一切是两种同样方便的解决方案;这两者都免去反思的必要,”他警告说。

我们必须找到管理信任某事是否正确所带来的风险的方法,而不是简单地接受或拒绝我们所看到的事物。例如,在医学领域,我们通常 design 设计临床试验,以减少确认某物有效时的风险,也减少确认某物无效时的风险。我们永远无法对结果有完全的确定性,但我们仍然可以建立足够的信心,使我们发现的东西对我们有用。

过度怀疑的有害影响,使其成为想要破坏共识知识者的热门工具。1969年,随着对吸烟危害的担忧增加,烟草行业的备忘录中表示:“怀疑是我们的产品,因为它是与公众头脑中的‘事实主体’竞争的最佳手段。”他们并不试图让人们相信不同的事实;他们试图破坏人们相信有足够证据采取行动的想法。

通常,在网上传播疑虑的并不是彻底的错误信息。去年一项研究发现,在2021年春季Covid疫苗推广期间,Facebook上与疫苗相关的链接中,只有0.3%被事实检查员标记为虚假或不在上下文中。值得注意的是,对疫苗信心影响最大的帖子在事实上一样是准确的,但可能存在误解。例如,最受关注的链接——比所有经过事实检查的虚假信息加起来的受众还多七倍——是《芝加哥论坛报》的标题:“一名健康的医生在接种新冠疫苗两周后死亡;CDC正在调查原因。”严格说来,这一切都是正确的。但它没有提供足够的信息来得出关于疫苗安全性或与新冠病相对风险的有意义结论。

当我接触到阴谋论者时,我发现他们手中掌握的很多证据在技术上都是正确的。换句话说,虚假的并不总是基础事实,而是根据这些事实得出的信念。可以肯定的是,某处存在一个逻辑谬论或误解。但是,这让我意识到,仅仅将某些东西贴上“错误信息”的标签是不够的:更重要的是找到并解决隐藏在大量事实背后的错误假设。我们必须给予人们需要的概念工具,以识别扭曲的框架、巧妙的手法、选择性的数据,以及模糊的因果关系声明。

这意味着要转变观念,即人们受到一波虚假的信息威胁。将技术上准确的信息称为虚假,不仅会破坏信任。而如果我们发出警告称,在互联网上找到的大多数内容都是虚构的,那么会转移我们注意力,避免面对一个更大的挑战,即确保技术上准确的信息被正确解读。

借用庞加莱的说法,相信虚假信息是普遍存在且易于识别的,或者相信大多数内容是准确的,因此不需要进一步思考,这两者都是同样方便的解决方案。这两者都可能损害我们解决在线错误信念和错误信任的复杂现实的能力。亚当·库查斯基是伦敦卫生与热带医学学院的教授,也是《证明:不确定的确定性科学》(Profile)的作者。

进一步阅读
《误信:是什么让理性人相信非理性事物》 by 丹·阿里耶利(Heligo, £10.99)
《魔幻过度思考的时代》 by 阿曼达·门特尔(Atria, £10.99)
《不确定性的艺术》 by 大卫·斯皮格哈尔特:如何驾驭机会、无知、风险和运气(Pelican, £12.99)

探索更多相关主题
技术
大想法
特写
分享
重用此内容


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB