类GPT化学语言模型,9秒生成100种化合物,微软AI药物设计平台登Nature子刊

编辑 | KX

以 ChatGPT 为代表的生成式 AI 技术正在彻底改变药物研发领域。生成式药物设计能够从零开始创建全新分子或化合物,而无需依赖于现有的模板或分子框架。


然而,生成的分子的实用性往往有限,因为许多设计都集中在一组狭窄的药物相关特性,无法提高后续药物发现过程的成功率。

为了克服这些挑战,微软研究院科学智能中心、中国科学技术大学和全球健康药物研发中心(GHDDI)的研究团队合作开发了 AI 药物设计平台 TamGen,这是一种采用类似 GPT 的化学语言模型方法。

TamGen 通过基于 Transformer 自注意力机制的生成式 AI 模型,实现了针对致病靶蛋白的分子精准生成、优化以及合成与生物实验验证,开辟了创新药物发现的新路径。

研究证明 TamGen 生成的化合物具有更好的分子质量和活性。将 TamGen 集成到药物发现流程中,确定了 14 种对结核杆菌 ClpP 蛋白酶表现出显著抑制活性的化合物。其中,最有效的化合物显示出半数最大抑制浓度(IC50)为 1.9 μM。

GHDDI 中心主任丁胜表示:「TamGen 的初步成果标志着生成式药物设计领域的一项重要创新,为未来的 AI 药物研发提供了强有力的实用性和适用性证据。随着人工智能技术在药物发现领域的持续进步,TamGen 有望加速新药研发,帮助应对包括结核病在内的多种公共卫生挑战。」

相关研究以「TamGen: drug design with target-aware molecule generation through a chemical language model」为题,于 10 月 29 日发布在《Nature Communications》上。

生成式药物设计面临的挑战

设计对致病蛋白靶标具有高结合亲和力的化合物可以显著加快药物发现过程。基于靶标信息生成化合物的生成式 AI 方法不仅可以加快这一过程,还可以探索现有化合物库之外更大的化学空间。

然而,尽管 AI 生成了大量新型化合物,但现有方法在提供有效候选药物方面仍然面临挑战。

TamGem:类 GPT 的化学语言模型

为了应对生成式药物设计面临的挑战,微软与 GHDDI 联合开发了 TamGen。

其创新之处在于,在类 GPT 生成模型的基础上加入了交叉注意力机制,并通过学习大量的已知和模拟的蛋白-配体结构数据,使得模型在生成新的化学分子时,能够同时考虑致病靶蛋白的信息。

这一改进使 TamGen 能够基于靶蛋白活性位点信息精准生成具备潜在相互作用的分子,进而增强分子生成的靶向性以及药物设计的合理性与精准度,再结合分子模拟、细胞活性 AI 模型与专家经验进一步虚拟筛选与优化,从而大幅提升发现候选药物的效率与成功率。

GHDDI 数据科学平台负责人郭晋疆博士表示:「传统的生成式 AI 设计方法更像是先造出无数把钥匙,再一把一把地试能否打开门。而 TamGen 则像是在比对锁眼,更精确地匹配钥匙。」

TamGen 模型架构

研究团队通过三个模块实现了 TamGen:(1) 化合物解码器,一种类似 GPT 的化学语言模型,也是 TamGen 的核心组件,为化学空间中的化合物生成奠定了基础;(2) 蛋白质编码器,一种基于 Transformer 的模型,用于编码靶标蛋白质的结合位点;(3) 用于化合物编码和细化的上下文编码器。

TamGen 生成药物设计高效且有效

为了对 TamGen 的整体性能进行基准测试,研究人员将其方法与最近提出的五种方法进行了比较:liGAN、3D-AR、Pocket2Mol、ResGen 和 TargetDiff。

TamGen 在化合物生成方面性能最佳

结果显示,虽然每种方法在某些指标上都表现出优势,但 TamGen 始终名列前茅。例如,TamGen 在 6 个指标中的 5 个中排名第一或第二,并表现出最佳的整体性能。这一发现表明 TamGen 能够在生成过程中同时优化化合物的多个方面。

值得指出的是,对于具有高结合亲和力的化合物,TamGen 在 SAS 方面表现最佳,这些化合物可能对靶蛋白具有优异的生物活性。

TamGen 在运行时间上明显优于其他方法

与其他方法相比,TamGen 的效率也最高。研究使用一台 A6000 GPU 对所有方法的每个靶标生成 100 种化合物的时间进行了基准测试。其他方法需要数十分钟或数小时才能完成此任务,而 TamGen 平均仅需 9 秒即可完成此任务。这使得 TamGen 比 ResGen、TargetDiff、Pocket2Mol 和 3D-AR 分别快 85、154、213 和 394 倍。

总的来说,TamGen 在生成新化合物方面既有效又高效。

发现 14 种对结核病有效的化合物

接下来,研究人员使用 TamGen 设计针对 ClpP 的小分子抑制剂。

结核病(TB)是由结核分枝杆菌 (Mtb) 引起的传染病。研究专注于酪蛋白水解蛋白酶 P (ClpP),它是细菌蛋白质降解系统中必需的丝氨酸蛋白酶,也是抗生素开发的新兴靶点。

结核病药物生成的设计-改进-测试流程图

使用由 TamGen 驱动的设计-改进-测试流程来识别潜在的 ClpP 抑制剂。研究发现了 14 种对 Mtb ClpP 表现出良好效力的候选化合物,半数最大抑制浓度 (IC50) 范围为 1.88 μM 至 35.2 μM。

值得注意的是,TamGen 生成的化合物不仅丰富了进一步优化的候选池,而且还为命中扩展和构效关系 (SAR) 合成提供了有效的靶点。这些发现凸显了 TamGen 在靶标感知药物设计中的广泛适用性和巨大潜力。

未来展望

下一步,TamGen 的研究方向将集中在整合更多三维生成方法的优势,比如采用蒙特卡洛树搜索(MCTS)或分子动力学模拟技术,进一步改善生成化合物与靶蛋白结合能力及其他重要药物性质,如稳定性、合成可能性以及 ADME/T 特性。

参考内容:https://mp.weixin.qq.com/s/ToKG6upzt3Gl-b29PNfPRg

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI错过的7个月,智能体2.0借终端爆发?

2024年3月,OpenAI关停仅运营两个月的GPT Store。
时隔仅7个月,同样是做Agent平台,OpenAI现任董事会主席Bret Taylor创立的新公司,融了45亿美元。


整个AI界在前后发布的Claude的“Computer Use”和智谱的AutoGLM智能体下,开始了一场“丢下”OpenAI的狂欢。
10月26日,微软开源了基于纯视觉的GUI屏幕解析工具OmniParser,谷歌的同类产品“Project Jarvis”也有望在12月上线。
加入狂欢的不止是大模型厂商。和智谱宣布达成深度合作的一个月后,荣耀也交出了自己的答卷。10月30日,荣耀CEO赵明展示了AI智能体YOYO自主处理任务的能力,只需要对手机说一句“订2000杯咖啡”,YOYO就帮他在附近下单成功,忙坏了周围的咖啡店和外卖员。
无论是电脑端还是手机端,Agent开始真正实现了“自主性”:从点咖啡到买牙膏,无需人类操作,一句指令就能让AI完成所有任务。和前一代只能提建议的Agent相比,AutoGLM实现了从1.0到2.0的进阶。
二级市场的热度,也被智能体点燃。发布AutoGLM后,一众投资、参股智谱,或是和智谱合作密切的公司股价明显上涨,“智谱概念股”走强。上周开始,智谱概念股持续活跃,豆神教育、思美传媒、常山北明等相关概念股一度涨停。
当端侧大模型开始落地到手机端,苦于落地的大模型厂商,不仅仅只将目光放在了软件能力上,从智能体到做以大模型为能力中心的“AI OS”,大模型创企们找到了AI大模型商业化的新道路。
在OpenAI错过的7个月中间,Agent到底发生了什么变化?

AI Agent进入2.0时代

为什么智能体突然点燃了二级市场的热情?
华泰证券指出,AI Agent已经解决了大模型从“言”到“行”的突破。
对比上一代“只动嘴皮子”的Agent,无论是Computer Use还是Phone Use,上述智能体产品均实现了AI端的自主操作:接收到指令后,AI将亲自接管设备,包括点击、输入等交互功能。
以Anthropic发布的“Computer Use”为例。演示中,无需人类操作,它完成了“填写公司表格数据”的任务。
接到上述任务后,AI将工作拆分为多个步骤:
1、首先,查找已有表格中是否有所需公司的相关数据;
2、在查询不到结果后,AI打开搜索界面,自行查找相关公司的数据信息;
3、最后,它对应着表格的空缺部分逐个完成数据的输入。

Image
通过在对话栏输入指令,AI自主根据表格信息情况完成填写
在展示视频中,智谱发布的AutoGLM 调用手机上的多个App也很丝滑,当用户要求购买瑞幸的美式咖啡,AutoGLM打开美团搜索品牌,并把想要的商品自动加入购物车,并跳转至结算界面。交给用户的,只有选择“下单”按钮。

Image
根据用户的需求,AI自主选定咖啡的口味
微软也在近日开源了一个用于识别Web端视觉界面的工具产品OmniParser。在Github展示页的示例视频中,OmniParser也做到了自主操作的能力:
当交付给它一个收集素食餐厅的任务时,OmniParser通过解析界面元素,在网页中定位到“餐厅”字样。检索不符合要求后,它再自动拉起搜索框,根据关键词定位到相关餐厅,并完成勾选。
这些对人类来说非常简单的操作,交给AI,需要克服的障碍不少:
首先,无论是电脑端还是手机端的交互,Agent均需要完成点击、划动、查找等步骤,如何让模型学会并做到精准操作,这是阻碍Agent进化的一大难题。
而这个难题的突破,得益于基础大模型发展带来的能力跃迁。
比如,如何让AI理解GUI(图形用户界面)并完成操作?
Agent的核心系统分为感知-规划-记忆-行动-工具五个部分,其中,感知系统负责捕捉外界的视觉、听觉、文本信息,并加以分析。通过对上述信息的完整认知,Agent会结合这些信息对接受到的任务进行规划,也就是用CoT(思维链)的方式拆解成多个步骤,依次执行。
但在2023年,大语言模型仍然停留在文本能力阶段,在视频、语音等多模态能力发展尚未突破的时候,Agent受底层基座能力的限制,尚且无法完整感知环境,从而在多个任务上的执行过程中犯错,自然也难以达到应用阶段的水准。
对此,微软的解决方案是,通过屏幕截图的方式,将屏幕中的所有可交互图标和按钮一一标注出来,将它们提取为信息,再根据识别的内容进行定义,让AI理解每个交互点的作用,从而实现自主操作。而智谱AutoGLM在手机端的操作应用,同样借助了多模态能力来完成对UI的识别解读。

Image
和在上述基础上,针对数据不足、策略分布漂移等问题,智谱也找到了问题的解法。
比如,受制于轨迹数据获取成本高昂和数据不足的问题,无法对大模型智能体完成充分的动作执行能力训练。
为此,他们在AutoGLM中引入自研的“基础智能体解耦合中间界面”设计。以“提交订单”为例,把AutoGLM作为中间界面,将「任务规划」与「动作执行」两个阶段通过自然语言中间界面进行解耦合。
对比过往端到端智能体的直接处理,这种方式将AI的操作准确度提升了将近一倍。

除了实现精准交互操作的需求之外,面对种类繁多的复杂任务,智能体还需要具备即时规划和纠正能力,从而在遇到问题的时候及时给出有效的解决方法。
对此,AutoGLM上应用了“自进化在线课程强化学习框架”技术,让智能体在基于手机和电脑的环境中不断学习和提升应对能力。
“就像一个人,在成长过程中,不断获取新技能。”张鹏解释道。
在上述两种能力的加持下,AutoGLM 在 Phone Use 和 Web Browser Use 上都取得了大幅的性能提升。官方数据显示,在 WebArena-Lite 评测基准中,AutoGLM 更是相对 GPT-4o 取得了约 200% 的性能提升。

总体来看,在大语言模型和多模态模型进化一年之后,AI Agent终于实现了从单体智能,向使用工具方向迈进,完成了2.0的进阶。

学会使用工具,人工智能进入L3阶段

纵观人工智能的发展史,人工智能和人类的进化路径何其类似,正在经历从学会“语言”,到“解决问题”,再到“使用工具”。
3个多月前,OpenAI将通往AGI之路划分为五个阶段。AutoGLM上线当天,智谱也向外界公示了自己的技术路线图。

Image
首先在L1阶段,AI的重点在于学会使用“语言”,包括语音、文字还有视觉。
回顾两年前,从ChatGPT诞生开始,人们对AI的注意力开始转移到生成式AI上。在短短半年的时间里,大语言模型频频涌现:GPT、Claude、GLM等系列大模型出现并持续更新换代,它们均围绕语言理解、逻辑能力等指标完成进化。
在大语言模型之外,AI厂商还把关注点放在了另一座高峰——多模态大模型上。围绕视觉、听觉等能力,实现了从无到有的突破:
从今年上半年开始,端到端语音模型开始先后发布,它让AI能够“听到”人的情绪,并完成有温度的交流。
今年4月,GPT-4o的发布会向人们展示了和AI实时对话的魅力。和以往模型相比,端到端语音模型将过往的多个大模型串联完成的任务压缩到一个模型中完成,降低时延的同时,还能完整保留人声的情绪、停顿等信息,可以随时打断它并继续交流。
多模态模型则让大模型装上了“眼睛”,看到并理解现实世界环境的变化。
以智谱的GLM-4V-Plus为例,它不仅能够完成大语言模型的对话能力,同时,在视频、图像的理解能力上提升明显。智谱还推出了视频通话API接口GLM-4-Plus-VideoCall,让大模型能够和人类打“视频通话”,识别周边物品并对答如流。
“大脑是一个非常复杂的系统,包括听觉、视觉、味觉、语言等多模态的感知与理解能力,有短期和长期记忆能力,深度思考和推理能力,以及情感和想象力。”张鹏说。

Image
可以看到,当前阶段下,大模型能力开始能够模拟人脑的一些功能,包括视觉、听觉、语言理解等能力。
智谱方面透露,在他们规划的五个阶段中,L1能力“已经达到了80-90%”。
在听说读写等基本能力的进化过程中,代表L2的逻辑思维能力,也在快速进化。
L2的一个里程碑就是OpenAI发布的o1模型,跳脱出过往的GPT大家族,专注于CoT(思维链)能力上精进,它学会了慢思考:在应用思维链,将指令拆分为多个简单步骤完成的同时,o1用强化学习的能力,用于识别和纠正错误。
OpenAI表示,随着强化学习的增加和思考时间的增加,o1的性能会持续提高。官方数据显示,在Codeforces主办的编程竞赛上,o1取得了超越93%参赛者的成绩,并在物理、化学、生物等基础学科的能力指标上取得了超过博士生的水准。
因此,o1也被视为人类在L2逻辑思维能力上取得的新进化,开始展现和人类旗鼓相当的推理能力。
当L1语言和多模态能力基本打通后,基于上述底层能力,才能涌现出达到L2逻辑思维能力和L3工具能力级别的新产品。
而这次升级的智能体操控智能终端的能力,实际上在L3阶段。
正如哲学家恩格斯所言,人类和动物,最本质的区别就是——能否制造和使用工具。
智能体2.0的升级,也代表着人类在通往AGI的路线上,又拿下了一城。
“AutoGLM 可以看作是智谱在 L3 工具能力方面的探索和尝试”,张鹏表示。

Image
展望L4和L5,OpenAI认为,L4阶段,AI能够自我完成创新;L5阶段,AI则具备融入或自成组织的能力。
而智谱也对L4和L5阶段给出了新的定义,相对于OpenAI,智谱对AGI的期待更加激进。
“我们认为 L4 级人工智能意味着 AI 可以实现自我学习、自我反思和自我改进。L5 则意味着人工智能全面超越人类,具备探究科学规律、世界起源

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题

让 LLM 在自我进化时也能保持对齐。

我们这个世界是不断变化的开放世界。


人工智能要在这个世界长久立足,就需要突破许多限制,包括可用数据和规模和质量以及有用新信息的增长率。

对基于 LLM 的 AI 来说,高质量的人类数据非常关键,但已有研究预计这些高质量数据将在未来几年耗尽。
如果 LLM 保持现在的发展势头,预计在 2028 年(中位数)左右,已有的数据储量将被全部利用完,来自论文《Will we run out of data? Limits of LLM scaling based on human-generated data》

此后,这类数据的质量也将停滞不前:随着 LLM 能力越来越强,它们将能解决越来越复杂和越来越多的难题,而这些难题所需的训练数据已经超出了人类的能力。

因此,我们就需要为 LLM 构建一种能使其实现自我提升的基本机制,让模型可以持续地自我生成和自我求解更困难的问题。

于是,问题就来了:语言模型能否自我创建可学习的新任务,从而实现自我改进以更好地泛化用于人类偏好对齐?

为了提升语言模型的对齐能力,人们已经提出了许多偏好优化算法,但它们都默认使用固定的提示词训练分布。这种固定的训练范式缺乏可扩展性,并不可避免地导致泛化问题和效率问题。

基于这些考虑,谷歌 DeepMind 和芝加哥大学一个研究团队开发了一种可扩展的开放式 RLHF 框架 eva,即 Evolving Alignment via Asymmetric Self-Play,也就是「通过非对称自博弈实现的演进式对齐」

eva 能让自我提升式语言模型的训练分布自动演进,如图 1 所示。

eva 的核心方法

在介绍 eva 的核心方法之前,我们需要先了解一些前提设置,这里截图如下:

概述地讲,eva 可通过一个创建器(creator)将经典 RLHF 扩展成开放式 RLHF,该创建器使用易于实现的估计、采样、进化程序来调整提示词的分布,模仿不对称自博弈的最小最大遗憾(minimax-regret)策略。

实际的算法

下面说明如何实际实现算法 1 中的 eva。

  1. 创建器步骤:估计,采样,然后演进

显然,创建器会找到最有用的提示词并生成它们的变体,并将这些变体用于偏好优化。创建器的实现分为 3 步。

  • 第 1 步:info (・)—— 估计信息量。对于提示集 X) t 中的每个 x,生成响应、注释奖励并通过式估计 x 的信息量指标。
  • 第 2 步:sample (・)—— 对富含信息的子集进行加权采样。使用信息量指标作为权重,对富含信息的提示词子集 X^info_t 进行采样,以便稍后执行演进。
  • 第 3 步:evolve (・)—— 为高优势提示词执行近端区域演进。具体来说,迭代 X^info_t 中的每个提示词,让它们各自都演化为多个变体,然后(可选)将新生成的提示词与对 X_t 的均匀采样的缓存混合以创建 X′_t。
  1. 求解器步骤:求解然后优化

此步骤是经典的偏好优化,其中生成响应并执行梯度下降。以逐点奖励模型设置为例,对于每个提示,采样 n 个响应,每个响应都带有奖励注释;这里采用最大和最小奖励的响应来构建偏好对,然后进行优化。

总之,eva 可以使用新的创建器模块统一现有的迭代优化工作流程,该模块可以与求解器策略共享相同的网络,也可独立运行。

实验结果

这里我们仅关注实验的主要结果,实验设置请参看原论文。

总体而言,eva 在对齐方面取得了显著的进步,同时无需依赖任何人工数据,因此更具效率。
是基础设置,即一次迭代微调后的模型,eva 则会在此基础上添加一个创建器,以实现初始迭代的提示词集的自我演进,并使用一个偏好优化算法进行额外的开放式 RLHF 迭代,这会得到。

eva 能实现自我提升

如表 1 红色标记所示,eva 在不同优化算法中的表现显著优于基础设置,尤其是在更难的 Arena-Hard 基准上,该基准由于其提示词的复杂性和更公平的评分系统而被认为更具挑战性。

具体来说,eva 使用 SimPO 作为求解器时增益为 8.4%,使用 DPO 作为求解器时增益为 8.5%,超越了其 27B 版本并与 Arena-Hard 排行榜上报告的 claude-3-opus-240229 相当,同时还使用了全自动的提示词生成进行对齐。

eva 可以超越人工编写的提示词

实验进一步表明,使用 eva 提示词训练的模型的表现能够比肩甚至超越那些使用了来自 UltraFeedback 的额外新提示词训练的模型,这可被视为是人类提示词。同时,前者还能做到成本更低,速度更快。

此外,在 MT-Bench 上,使用新的人类提示词进行训练通常会在第一轮中表现出性能下降,在第二轮中也只会有适度的提升。相比之下,eva 能显著提高第二轮的表现。

针对此现象,该团队给出了自己的假设:eva 可演化出全新的可学习的提示词,并且其中包含第二轮问题的特征,这表明 eva 涌现出了处理后续互动等新技能。

消融研究

为了验证 eva 各组件的有效性,该团队也执行了消融研究,下面我们简单给出其发现,详细实验过程请访问原论文:

  • 信息量指标:新提出的基于后悔值的指标优于其它替代指标;
  • 采样之后执行演化的流程:新方法优于贪婪选择方法;
  • 使用奖励模型进行扩展:eva 的对齐增益会随奖励模型而扩展;
  • 持续训练:新提出的方法可通过增量训练获得单调增益;eva 演化得到的数据和调度可用作隐式正则化器,从而实现更好的局部最小值。


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

无需训练即可大幅提升SAM 2!开源的SAM2Long来了,港中文、上海AI Lab出品

Segment Anything Model 2(SAM 2)在传统视频目标分割任务大放异彩,引起了众多关注。然而,港中文和上海 AI Lab 的研究团队发现 SAM 2 的贪婪选择策略容易陷入”错误累积”的问题,即一次错误的分割掩码选择将影响后续帧的分割结果,导致整个视频分割性能的下降。


这个问题在长视频分割任务中显得更加严重。

针对这些挑战,该研究团队近日推出了全新的 SAM2Long。在 Segment Anything Model 2(SAM 2)的基础上,提出了创新的记忆结构设计,打造了专为复杂长视频的分割模型。

SAM2Long 采用了一种全新的多路径记忆树结构,使得模型可以在每一帧处理时探索多种可能的分割路径,并根据综合得分选择最佳路径进行后续帧的分割。这种设计避免了单一错误掩码对整个视频的影响,使得 SAM2Long 在处理遮挡、目标重现等长视频常见问题时表现得更加稳健。

论文链接:https://mark12ding.github.io/project/SAM2Long/asset/images/paper.pdf
项目链接:https://mark12ding.github.io/project/SAM2Long/
代码链接:https://github.com/Mark12Ding/SAM2Long

SAM2Long 方法简述

  1. SAM 2 的基础概述
    SAM 2 是一种用于图像和视频对象分割的基础模型。与 SAM 不同,SAM 2 引入了一个内存模块,该模块利用先前帧的信息和提示帧特征来帮助当前帧的分割。在视频对象分割任务中,SAM 2 会在每个时间步 t 上维护一个内存库,存储最近 N 帧的特征。每个内存条目包含空间嵌入和对象指针,通过这些信息,SAM 2 能够生成当前帧的分割掩码,并预测掩码的 IoU 分数和遮挡分数。SAM 2 采用贪婪选择策略,选择最高 IoU 的掩码作为最终预测,并存储其对应的内存指针。

  2. 多路径记忆树结构与不确定性处理
    为了提高 SAM 2 在长视频中的鲁棒性,SAM2Long 引入了多路径记忆树结构。该结构允许模型在每个时间步上保留多个分割路径假设,每条路径都有独立的内存库和累积得分。每个时间步上,SAM2 的掩码解码器在每条路径会生成三个掩码候选。

为了防止路径数量过多引起计算和内存开销过高,SAM2Long 实施了剪枝策略。我们计算每个掩码累积 IoU 得分,只保留得分最高的 P 条路径。

此外,SAM2Long 在处理不确定场景时,利用遮挡分数进行不确定性处理。当所有路径的遮挡分数都较低时,意味着模型对输出的结果不确定。在这种情况下,SAM2Long 会强制选择不同 IoU 值的掩码路径,以避免错误路径的过早收敛。

SAM2Long 超越现有方法,实现 SOTA

我们将 SAM2Long 与当前最先进的视频对象分割方法进行了对比。尽管 SAM 2.1 已经在众多数据集上显著超越了现有方法,但 SAM2.1Long 将这一成绩推向了更高的水平。特别是在 SA-V 验证集上,SAM2.1Long 的 J&F 得分为 81.1,较 SAM 2.1 提升了 2.5 分。在其他数据集上的表现也显示出 SAM2.1Long 在长时间视频场景下的优越性。

SAM2Long 在应对不同挑战的视频时展现了强大的通用性

除了在SA-V和LVOS数据集上的出色表现外,SAM2.1Long 在其他视频对象分割基准测试上也取得了令人瞩目的成绩。在不同数据集上,SAM2.1Long 在处理复杂和模糊分割任务时展现了强大能力。

这些结果表明,SAM2Long 在保留 SAM 2 基础分割能力的同时,显著增强了其长时间视频场景下的表现,展现了其在不同 VOS 基准数据集上的鲁棒性和通用性。

结语

SAM2Long 是基于 SAM 2 的一种针对长时间视频对象分割任务的全新方法。通过引入多路径记忆树结构和不确定性处理机制,SAM2Long 有效地解决了长视频中遮挡、对象重现和错误累积等挑战。

实验结果表明,SAM2Long 在多个主流数据集上显著提升了分割精度,尤其是在未见类别和复杂场景中的表现尤为突出。相比于 SAM 2,SAM2Long 不仅保持了较低的计算开销,还在泛化能力和鲁棒性上实现了突破。

未来,我们相信 SAM2Long 可以广泛应用于各种实际场景,如自动驾驶、视频编辑和智能监控,推动视频对象分割技术的进一步发展。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI也要做消费类硬件了?Meta前AR眼镜负责人加盟

OpenAI 不仅专注于软件,还要深入硬件研究。

Meta 增强现实眼镜项目前负责人 Caitlin Kalinowski 宣布,她将加入 OpenAI,领导机器人和消费类硬件业务。


图片

刚刚,Kalinowski 在领英上写道:「非常高兴地告诉大家我将加入 OpenAI,领导机器人和消费类硬件业务!
OpenAI 和 ChatGPT 已经改变了世界,改善了人们获取和与信息交互的方式,并在全球范围内带来了有意义的利益。AI 是目前技术领域最令人兴奋的工程前沿,我非常高兴能成为这个团队的一员。

在我的新角色中,我将首先专注于 OpenAI 的机器人研究和合作伙伴关系,以帮助将人工智能带入物理世界并释放其对人类的益处。

感谢 OpenAI 团队、Sam、Kevin Weil 以及我在工程和其他领域的朋友和同事!」

图片

在刚刚官宣新动向后,Kalinowski 一众前同事发来祝贺,言语中都透漏出 Kalinowski 的加入,对 OpenAI 来说真的很幸运。

图片

OpenAI 员工们也开始列队欢迎,OpenAI CPO / 首席产品官 Kevin Weil 表示:和 Kalinowski 一起工作真是太激动了!

图片

OpenAI 产品副总裁 Peter Welinder 表示:非常高兴 Kalinowski 的加入。

图片

作为一名硬件高管,Kalinowski 于 2022 年 3 月开始领导 Meta 的 AR 眼镜团队。并负责监督 AR 眼镜 Orion 的创建,这是 Meta 最近在其年度 Connect 大会上展示的增强现实原型。

Kalinowski 还曾领导过 Meta VR 眼镜背后的硬件团队约九年。

在此之前,她在苹果公司负责设计 MacBook 的硬件。

图片

有人猜测,Kalinowski 可能会与她的前老板、前苹果高管 Jony Ive 合作,开发一款新的人工智能硬件设备,该设备由 OpenAI 和 Ive 的初创公司 LoveFrom 共同开发。9 月,Ive 证实了他正在与 OpenAI 合作开发一款硬件产品,并将其描述为「一款利用人工智能创造计算体验的产品,其社交破坏性比 iPhone 要小。」

前不久,OpenAI 还在为一个机器人团队招聘研究工程师,该团队旨在帮助 OpenAI 的合作伙伴将其多模态 AI 整合到他们的硬件中。OpenAI 机器人团队的重启大约是在该公司四年前解散硬件研究部门、专注于软件研发之后。2018 年,OpenAI 曾制造了一只能够自主学习抓取物体的机械手。

图片
据不完全统计,已经有多家公司将 OpenAI 的模型整合到他们的硬件中。最明显的是苹果,该公司将于今年晚些时候为 iPhone 推出 ChatGPT 集成。另一家是机器人公司 Figure,其人形机器人 01 利用 OpenAI 的软件进行自然语音对话。

最近一年,OpenAI 人才流动比较频繁,选择离开的有大家比较熟悉的 Ilya、Mira Murati 等。近期选择加入的有微软人工智能副总裁 Sebastien Bubeck 等人。

新加入的 Kalinowski 工作重心是机器人和消费硬件业务,或许我们可以期待一下 OpenAI 在硬件方面带来 ChatGPT 时刻。

参考链接:
https://techcrunch.com/2024/11/04/metas-former-hardware-lead-for-orion-is-joining-openai/



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Jennifer Close加入Curai Health担任首席运营官

Jennifer Close在医疗保健交付方面拥有超过20年的运营领导经验
Curai Health是一家通过人工智能扩大高质量、可负担的护理服务可及性的首个基于聊天的虚拟诊所,任命Jennifer Close为首席运营官。图片{ width=60% }


Close在整合医疗系统、多专科医疗集团和健康计划方面担任运营领导已超过20年。她最近担任Teladoc Health的高级副总裁,负责领导支持美国所有服务线的临床运营。
Close表示:“运营是有效护理交付的支柱——当我们实施合适的流程和系统时,我们让临床人员完全专注于提供最佳患者护理。”她说:“Curai也持有这一理念,我很高兴加入这支出色团队,为患者、合作伙伴和临床人员提供出色体验。”
在加入Teladoc之前,Close担任Blaze Health的首席执行官,Blaze Health是North Memorial Health和明尼苏达州蓝十字蓝盾之间的合资企业。她还曾在North Memorial Health、芝加哥大学医学院、明尼苏达儿童医院和Dean Health System担任高级运营主管。
Curai作为将机器学习应用于临床工作流程的先驱,与健康计划和健康系统合作,使患者能够长期参与护理,改善健康结果并降低成本。自2017年成立以来,Curai Health提供按需、可负担和高质量的虚拟初级和急诊护理。Curai Health利用人工智能强化由专业训练有素的持牌临床人员领导的患者护理团队。结合临床人员的专长和人工智能的效率,Curai Health提供一种超乎人力可能的护理水平。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Normal Computing Selected for ARIA’s £50M Scaling Compute Programme

Normal Computing UK,一家人工智能和硬件公司,被选为英国高级研究和发明机构(ARIA)的Scaling Compute Programme中获得资助的12个团队之一。图片{ width=60% }


该计划获得了5,000万英镑的资金支持,旨在将人工智能硬件成本降低1000倍,并使半导体供应链多样化。

Normal Computing的硬件计划由首席科学家帕特里克·科尔斯博士领导,他之前来自洛斯阿拉莫斯国家实验室,将利用在矩阵求逆方面的物理学计算芯片和在训练大规模人工智能模型方面的应用中探索应用来开发基于物理学的计算芯片,从而改变人工智能硬件的效率。 Normal Computing的“热力学计算”方法利用噪音作为资源而非与之抗衡,符合ARIA挑战传统计算范式并支持英国和全球范围内突破性研究的愿景。

“数字硬件在人工智能方面的低效率是广为人知的-一个ChatGPT会话的功耗是包括大脑处理在内的150倍”,Normal Computing公司首席科学家帕特里克·科尔斯博士说道。“通过ARIA的Scaling Compute计划,我们正朝着计算效率的基本极限迈进,通过允许物理动力学,比如热平衡,为我们进行计算。”

Normal公司减少新型人工智能芯片架构风险的方法-以及解决全球人才短缺和脆弱的硅基础设施-在很大程度上依赖于人工智能本身。 Normal Computing公司首席执行官法里斯·斯巴希表示:“我们独特之处在于人工智能正在帮助设计和制造我们的人工智能芯片。该行业难以解决‘人工智能能源危机’,是由于‘硅复杂危机’”,Normal Computing的首席执行官法里斯·斯巴希说。“即使对于最简单的物理结构,比如内存,复杂度现在也处于博士学位级别,可以这么说。我们培训了第一个真正理解正式芯片逻辑的AI,以帮助为我们的几个商业伙伴和现在与ARIA携手减轻芯片风险。这类似于DeepMind的AlphaGeometry,但针对硬件而不是数学,这项工作由前Meta和Google Brain的AI主管领导。”

Normal Computing的ARIA研发创造者融合了量子计算和热力学、概率机器学习和半导体设计的专门知识。关键团队成员包括在热力学中因克鲁克斯起伏定理而闻名的加文·克鲁克斯博士,以及硅工程专家扎卡里·贝莱特谢和文森特·张,在他们最后一家芯片创业公司Radical Semiconductor离职后,以及来自Graphcore和Broadcom的高级技术人员。

该计划涵盖三个核心工作流程:(1)软件模拟开发,(2)推进网络和互连功能,以及(3)探索新的计算基元。Normal Computing的工作将有助于后者,开发可能为计算方面的进展打开新的途径,特别与现代人工智能算法相关。

“如果成功,该计划将为下一代人工智能硬件解锁一个新的技术杠杆,减轻对领先芯片制造的依赖,并开辟新的扩展人工智能硬件的途径,”ARIA Scaling Compute项目主管苏拉吉·布拉瓦尔说。

该举措反映了ARIA促进科学进步并创造新的社区和产业的承诺。通过汇集来自学术界、非营利性研究机构、初创公司和大型跨国公司的多样专业知识,ARIA旨在加速从创新理念到实际应用的旅程。


注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Loftware和Signant Health宣布集成解决方案的可用性

自动化改进速度,促进合规性,支持可扩展性。图片{ width=60% }


Loftware,全球领先的企业标签和艺术品管理解决方案提供商,以及Signant Health,现代临床试验证据生成领域的领导者,今天宣布了他们集成解决方案的一般可用性。这一新提供将Loftware Cloud临床试验平台与Signant Health的GxP Inventory临床用品管理应用程序连接起来。

新集成支持三个关键领域的自动化。首先,它允许存储在GxP Inventory中的临床试验主数据传输到Loftware Cloud临床试验平台,消除了手动录入过程中的错误风险。其次,打印请求可以在GxP Inventory应用程序内直接创建和批准,从而提高效率和可用性。最后,打印状态更新然后自动从Loftware Cloud临床试验发送回GxP Inventory,确保制造中可以及时启动前向过程。

Signant的供应管理解决方案副总裁Oliver Cunningham表示:“我们看到直接到站点和直接到患者的临床试验供应模式增长迅猛,以及针对先进药品的及时包装需求。” Loftware行业领先的标签功能与我们的SmartSignals Supplies解决方案和用户工作流相结合,为客户提供所需的敏捷性,以最大化其临床用品的性能和合规性。

制药公司必须扩展其临床用品管理能力,以解决全球临床试验的日益增长的数量和复杂性。依赖传统系统或手动流程将引入延误、错误和潜在不符合法规标准的风险。Loftware Cloud临床试验与Signant的GxP Inventory临床用品管理应用程序之间的密切集成提供了必要的自动化,以增强端到端临床用品和标签流程的效率、准确性和速度。

Loftware生命科学产品管理副总裁Simon Jones补充说:“Loftware Cloud临床试验与Signant的GxP Inventory之间的集成标志着在自动化临床供应链管理的关键方面迈出了重要一步。通过简化数据传输和自动化标签流程,制药公司现在能够加快试验时间表、增强合规性,减少风险,同时保持最高水平的准确性和效率。”

Loftware和Signant Health预计这是一个旨在支持新兴行业最佳实践的不断发展的产品集成的首次发布。了解更多信息请点击 这里。

注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OSARO发布AutoModel

OSARO的最新AI软件消除了昂贵的重新训练停机时间,简化了新SKU引入,并在动态订单配送环境中最大程度地提高了生产效率
OSARO®是一家全球领先的为高容量配送中心提供机器学习支持的机器人技术公司,推出了OSARO AutoModel™。图片{ width=60% }


这标志着其OSARO SightWorks™感知平台的重大进展。在订单配送中,速度至关重要,在这种环境下,企业往往需要花费数天甚至数周的昂贵停机时间来为新SKU更新其机器人。相比之下,OSARO AutoModel使机器人能够自动学习和适应新的物品、流程和工作流程,零停机时间。OSARO AutoModel加快了新SKU的引入和上线,增加了机器人的生产力,从而使拣选、分拣和自动包装方面具有更大的灵活性和效率。
“在快节奏的订单配送世界中,快速适应动态混合的SKU和市场机会对于成功至关重要。”OSARO首席执行官Derik Pridmore说。“OSARO AutoModel通过消除与引入新产品相关的停机时间和延迟,彻底改变了机器人自动化。它使得所有规模的企业在电子商务、制造、分销、第三方物流和消费品行业获得竞争优势,为客户提供卓越的配送体验。”

OSARO AutoModel™,是OSARO SightWorks™平台中的核心AI引擎,通过使其能够实时学习和适应新任务和环境,扩展了使用AI技术的订单配送机器人的能力。OSARO AutoModel特别适用于高容量的分拣和组件拣选应用,其中机器人需要能够快速准确地上线成千上万个SKU,如电子商务、物流和制造。

OSARO AutoModel的关键优势包括:

  • 快速部署:快速学习新SKU,最大限度地减少培训时间并实现投资回报率
  • 最大自主性:通过OSARO先进的AI感知算法实现高拣选准确性和效率
  • 无中断:在没有昂贵的重新培训或重新编程的情况下适应新的SKU、包装和工作流程
  • 持续改进:受益于实时AI模型更新和持续性能优化

更多信息,请查看 OSARO AutoModel视频 了解OSARO如何解决机器人自动化中的一个关键挑战:如何适应新产品和任务而无需昂贵的停机时间。

要了解有关OSARO SightWorks™感知软件如何使机器人能够在订单配送过程中感知、抓取和执行任务,请访问osaro.com



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Bolster发布AI安全电子邮件功能

新功能结合了众包客户报告和基于AI的自动化技术,以实时保护品牌免受欺诈方案侵害
为帮助组织应对人工智能支持的网络钓鱼和冒充尝试急剧上升的挑战,领先的多渠道网络钓鱼防护提供商Bolster今天推出了新功能——Bolster AI安全电子邮件,该功能自动化分析和减轻通过客户滥用邮箱报告的网络威胁。图片{ width=60% }


Bolster产品副总裁Alain Mayer表示:“由一线和二线安全运营中心(SOC)分析员手动分类和处理对组织而言既耗时又成本高昂。这些网络安全不足对安全团队具有重大影响,尤其是对客户体验。”他继续说:“这可能导致客户大量流失和财务损失。我们通过提供高效的AI工具,自动化打击网络钓鱼、冒充和其他欺诈方案,帮助组织应对这些挑战。”
大品牌和企业正面临网络钓鱼、冒充和欺诈尝试的涌入,一些品牌每月从客户报告可疑活动中收到高达3万封电子邮件。对SOC人员来说,手动处理这些报告效率低下且需要专业知识。此外,手动流程平均需要数天到数周才能进行单个停用,多个部门包括客户支持、网络安全、欺诈保护、法务、营销等都受到影响。
Bolster AI安全电子邮件处理威胁的整个生命周期,从识别域名注册者到发送停止信并协调全球停用。在测试阶段,Bolster团队确定了高真正阳性准确率,大品牌看到了约35%的真阳性率,即大约3份威胁报告中有1份是合法的。这有助于组织专注于实际问题,同时降低内部成本。最近的一项研究显示,15%的被骗用户不会续订许可证。基于AI的补救措施可以帮助防止这种情况发生。
Mayer继续表示:“这项新功能不仅仅可以阻止网络钓鱼威胁——它还可以保护客户的信任。通过启用直接由客户生成的报告并自动化快速威胁缓解,品牌可以展示对安全的积极承诺。”他继续说:“这超越了员工驱动的模式,直接吸引那些受到最严重影响的人。而其他工具专注于AI驱动的分析并由人员监督,Bolster AI安全电子邮件完全自动化整个过程,从分类到与客户沟通,一旦威胁被消除。”
此外,AI安全电子邮件可轻松扩展,因此SOC团队可以每月管理成千上万封客户报告的电子邮件,而无需额外的内部资源。
这意味着以前需要1-2天才能完成的停用现在只需几个小时,防止损害进一步扩大。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB