登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:Steven Xia,四年级博士生,研究方向是基于 AI 大模型的自动代码修复;邓茵琳,四年级博士生,研究方向是基于 AI 大模型的代码生成;Soren Dunn,科研实习生,目前为 UIUC 大三学生。张令明老师现任 UIUC 计算机系副教授,主要从事软件工程、机器学习、代码大模型的相关研究。

更多详细信息请见张老师的个人主页:https://lingming.cs.illinois.edu/

自从 Devin(首个全自动 AI 软件工程师)提出以来,针对软件工程的 AI Agent 的设计成为研究的焦点,越来越多基于 Agent 的 AI 自动软件工程师被提出,并在 SWE-bench 数据集上取得了不俗的表现、自动修复了许多真实的 GitHub issue。

然而,复杂的 Agent 系统会带来额外的开销和不确定性,我们真的需要使用如此复杂的 Agent 来解决 GitHub issue 吗?不依赖 Agent 的解决方案能接近它们的性能吗?

从这两个问题出发,伊利诺伊大学香槟分校(UIUC)张令明老师团队提出了 OpenAutoCoder-Agentless,一个简单高效并且完全开源的无 Agent 方案,仅需 $0.34 就能解决一个真实的 GitHub issue。Agentless 在短短几天内在 GitHub 上已经吸引了超过 300 GitHub Star,并登上了 DAIR.AI 每周最热 ML 论文榜单前三。

图片1

AWS 研究科学家 Leo Boytsov 表示:“Agentless 框架表现优异,超过所有开源 Agent 解决方案,几乎达到 SWE Bench Lite 最高水平(27%)。而且,它以显著更低的成本击败了所有开源方案。该框架采用分层查询方法(通过向 LLM 提问来查找文件、类、函数等)以确定补丁位置。虽然利用 LLM,但不允许 LLM 做出规划决策。”

图片2

Agentless 是一种自动解决软件开发问题的方法,它使用简单的两阶段方法进行定位和修复,以修复代码库中的 bug。在定位阶段,Agentless 以分层方式来逐步缩小到可疑的文件、类 / 函数和具体的编辑位置。对于修复,它使用简单的 diff 格式(参考自开源工具 Aider)来生成多个候选补丁,并对其进行过滤和排序。

图片3

研究者将 Agentless 与现有的 AI Software Agent 进行了比较,其中包括最先进的开源和商业 / 闭源项目。Agentless 可以以更低的成本超越所有现有的开源 Software Agent!Agentless 解决了 27.33% 的问题,是开源方案中最高的,并且解决每个问题平均仅需 $0.29,在所有问题上(包括能解决和未解决的)平均只需要约 $0.34。

图片4

Agentless 还有改进的潜力。在考虑所有生成的补丁时,Agentless 可以解决 41% 的问题,这个上限表明补丁排序和选择阶段有显著的改进空间。Agentless 能够解决一些即使是最好的商业工具(Alibaba Lingma Agent)也无法解决的独特问题,这表明它可以作为现有工具的补充。

图片5

对 SWE-bench Lite 数据集的分析

研究者还对 SWE-bench Lite 数据集进行了人工检查和详细分析。

研究发现,SWE-bench Lite 数据集中,有 4.3% 的问题在问题描述中直接给出了完整的答案,也就是正确的修复补丁。而另外 10% 的问题描述了正确解决方案的确切步骤。这表明,SWE-bench Lite 中的某些问题可能更容易解决。

此外,研究团队观察到有 4.3% 的问题在问题描述中包含了用户提议的解决方案或者步骤,但这些方案与开发人员的真实补丁并不一致。这进一步揭示了该基准测试的潜在问题,因为这些误导性解决方案可能导致 AI 工具仅通过遵循问题描述来生成不正确的解决方案。

在问题描述质量方面,研究者观察到,虽然 SWE-bench Lite 中大部分的任务都包含了足够的信息,并且许多任务还提供了失败示例来复现错误,但是仍有 9.3% 的问题没有包含足够的信息。例如需要实现一个新的函数或者添加一个错误信息,但是特定的函数名或者特定的错误信息字符串并没有在问题描述中给出。这意味着即使正确实现了底层功能,如果函数名或错误信息字符串不完全匹配,测试也会失败。

图片6

普林斯顿大学的研究人员,同时也是 SWE-Bench 的作者之一,Ofir Press 确认了他们的发现:“Agentless 对 SWE-bench Lite 进行了不错的手动分析。他们认为 Lite 上的理论最高得分可能是 90.7%。我觉得实际的上限可能会更低(大约 80%)。一些问题的信息不足,另一些问题的测试过于严格。”

图片7

SWE-bench Lite-S:经过过滤的严格问题子集

针对这些问题,研究者提出了一个严格的问题子集 SWE-bench Lite-S(包含 252 个问题)。具体来说,从 SWE-bench Lite(包含 300 个问题)中排除了那些在问题描述中包含确切补丁、误导性解决方案或未提供足够信息的问题。这样可以去除不合理的问题,并使基准测试的难度水平标准化。与原始的 SWE-bench Lite 相比,过滤后的基准测试更准确地反映了自动软件开发工具的真实能力。

结语

尽管基于 Agent 的软件开发非常有前景,作者们认为技术和研究社区是时候停下来思考其关键设计与评估方法,而不是急于发布更多的 Agent。研究者希望 Agentless 可以帮助重置未来软件工程 Agent 的基线和方向。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

人形机器人,A轮即被锁定!

文章来源:创投日报
记者 | 敖瑾

图片来源:由GPTNB生成

通用机器人公司逐际动力完成A轮融资,投资方包括招商局创投、尚颀资本等;而今年5月工商变更信息显示,阿里巴巴旗下投资平台成为逐际动力新增股东;尽管人形机器人行业在一笔笔大额融资中显得烈火烹油,但实际上这个风口行业仍处在早期发展阶段。

创投日报记者今日获悉,通用机器人公司逐际动力完成A轮融资,领投方为招商局创投、尚颀资本,老股东峰瑞资本、绿洲资本以及明势资本继续加持。


目前,本轮融资尚未在工商信息中体现。而就在今年5月,创投日报记者曾报道,工商变更信息显示,阿里巴巴旗下投资平台成为逐际动力新增股东,持有后者18.78%的股份,是仅次于创始团队的第二大股东。

可以看到,逐际动力本轮融资获得了不少产业资本的青睐。对此,逐际动力创始人张巍表示,公司A轮融资从一开始就锁定产投方, “因为场景就是时间、就是资金、就是技术,通用人形机器人的AI时代更需要科技公司懂场景。”

图片来源:无

公司方面进一步对创投日报记者表示,接下来公司将重点推进人形机器人运动智能基础模型的建立。“要实现人形机器人的泛化能力,特别是操作上的泛化,我们认为关键在于用大量的运动数据进行预训练,然后在场景中进行微调。这将大幅提高算法迭代速度,出来的运动效果也更加稳定。”

人形机器人企业绑定主机厂

上汽集团企业的投资平台——尚颀资本的出手,无疑是逐际动力本轮融资的一大焦点。可以看到,截至目前,已有不少车企通过或亲自下场或对外投资的方式,投身到本轮人形机器人发展的火热浪潮当中。

事实上,最早掀起人形机器人在全球范围的热潮,就是知名新能源车企特斯拉。国内方面,蔚来汽车在2023年也组建了一个人形机器人“战队”,主要关注人形机器人的底层技术;小鹏此前也发布了自研人形机器人PX5;比亚迪则通过股权投资智元机器人,参与到了人形机器人产业当中。

车企对人形机器人的关注,除了有基础技术层面的能力迁移考量外,落地应用场景也是一个重要原因。

“人形机器人第一股”优必选,今年2月就发布了一条其工业版人形机器人Walker在新能源车厂首次实训的视频。

在今年4月举行的中国人形机器人生态大会上,蔚来汽车前瞻制造工程人形机器人战队负责人乙鹏在公开演讲中表示,“汽车制造业是发展人形机器人比较绝佳的平台,原因主要在于:一、汽车制造业的工业数智化非常好,其海量数字化数据可以帮助我们构建大模型或者开发具身智能。二、 汽车制造是工业制造的明珠,它的应用场景非常丰富,更重要的一点是,它可以向下兼容到其他的工业制造里面,人形机器人在汽车制造领域的应用具有天生的泛化优势。”

逐际动力无疑也在寻求和包括上汽在内的主机厂实现数据、产品制造以及落地场景探索方面的合作。

逐际动力方面告诉创投日报记者,公司很重视产业投资人,“他们带来的不仅仅是资金的支持,还有赋能和产业协同。”

在场景方面,“大型产业集团拥有的场景比较广泛,人形机器人企业可以选择场景进行技术和商业验证,和产业进行协同,尝试具体场景的PMF”;在生产制造方面,“ 汽车产业本身就是一个发达的制造体系,与车厂的供应链和产业协同有助于人形机器人企业打造可靠的产品”。

逐际动力方面进一步表示,“主机厂对人形机器人的发展发挥至关重要的作用:共享供应链、制造能力和自动驾驶技术,这些都是人形机器人大规模落地必不可少的关键元素。”

各厂商发展路线各有侧重

不久前举行的2024世界人工智能大会上,伫立在展馆显眼处的“18金刚”,昭示了当前人形机器人领域的发展现状。尽管行业在一笔笔大额融资中显得烈火烹油,但难以独立行走的人形机器人们,则反映了这个风口行业仍处在早期发展阶段。

与大多数同行一样,逐际动力也是一家成立不久的新公司。工商资料显示,其成立于2022年1月,公司创始人张巍,曾任美国俄亥俄州立大学长聘教授,于加州大学伯克利分校担任博士后研究员,拥有普渡大学电气与计算机工程系博士学位,本科就读于中国科学技术大学自动化系。目前,张巍还是南方科技大学的长聘教授。

目前,逐际动力的产品包括人形机器人、四轮足机器人等。对于下一阶段的发展规划,公司方面对创投日报记者表示,将重点推进人形机器人运动智能的基础模型的建立,“而该基础模型本质上是要解决如何获得这些数据、如何训练数据、如何有效地迁移到本体上,确保在真实的物理环境中能用起来。”

有了解人形机器人领域的业内人士对记者表示,从这一角度看,阿里对逐际动力的出资,不仅有资金上的赋能,同时或也能在云服务等方面予以逐际动力支持。

正处于早期阶段的人形机器人产业,各家入局企业都还在发展路线的初步探索过程中。

与逐际动力同在深圳的另一家人形机器人企业乐聚机器人,选择了和华为进行合作。公开资料显示,今年3月,华为云与乐聚机器人签署战略合作协议,双方将共同探索“华为盘古大模型+夸父人形机器人”商用落地场景。从具体合作内容来看,华为将聚焦“大模型与具身智能解决方案上”,乐聚则主要提供“人形机器人硬件与算法”。

而不久前官宣完成7亿元规模天使轮融资的银河通用,则选择了进行全栈自研,宣称将在本体、大脑与小脑三个领域齐头并进。值得一提的是,银河通用这轮融资中,也出现了美团点评战投、北汽产投以及讯飞基金等产业资本。

对于自身的发展路线,逐际动力方面对创投日报记者表示,是从全身的运动控制能力,向全地形移动能力,到半自主、特定场景全自主、多场景全自主的移动操作能力,不断迭代发展,“我们不会从一开始就什么都做,而是根据技术攻关的路径和先后顺序,让先成熟的、可商业化的技术转化成产品,进行阶段性落地。”

可以看到,无论选择什么样的发展路线,眼下各人形机器人初创企业,都把产品商业落地作为了头号任务。

上述乐聚机器人的产品“夸父”,目前正在蔚来、亨通等工厂检测验证;而成立仅一年多的银河通用,则表示“今年内就能看到银河自研的通用具身智能机器人逐步进入真实商业场景,并产生显著价值”.

END
特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

MotionClone:无需训练,一键克隆视频运动

无需训练或微调,在提示词指定的新场景中克隆参考视频的运动,无论是全局的相机运动还是局部的肢体运动都可以一键搞定。

AIxiv专栏是机器之心发布学术、技术内容的栏目。


过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

本文提出了名为 MotionClone 的新框架,给定任意的参考视频,能够在不进行模型训练或微调的情况下提取对应的运动信息;这种运动信息可以直接和文本提示一起指导新视频的生成,实现具有定制化运动的文本生成视频 (text2video)。

相较于先前的研究,MotionClone 具备如下的优点:

  • 无需训练或微调:先前的方法通常需要训练模型来编码运动线索或微调视频扩散模型来拟合特定运动模式。训练模型编码运动线索对于训练域之外的运动泛化能力较差,而微调已有的视频生成模型可能会损害基模型潜在的视频生成质量。MotionClone 无需引入任何额外的训练或微调,在提高运动泛化能力的同时最大程度保留了基座模型的生成质量。
  • 更高的运动质量:已有的开源文生视频模型很难生成大幅度的合理的运动,MotionClone 通过引入主成分时序注意力运动指导在大幅加强生成视频运动幅度的同时有效保障了运动的合理性。
  • 更好的空间位置关系:为了避免直接的运动克隆可能导致的空间语义错配,MotionClone 提出了基于交叉注意力掩码的空间语义信息指导来辅助空间语义信息和时空运动信息的正确耦合。

时序注意力模块中的运动信息

在文本生视频工作中,时序注意力模块 (Temporal Attention) 被广泛用于建模视频的帧间相关性。由于时序注意力模块中的注意力分数 (attention map score) 表征了帧间的相关性,因此一个直观的想法是是否可以通过约束完全一致的注意力分数来复制的帧间联系从而实现运动克隆。

然而,实验发现直接复制完整的注意力图 (plain control) 只能实现非常粗糙的运动迁移,这是因为注意力中大多数权重对应的是噪声或者非常细微的运动信息,这些信息一方面难以和文本指定的新场景相结合,另一方面掩盖了潜在的有效的运动指导。

为了解决这一问题,MotionClone 引入了主成分时序注意力运动指导机制 (Primary temporal-attention guidance),仅利用时序注意力中的主要成分来对视频生成进行稀疏指导,从而过滤噪声和细微运动信息的负面影响,实现运动在文本指定的新场景下的有效克隆。

空间语义修正

主成分时序注意力运动指导能够实现对参考视频的运动克隆,但是无法确保运动的主体和用户意图相一致,这会降低视频生成的质量,在某些情况下甚至会导致运动主体的错位。

为了解决上述问题,MotionClone 引入空间语义引导机制 (Location-aware semantic guidance),通过交叉注意力掩码(Cross Attention Mask)划分视频的前后背景区域,通过分别约束视频前后背景的语义信息来保障空间语义的合理布局,促进时序运动和空间语义的正确耦合。

MotionClone 实现细节

  1. DDIM 反转:MotionClone 采用 DDIM Inversion 将输入的参考视频反转至 latent space 中,实现对参考视频的时序注意力主成分提取。
  2. 引导阶段:在每次去噪时,MotionClone 同时引入了主成分时序注意力运动指导和空间语义信息指导,它们协同运行,为可控视频生成提供全面的运动和语义引导。
  3. 高斯掩码:在空间语义引导机制中,采用高斯核函数对交叉注意力掩码进行模糊处理,消除潜在的结构信息影响。

DAVIS 数据集中的 30 个视频被用于测试。实验结果表明 MotionClone 实现了在文本契合度、时序一致性以及多项用户调研指标上的显著提升,超越了以往的运动迁移方法,具体结果如下表所示。

MotionClone 与已有运动迁移方法的生成结果对比如下图所示,可见 MotionClone 具有领先的性能。

综上所述,MotionClone 是一种新的运动迁移框架,能够在无需训练或微调的情况下,有效地将参考视频中的运动克隆到用户给定提示词指定的新场景,为已有的文生视频模型提供了即插即用的运动定制化方案。

MotionClone 在保留已有基座模型的生成质量的基础上引入高效的主成分运动信息指导和空间语义引导,在保障和文本的语义对齐能力的同时显著提高了和参考视频的运动一致性,实现高质量的可控的视频生成。

此外,MotionClone 能够直接适配丰富的社区模型实现多样化的视频生成,具备极高的扩展性。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI正在悄悄研发代号“草莓”的神秘项目,其能力或已达到博士水平

为了在飞速发展的人工智能领域保持领先地位,OpenAI正在秘密研发一种新的AI模型,代号为“草莓”。

这一消息来自路透社和一位知情人士透露的内部文件。


这家由微软支持的初创公司以其ChatGPT产品而闻名,目前正全力展示其模型具备的高级推理能力,这可能会成为AI技术的一大飞跃。

01.“草莓”项目内部一览

根据路透社5月份看到的一份最新内部文件,OpenAI团队正在深入研究“草莓”项目。虽然该文件的确切时间线尚不清楚,但它概述了OpenAI利用“草莓”进行高级人工智能研究的计划。

该项目被称为“正在进行中”,即使在公司内部也一直处于保密状态。“草莓”的目标是让人工智能不仅能生成答案,还能自主、可靠地浏览互联网,进行OpenAI所称的“深度研究”。

“这是迄今为止人工智能模型无法实现的。”消息人士指出了该项目的雄心勃勃。

在被问及“草莓”和这篇报道中的细节时,OpenAI的一位发言人在一份声明中说道:“我们希望我们的人工智能模型能像我们一样看待和理解这个世界。持续研究新的AI能力是业界的普遍做法,我们的共同信念是,随着时间的推移,这些系统的推理能力将不断提高。”

但这位发言人没有直接回答有关“草莓”的问题。

02.从Q到“草莓”推理新时代

有消息称,“草莓”是前一个名为Q的项目的继任者。

据两位知情人士透露,OpenAI内部已将Q视为一项突破,因为它能够回答复杂的科学和数学问题,超越了目前大多商业化模型的能力。

据彭博社报道,在今年的一次内部全体会议上,OpenAI展示了一个研究项目,展示了新的类人推理能力。

虽然路透社无法证实所展示的项目是否为“草莓”,但这与该公司一直以来为增强人工智能推理能力所做的努力不谋而合。

OpenAI首席执行官奥特曼强调了推理在AI中的重要性,他在今年早些时候表示,“最重要的进步领域将围绕推理能力展开”。

03.人工智能推理的挑战

研究人员认为,提高人工智能模型的推理能力是实现人类或超人级智能的关键。虽然大型语言模型可以高效地总结文本和撰写文章,但它们在常识性问题和逻辑任务上会经常失误,导致所谓的“幻觉”或生成错误信息。

根据AI研究人员的描述,推理涉及人工智能规划、理解物理世界和解决多步骤问题的能力。

OpenAI的“草莓”项目旨在通过采用专门的后期训练过程来克服这些挑战。这包括在大量数据集上对人工智能模型进行预训练后,对其进行微调。

据一位知情人士透露,“草莓”的方法与斯坦福大学的“自学推理”(STaR)有相似之处,后者允许人工智能模型迭代地创建自己的训练数据,有可能使它们达到更高的智能水平。

STaR的创造者之一、斯坦福大学教授Noah Goodman评论说:“我认为这既令人兴奋,又令人恐惧……如果事情继续朝着这个方向发展,作为人类,我们就有一些严肃的事情需要思考了。”

04.长任务规划和自主研究

“草莓”项目雄心勃勃的目标之一是能够执行长期任务(LHT),这要求人工智能在较长时间内计划并执行一系列行动。

内部文件显示,OpenAI正在一个“深度研究”数据集上训练和评估模型,以实现这些能力。

虽然该数据集的具体内容和延长时间仍未披露,但目标很明确:让人工智能能够在计算机使用代理(CUA)的帮助下自主开展研究,并根据研究结果采取行动。

05.竞争激烈的人工智能产业

在增强人工智能推理能力方面,OpenAI并非孤军奋战。谷歌、Meta和微软等大型科技公司以及众多学术实验室也在探索各种技术,以提高人工智能的推理能力。

然而,对于大型语言模型能否在预测中纳入长期规划和高级推理,人们的看法却不尽相同。Meta的现代人工智能先驱YannLeCun就经常对大语言模型(LLM)能否实现类人推理的能力表示怀疑。

“草莓”代表了OpenAI战略的重要组成部分,旨在解决当前AI模型的局限性。通过开发更先进的推理能力,OpenAI旨在为人工智能开启新的可能性,从科学发现到创建新的软件应用。

同时,该公司一直在向开发者和合作伙伴发出信号,表示即将发布推理能力显著增强的技术。

“草莓”的开发包括微调等后期训练方法,其中涉及人类反馈和迭代学习过程。这些技术旨在完善人工智能模型,提高它们在特定任务中的表现。

通过“草莓”技术取得的进步可以重新定义人工智能的能力,并为这些模型所能达到的目标设定新的标准。

虽然前进的道路充满挑战,但潜在的回报也是巨大的,预示着一个智能、自主的人工智能系统的新时代即将到来。

用OpenAI发言人的话来说,“我们希望我们的人工智能模型能像我们一样看待和理解这个世界。如果‘草莓’项目取得成功,我们就离实现这一愿景更近了一步。”

OpenAI引入了一个五级系统来跟踪其在实现通用人工智能(AGI)的进展。这些等级从代表当前对话式人工智能的第1级,到设想能够管理和执行整个组织工作的第5级,涵盖了不同层次的AI能力。

下面是OpenAI划定的五个人工智能等级:

1.聊天机器人:具备对话语言的AI
2.推理者:具备人类水平的问题解决能力
3.代理者:能够采取行动的系统
4.创新者:能够帮助发明创造的AI
5.组织者:能够完成组织工作的AI

OpenAI认为“草莓”正在接近第2级,这一级涉及解决问题,类似于不借助工具的博士水平。该框架旨在提供一种结构化的方法来理解和开发人工智能系统,从而最终超越人类智能。

原文来源于:
https://www.tekedia.com/strawberry-project-openai-developing-a-new-reasoning-ai-technology/
中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联系我们。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

直击真实的甲方AGI需求,人工智能赋能产业融通发展论坛顺利召开

7月6日,「2024 WAIC 人工智能赋能产业融通发展论坛」在世博展览馆隆重举行。本次论坛主要议题为探讨人工智能赋能新型工业化、促进产业融通发展的相关问题,包括领导致辞、签约仪式、主题演讲、央国企人工智能场景需求发布和圆桌论坛等多个环节。


众多来自央国企机构和人工智能领域的企业参与,包括中国电子信息产业发展研究院、中国移动研究院、中国石化胜利油田、国家电网客服中心、中电昱创、南方电网数字电网集团、达摩院、百度智能云、创新奇智等。出席嘉宾围绕人工智能在不同领域的应用实践、大模型的发展与应用、智能化运维、人工智能赋能产业转型等方面展开了深入讨论。

论坛开场,由中国电子信息产业发展研究院领导致辞。在致辞环节中,中国电子信息产业发展研究院强调了人工智能在新型工业化中的重要作用、人工智能+产融结合的重要方向以及人工智能赋能场景落地的最终目标。

签约环节,中国电子信息产业发展研究院和国家电网客服中心的代表在与会者的见证下签署了战略合作协议,这也代表了双方携手共同提升电力智能服务水平,为电力产业发展赋能的新决心。

此外,中国软件评测中心和机器之心的代表也进行了合作签约,这一签约将双方在各自领域的专业优势和丰富资源紧密结合,从而有效实现资源共享和优势互补,共建合作新生态。

主题演讲环节,达摩院决策智能实验室能源行业负责人刘乐分享了达摩院决策智能实验室在电力场景的应用产品,达摩院决策智能实验室根据其研究的决策智能相关技术,沉淀了 MindOpt 求解器等决策产品,在电力等领域应用。绿色能源 AI 解决方案围绕电力发输配用,通过基础能力落地实施。大模型时代,其在电力能源领域的应用包括精准天气预报,…

针对传统电力运维中存在的问题,中电昱创认为,传统电力运维存在数据处理能力不足、故障预测与定位困难、人力资源成本高等痛点,智能化运维是必由之路,但面临诸多挑战。中电昱创将人工智能与电力行业融合,通过智能化前端设备和 AI 后端平台形成边端结合架构,以提升运维效率、降低成本、保障安全,推动电力行业智能化发展。

此外,中国移动研究院还介绍了中国移动在人工智能领域的发展战略和实践成果:智能时代,AI、数据和算力成为驱动新质生产力的重要因素,中国移动围绕供给者、汇聚者、运营者定位,构建了智能算力万卡集群,打造千亿参数大模型,建立九天 1 + N通/专大模型体系,创立弈衡大模型评测体系,完成 40 余款主流大模型评测,成立人工智能评测大模型联盟。

央国企人工智能场景需求发布环节,南方电网数字电网集团发布了“人工智能驱动的电能量数据创新应用技术研究”项目需求,包括运用多模态大模型等技术实现计量装置的故障预警及运维效率优化,提升电能量数据质量,对内赋能用户侧灵活响应资源管理,对外增值探索电能量数据在宏观经济分析中的新角色。项目面临的人工智能需求包括在 AI 赋能计量运维、负荷精细化管理、电力看…

圆桌论坛环节由中国软件评测中心的代表主持,中电昱创、创新奇智首席技术官张发恩、达摩院决策智能实验室能源行业负责人刘乐、南方电网数字电网集团共同围绕人工智能赋能新型工业化的初步经验展开了讨论。

中电昱创认为,人工智能在新型工业化中作用重大,中电昱创运用机器人智能感知和控制技术,包括图像处理、声音处理以及场景感知认知、强化学习和大模型预测预警技术,保障设备安全高效运维。人机交互、人机融合涉及自然语言处理、产品售后服务解读,人机协同控制等,通过人机共同融合训练达到效果。

创新奇智首席技术官张发恩表示,人工智能的内涵是从数据中找到知识并应用到场景中,场景广泛,基于大模型的技术有更多潜力。智能涌现背后是 Scaling law,即大模型或深度学习的神经网络的参数、训练数据和算力总量的规律,智能涌现会让自动化变得更加智能化,未来机器人将更加柔性化,生产出来的产品也会更加多样性、个性化。

达摩院决策智能实验室能源行业负责人刘乐则提到,新型工业化需要更精准的天气预报,大模型的出现给 AI 气象大模型带来了新机会,同时 AI 的安全性、可靠性、可解释性也是重要发力点。在大模型落地时,可…

南方电网数字电网集团提出,电力行业在人工智能方面的应用已渗透到各个场景,如前端的智能客服、电力营销,后端的运维,包括无人机巡检、图像识别等,负荷预测对电网企业非常重要。

随着 2024 WAIC 的落幕,「人工智能赋能产业融通发展论坛」也顺利结束。在人工智能驱动「新质生产力」发展的过程中,人工智能将不断促进产业的融合与创新,推动传统产业的转型升级,为经济增长和社会发展带来新的动力。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

人类模仿AI新赛道,AI:论疯癫,你是我爹

机器之能报道编辑:杨文
AI被人类带坏!
这个世界,太癫了……
最近,社交媒体上冒出来一堆搞怪视频,打着 AI 的旗号,真人 cos AI,甚至抖音还专门出了个热门话题——
人类模仿 AI 大赛。
套路都一个样儿:左边一张旧照片,右边打着「AI 修复」的字幕,实际由真人演绎着脑干缺失的狗血「剧情」。


-1-
AI:第一次被人冒充,没想到比我还抽象
自从可灵、Luma 发布以来,全球网友组团整活,什么特朗普和拜登打啵,鳌拜和韦小宝秀恩爱,奥特曼和黄仁勋打起来……
只有你想不到,没有 AI「祸害」不到。(查看详情请移步:AI 在用 | 鳌拜和韦小宝秀恩爱、奥特曼和黄仁勋打起来,Luma 翻车离谱到可爱)
于是,人类脑洞大开,发明了一个新赛道:
模仿 AI。
还记得那个三心二意男朋友的名场面吗?
抖音博主「一尾 studio」copy 了同款:
画面中男主摆出手势,满脸笑容地等待女友来比心,但接下来的每个剧情都出其不意——
女友伸出手,牵出了第三者,两人扬长而去,只留男主一人在风中凌乱。然后……男主竟从椅子腿下捧出了一桶泡面,自顾自地吃了起来。
毫无逻辑,就是 AI 的逻辑。博主演出了 AI 的精髓。
还有更离谱的。
男女主正站在沙滩上试图打啵,这时镜头突现女路人,下一秒男主角转身就找女路人要电话号码。
AI 看了都得说一句:移情别恋这锅我不背。
抖音博主「黄粒粒」安排的剧情也相当逆天。
女主想秀恩爱,没想到正揉面的男友上来就是一巴掌,女主扬起胳膊 ——
拿出一把梳子给男友捋毛,两人开始 Kiss,再然后就是男友啃饼,女友吃泡面。
不得不说,女主最后边吃泡面边摇头的慢动作跟 AI 有一拼。
抖音博主「关妮乱石」拿枕头想给朋友点教训,但朋友从另一边跑出镜,两人上演一出「友谊地久天长」。
还有 B 站 up 主「西蒙的日常 Simon」模仿 AI 吃香蕉:
同为 B 站 up 主的「街健呆木头」则是模仿 AI 扶单杠跳艳舞:
网友纷纷评论。
真正的AI是把手上这根钢管吃了。
AI:我记得我还没有这么流畅。
别用AI来掩饰你那放浪形骸的内心。
以真乱假的效果也让不少网友上当。

-2-
教程:AI 让马斯克和奥特曼「冰释前嫌」
其实,这波人类模仿 AI 的灵感是从 AI 让老照片动起来汲取的。
我们也上手试了一下。
首先,找来两张照片,使用 P 图软件将其拼接在一起。例如,我们将马斯克和奥特曼的照片拼在一起。
然后,使用可灵或者 Luma 的「图生视频」功能,上传该照片、输入提示词和负向提示词,设置参数。
值得注意的是,使用可灵时,提示词不能出现「亲吻」等敏感词,可用 kiss 替代。
等待 2-5 分钟就能出片。效果如下:
我们还搞了个奥特曼和微软 CEO 纳德拉的亲密视频:

OK,下班!古德拜!
以后我们会带来更多 AIGC 案例演示,也欢迎大家进群交流。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

太酷了!iPhone、iPad、MacBook老旧设备组成异构集群,能跑Llama 3

假如你有闲置的设备,或许可以试一试。

这次,你手里的硬件设备也能在 AI 领域大展拳脚了。


将 iPhone、iPad、Macbook 进行组合,就能组装成「异构集群推理方案」, 然后顺畅的运行 Llama3 模型。

异构集群正在运行中。

值得一提的是,这个异构集群可以是 Windows 系统,也可以是Linux、iOS 系统,并且对 Android 的支持很快到来。

根据项目作者 @evilsocket 的介绍,这个异构集群包括 iPhone 15 Pro Max、iPad Pro、MacBook Pro (M1 Max)、NVIDIA GeForce 3080、2x NVIDIA Titan X Pascal。所有代码都已经上传到 GitHub。

看到这,网友纷纷表示,这位老哥确实不简单。

不过也有网友开始担心能耗问题,暂且不管速度,电费都耗不起。来回搬数据,损耗太大了。

项目介绍

上述功能的实现,离不开一个名为 Cake 的 Rust 框架。Cake 可以完成大模型(例如 Llama3)的分布式推理,旨在将消费级硬件组合成异构集群,其中消费级硬件采用多种操作系统,包括:iOS、Android、macOS、Linux 和 Windows,从而使 AI 更易于访问。

Cake框架

项目地址:https://github.com/evilsocket/cake

Cake 的主要思路是将 transformer 块分片到多个设备,以便能够让通常不适合单个设备 GPU 内存的模型运行推理。对同一工作线程上的连续 transformer 块的推理是分批进行的,以便最大限度地减少数据传输造成的延迟。

Cake 目前支持的系统和设备如下:

系统和设备支持

编译

安装 Rust 后,运行下列代码:

1
cargo build --release

假如用户想要在应用程序中生成 iOS 绑定,可以进行下述操作:

1
make ios

使用

运行 worker 节点:

1
2
3
4
5
cake-cli --model /path/to/Meta-Llama-3-8B \ # model path, read below on how to optimize model size for workers
--mode worker \ # run as worker
--name worker0 \ # worker name in topology file
--topology topology.yml \ # topology
--address 0.0.0.0:10128 # bind address

运行 master 节点:

1
2
cake-cli --model /path/to/Meta-Llama-3-8B \
--topology topology.yml

其中 topology.yml 确定哪些层由哪个 worker 提供服务:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
linux_server_1:
host: 'linux_server.host:10128'
description: 'NVIDIA Titan X Pascal (12GB)'
layers:
- 'model.layers.0-5'
linux_server_2:
host: 'linux_server2.host:10128'
description: 'NVIDIA GeForce 3080 (10GB)'
layers:
- 'model.layers.6-16'
iphone:
host: 'iphone.host:10128'
description: 'iPhone 15 Pro Max'
layers:
- 'model.layers.17'
ipad:
host: 'ipad.host:10128'
description: 'iPad'
layers:
- 'model.layers.18-19'
macbook:
host: 'macbook.host:10128'
description: 'M1 Max'
layers:
- 'model.layers.20-31'

关于内存和磁盘空间优化问题,用户可能希望只向 worker 提供模型中实际需要的数据,而不是整个文件夹,在这种情况下,可以使用 cake-split-model 。例如,要生成较小版本的 llama3 safetensors,可以采用如下代码:

1
2
3
cake-split-model --model-path path/to/Meta-Llama-3-8B \ # source model to split
--topology path/to/topology.yml \ # topology file
--output output-folder-name

参考链接:https://x.com/tuturetom/status/1812654489972973643

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

编辑 | KX

在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。


基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D 结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。

实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。

相关研究以「Surface-based multimodal protein–ligand binding affinity prediction」为题,于 6 月 21 日发布在《Bioinformatics》上。

论文链接:https://academic.oup.com/bioinformatics/article/40/7/btae413/7697100

gitHub 地址:https://github.com/Sultans0fSwing/MFE

蛋白质-配体结合亲和力预测研究

作为药物发现的关键阶段,预测蛋白质-配体结合亲和力,长期以来得到了广泛的研究,这对于高效、准确的药物筛选至关重要。

传统的计算机辅助药物发现工具使用评分函数(SF)粗略估计蛋白质-配体结合亲和力,但准确性较低。分子动力学模拟方法可以提供更准确的结合亲和力估计,但通常成本高昂且耗时。

随着计算技术的发展和大规模生物数据的日益丰富,基于深度学习的方法在蛋白质-配体结合亲和力预测领域显示出巨大的潜力。

然而,目前的研究主要利用基于序列或结构的表示来预测蛋白质-配体的结合亲和力,对蛋白质-配体相互作用至关重要的蛋白质表面信息的研究相对较少。

分子表面是蛋白质结构的高级表示,它表现出化学和几何特征模式,可作为蛋白质与其他生物分子相互作用模式的指纹。因此,一些研究开始使用蛋白质表面信息来预测蛋白质-配体结合亲和力。

但现有的方法主要关注单模态数据,忽略了蛋白质的多模态信息。此外,在处理蛋白质的多模态信息时,传统方法通常以直接的方式连接来自不同模态的特征,而不考虑它们之间的异质性,这导致无法有效利用模态之间的互补性。

新颖的多模态特征提取框架

在此,研究人员提出了一种新颖的多模态特征提取 (MFE) 框架,该框架首次结合了来自蛋白质表面、3D 结构和序列的信息。

图 1:MFE 框架。(来源:论文)

具体来说,研究设计了两个主要组件:蛋白质特征提取模块和多模态特征比对模块。

蛋白质特征提取模块用于从蛋白质表面、结构和序列信息中提取初始嵌入。

在多模态特征比对模块中,使用交叉注意机制实现蛋白质结构、序列嵌入和表面嵌入之间的特征比对,以获得统一且信息丰富的特征嵌入。

与目前最先进的方法相比,所提出的框架在蛋白质-配体结合亲和力预测任务上取得了最佳效果。

SOTA 性能

表 1 展示了 MFE 和其他基线模型在蛋白质-配体结合亲和力预测任务上的结果。所有模型都使用相同的训练集和验证集划分方法,并在 PDBbind 核心集(版本 2016)上进行测试。可以发现,与所有基线相比,MFE 方法实现了 SOTA 性能。

图片

消融研究

为了进一步证明不同模态特征和特征比对的有效性和必要性,研究人员进行了以下消融研究:W/O 蛋白质表面信息、W/O 蛋白质结构信息、W/O 蛋白质序列信息和无特征比对。结果如表 2 和图 2 所示。

图 2:消融研究结果。(来源:论文)

结果表明,当去除表面信息时,性能会明显下降,这表明表面信息在模型中起着至关重要的作用。同样,排除结构或序列信息都会导致性能下降,而序列信息的消除会导致更明显的下降。这是因为序列信息包含了蛋白质的全局信息,这对于模型对蛋白质的全面理解至关重要。

此外,在没有特征比对的情况下,模型的性能会下降。这强调了特征比对在处理多模态数据中的重要性,因为它有助于减少不同模态特征之间的异质性,从而提高模型有效整合不同模态特征的能力。

图片

超参数分析

为了研究不同超参数对模型性能的影响,研究人员进行了以下三个实验:(i)MFE-A-6:仅使用 6 种基本原子类型来表示表面的化学特性,包括氢、碳、氮、氧、磷、硫;(ii)MFE-P-256:仅选择最靠近配体中心的 256 个表面点作为蛋白质口袋表面;(iii)MFE-P-1024:选择最靠近配体中心的 1024 个表面点作为蛋白质口袋表面。

图 3:超参数分析。(来源:论文)

特征对齐分析与可视化

为了深入研究特征对齐对模型性能的影响,研究人员使用主成分分析 (PCA) 对测试集中的蛋白质表面、结构和序列特征进行降维和可视化分析。此方法旨在确定特征对齐是否可以减轻多模态嵌入之间的异质性。

图 4:特征比对前(a)和特征比对后(b)的蛋白质表面、结构和序列嵌入降维可视化结果。(来源:论文)

研究发现,特征对齐显著增强了蛋白质表面、结构和序列嵌入之间的一致性。这是由于通过注意力机制优化了 Transformer 中的多模态特征交互,该机制计算了不同特征之间的注意权重。这增强了模型捕获关键信息的能力,使来自不同模态的数据在特征空间中更紧密地聚集,从而减少了模型识别蛋白质-配体相互作用时的噪音和错误。

最后,研究人员总结道,「总之,通过研究蛋白质的表面,我们可以更深入地了解蛋白质如何与其他生物分子相互作用。在未来的工作中,我们将更彻底地探索蛋白质表面,以揭示它们在生物信息学中的更广泛应用。」

注:封面来自网络

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI投资激增:领导者看到回报,吹捧变现实

第一个AI Pulse调查显示,将近一倍的高级领导者正在投资1000万美元或更多,但许多人未能投资必要的基础设施,从而危及AI的影响力
根据安永美国(EY US)的新数据,经过一年多对生成AI潜力的炒作,商业领导者报告称,他们已经看到了他们人工智能(AI)投资的回报,并计划更加乐观。图片{ width=60% }


在报告他们的组织目前正在进行AI投资的95%高级领导者中,目前投资1000万美元或更多的公司数量将在明年几乎翻倍至30%,而目前正在进行这一级别投资的公司仅有16%。然而,尽管预测的投资激增,调查还发现许多领导者忽视了AI所需的基础功能,使得AI的影响力受到威胁。
新的EY AI Pulse调查是首个在系列中进行的调查,询问了跨行业的500名美国高级领导者有关其AI技术投资、影响和挑战。随着领导者试图在全面采用AI方面创造可持续的动力,该研究发现,那些正在投资AI的高级领导者看到了业务功能中的明显影响,其中约三分之四正在体验积极的回报,包括:
运营效率(77%)
员工生产率(74%)
客户满意度(72%)
EY全球人工智能咨询领导者丹·迪奥西奥表示:“我们进行业务交易的世界已经被生成AI的出现永久改变。几乎所有公司都在投资AI,但我们看到了那些在小规模的试验中继续投资和那些进行更大规模投资的公司之间的分歧,继续优先投资AI的领导者越来越领先,并且体验到积极的回报。”
投资很重要-那些投入预算的5%或更多人看到了更高的回报
那些正在投资AI且当前的AI投资预算占其总预算的5%或更多的组织的高级领导者,在调查的各个维度中看到了更高比例的积极回报,与那些花费少于5%的人相比,包括员工生产率(76% 对 62%)、网络安全(74% 对 58%)、产品创新(71% 对 55%)和提升竞争优势(73% 对 47%)。
AI的积极影响正在为投资激增循环铺平道路。在那些投资AI的组织中的高级领导者中,约有一半(51%)承认三年前,他们的组织在总预算中对AI投资的支出低于5%。如今,这些领导者中的88%在AI投资上的支出占总预算的5%或更多,而该数字有望进一步增加,因为一半(50%)的高级领导者表示,他们将在未来一年将总预算的25%或更多用于AI投资。
EY美洲AI、数据和自动化主管特雷西·古舍称:“商业领导者正在通过提升战略性的AI投资来塑造未来。但该调查揭示了通往企业级AI采用的重大风险,包括数据基础设施、伦理框架和人才招聘。这些对于充分发挥AI能力至关重要,并且将使组织能够在市场上实现差异化。”
没有坚实的基础设施基础,努力最大化AI的全面潜力将会失败
尽管AI无疑能够彻底改变工作场所,但AI的效果也仅取决于基础设施、其运行的治理框架以及正确使用该技术所需的人才发展。如果没有一个坚实的基础来利用AI的力量,领导者们的投资风险将在他们身下崩溃破碎。然而,很少有领导者报告称,他们的组织正在采取这些措施:
数据基础设施:仅有36%的高级领导者表示他们正在完全并规模地投资数据基础设施(即数据质量、可访问性和数据治理),这意味着AI缺少可能使其生成更好、更准确结果的关键信息。负责任的AI:高级领导者承认道德AI使用的重要性,但仅有约一半正在投资AI的高级领导者表示,确保AI运行在伦理内的组织重点将在未来一年增加,只有约三分之一表示他们的组织正在全面并规模地建立AI治理框架(34%)或全面并规模地解决AI模型中的偏见问题(32%)。人才吸引和留存:83%的高级领导者优先考虑吸引了解AI的工作者,然而仅有37%的高级领导者表示他们的组织正在全面并规模地对员工进行AI培训/提升技能,这暴露了领导者通过内部开发AI能力来利用的差距,鉴于AI人才市场的挑战状态。
古舍补充道:“AI显然正在摆脱炒作阶段,坚定地朝着成为组织生产力的一种可行手段迈进。随着我们进入全面AI整合的下一阶段,领导者将需要制定一项全面的策略,彻底重塑整个企业系统,打造一个以AI为中心的业务,以最佳方式利用该技术的转变力量。”
方法EY US委托第三方进行2024年EY AI Pulse调查。在线调查对象为美国受雇决策者(SVP+),行业涵盖医疗、生命科学、能源、科技、媒体和电信(TMT)、政府和公共部门、消费品和零售、先进制造业和移动性(AMM)、金融服务、私募股权、房地产、酒店及建筑(RHC)等行业(即每个行业50人)。调查时间为2024年4月29日至5月6日。总样本的误差范围为±4个百分点。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Argo Infrastructure Partners宣布对TierPoint的多数股权投资

累计自2020年以来的投资总额达23亿美元
Argo Infrastructure Partners, LP (“Argo”)今天宣布,已增加其所有权份额,代表TierPoint的多数股权,进一步巩固了该公司对该平台卓越增长轨迹的信心。图片{ width=60% }


自2020年以来,Argo已在TierPoint投资了约7亿美元,这是Argo组合中的旗舰数字基础设施投资。加上过去12个月发行的16亿美元的证券化发行,自2020年以来已向TierPoint平台投资了23亿美元,推动数据中心足迹的显著增长,为公司持续长期价值创造奠定基础。
TierPoint成立于2010年,运营美国最大、地理多元化的企业级数据中心网络,共有20个市场的40个数据中心,通过一条跨美洲的光纤网络连接,为3000多家客户提供重要的机房、互连和托管服务。TierPoint自2023年以来发行的16亿美元的资产支持证券(ABS)均为投资级评级,并在公司的绿色融资框架下发行,展示了其继续致力于按照环境和可持续性原则运营的承诺。
“TierPoint是最高质量的企业级数据中心平台之一,在可靠运营和能源效率方面拥有无与伦比的记录。这使我们能够利用对企业机房和高密度机房服务的史无前例需求,这些服务对于计算密集型工作负载、包括人工智能和机器学习应用来说是关键的基础设施。我们相信这种需求将在长期内转化为投资组合的显著增长,并将确立TierPoint作为这个高增长行业的首选提供商,”Argo高级董事、TierPoint董事会成员Brice Soucy表示。
Argo对TierPoint的投资是其Argo Series 3基金的一部分—TierPoint是第三批基金中六项投资中最大的一个,也是Argo18个投资组合公司中规模最大的资产之一。这一重大投资表明了公司对TierPoint在长期内为Argo投资者创造价值的强烈信念。这项投资也增加了Argo可持续投资的记录,也是其投资策略之一,即投资支持数字化经济的数字基础设施资产。
“我们很高兴扩大我们对TierPoint的投资,重申我们作为该出色平台的专注、长期投资者的承诺。TierPoint强大的合同收入结构,再加上在ABS投资级别上的成就和其环境管理,完全与Argo的长期可持续基础设施投资理论相一致。我们期待继续与我们的证券化投资伙伴合作,支持我们共同平台的长期增长,”Argo创始合伙人Jason Zibarras表示。
Argo Infrastructure Partners:
Argo Infrastructure Partners LP是一家独立基金管理公司,其对基础设施投资采取长期的方法。Argo投资于提供长期运行服务的高质量基础设施企业和资产,包括公用事业、可再生能源、数字基础设施等长期基础设施资产。Argo的投资理念结合了良好的投资回报和负责任的可持续投资。截至2024年7月,Argo代表其投资伙伴管理着超过60亿美元的资产。有关更多信息,请访问www.argoip.com。
探索AITechPark,了解人工智能、物联网、网络安全、AITech新闻的最新进展,以及行业专家的深刻见解!



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB