AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告

在 CNCC2024 大会上,智谱推出了 GLM 第一个产品化的智能体(Agent)——AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,进而帮你:

  • 在微信上「给老板的朋友圈点赞并写评论」,
  • 在淘宝上「购买某一款历史订单产品」,
  • 在携程上预订酒店,
  • 在 12306 上购买火车票,
  • 在美团上点个外卖,
  • ……

另外,AutoGLM 也可以对网页进行操作,比如“检索知识图谱最新的学术期刊发表内容且只看北大核心”。

AutoGLM 的出现,让 AI「phone use」与网页操作不再是设想。


日前,智谱和清华团队在预印本网站 arXiv 上发布了 AutoGLM 的技术报告。

技术报告主要内容如下:

  • AutoGLM 是 ChatGLM 系列中的一个新产品,旨在作为基础智能体,通过图形用户界面(GUI)自主控制数字设备,实现更进一步的 AI「phone use」。
  • 研究主要贡献包括:设计了一个「基础智能体解耦合中间界面」,有效解耦规划和执行行为;开发了一种「自进化在线课程强化学习框架」,实现了鲁棒的错误恢复和性能提升。
  • 在安卓设备控制方面,AutoGLM 在 AndroidLab(VAB-Mobile)上的成功率为 36.2%,在流行 APP 的常见任务上的成功率为 89.7%。揭示了基础智能体技术在未来人机交互中的广泛潜力。

AutoGLM 是如何炼成的?

在开发过程中,AutoGLM 团队采用了多项先进技术,以克服基础模型在真实环境中执行任务的挑战。

  • 预训练。通常,互联网上的文本语料库中缺乏智能体相关的数据,使得 LLM 难以有效地充当智能体。此外,现有的多模态大模型(LMM)预训练主要集中于“视觉指令微调”,未能充分从序列多模态数据中学习。因此,合理利用在线数据中的弱监督决策信号来进行预训练能够提供帮助。…

评估结果

安卓端评估

他们在 AndroidLab(即 VAB-Mobile)和常见的安卓 APP 上的高频任务中评估了 AutoGLM 的能力。

AndroidLab 是一个互动式安卓基准测试环境,支持系统性评估,涵盖了一些离线可部署的英语 APP。相比于其他如 AITW 的现有基准测试,其互动性允许对安卓智能体进行更具实际意义的评估并通过强化学习进行改进。他们评估了代表性的专有 LLM/LMM API、在提供的行为克隆数据上微调的开放模型以及 AutoGLM。

结果表明,AutoGLM 在 AndroidLab 上的成功率为 36.2%,在所有对比的智能体中表现最佳。

未来,AutoGLM 将进一步完善其模型和应用场景,加速智能助手在数字化生活中的普及。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

副业做的应用获25万用户,全职创业却失败,AI创业这么难吗?

我开发的 AI 应用有 25 万用户,我感觉要起飞了,于是辞掉工作,准备大干一番。

结果没想到开局即巅峰,突然就完蛋了。


这几天,一个悲催的程序员创业故事在社交网络上流传,引发了人们的深思。

故事的主人公,Reddit 用户 mmoustafa 去年开始以搞副业的方式开发了一个可通过 iMessage 和 SMS 使用的通用 AI 个人助理「olly.bot」。它基于 OpenAI 的大模型,此外还有一系列方便有用的功能,如网络搜索和提醒。

olly.bot 精准击中用户们的痛点,应用集成在 iMessage 和 WhatsApp 中,这意味着你可以在 iOS、macOS、Android 和 Windows 上本地使用它。具体来说,它可以查看图片、阅读 PDF、收听语音备忘录、生成图片、浏览网页等,随着开发的持续,能力还在不断增多。

不用注册,几乎不受 ChatGPT 的地区限制,又可以联网还免费,看起来很吸引人。

为了宣传自己的项目,作者不断把它发布到 product hunt 和很多 Reddit 的板块上,它的用户量很快开始疯狂增长。当有一些 AI 领域大 V 开始在 上分享它时,该应用曾经在一个月内增加了 3.5 万新用户。

一个大模型工具,在吸引用户的过程中一直免费的,这给制作人员带来了压力。作者一直通过微软初创公司使用 Azure 积分来支付 OpenAI API 的成本,并构建了自己的消息服务(这是最难的部分),所以服务器成本每月不到 500 美元。

终于,作者对 50% 的月度增长感到信心十足,应该会持续增长,然后开始赚钱了吧。

4 个月前,此人辞去了工作,开始了创业之路。明星 AI 应用应该如何变现呢?他选择了一条「再正常不过的路」:缩减免费版的服务,要求用户买会员付费才能体验完整版。

于是,他的每周活跃用户从 7 万瞬间下降到 9 千,每月 4 美元的付费用户只有 400 人左右。面对惨淡的经营,他不得不不断降价才能获得看起来像样的转化率。开始收费之后,olly.bot 的增长速度还不到免费时的 1/10,潜在的用户显然被吓跑了。

现在怎么办?辞职也辞职了,App 也凉了,还欠着抵押贷款,有什么起死回生的秘诀吗?求大佬指点迷津。

网友:你策略有问题

好好的热门 App,一开始付费就暴死,这段经历实在是让很多立志创业的人感到背后一凉。

社交网络上,大家在感叹之余也在献计献策。

有网友说:「永远不要让免费产品付费。一开始就应该推出付费产品,或者进行试用,让人们知道试用期结束后必须付费。」作者表示十分赞同,并说道:「产品符合市场需求(Product / Market Fit,PMF)实际上应该是产品价格(Price)符合市场需求。」

但问题是「如果从一开始就全额付费,也许永远都无法获得 1000 名用户」。的确,一个应用程序付费的前提是用户认为该应用有使用价值,应用一推出就全额付费,用户可能连使用机会都没有。

当然,有一些策略可以选择,例如,免费付费套餐,提供试用期;提供永久免费套餐,并在付费套餐中提供实用功能;针对企业提供更高级别的套餐。

总的来说,产品付费需要找到一个平衡点。如果设置了太多付费功能,人们会生气,并给应用打差评,或者干脆去寻找可以免费满足其需求的应用。当你达到让免费用户满意并实现增长的最佳点时,就可以尝试添加人们愿意付费的功能。

这些建议都很有道理,olly.bot 的作者 mmoustafa 也一一回复并表示了感谢。不过如你们所见,对于目前的情况来说,很多都已是事后诸葛亮了,能够破局的方法似乎不多。

一位网友指出:「作者的应用程序每周活跃用户 7 万,每月 4 美元的付费用户只有 400 人左右,400/70k ≈ 0.57%,对于免费增值业务模式来说,这个百分比都非常低。这意味着人们使用该产品是因为它是免费的…… 我的个人建议是重新找一份工作,并在业余时间从事该项目。」

爱好可以有,但总之先重新进厂打工吧。

写应用创业,比想象得要难

去年 3 月,OpenAI 推出了 ChatGPT API,并按照使用量收费,单次调用价格比前一代下降了 90%,这让很多个人开发者发现了新技术商业化的途径。

在人们的愿景中,在先进大模型技术的周围,未来或许会出现一系列提供各类服务的应用。调用大模型 API 的开发者无需关注昂贵的大模型技术,大模型厂商也无需关注所有细分的场景。

然而到目前为止,虽然各家大模型公司提供的 API 已经降价了几轮,但还鲜有出现靠大模型应用来致富的例子出现。

更为让人关注的是,上周四 OpenAI 的 ChatGPT search 已正式发布。除了会员和 SearchGPT 候补名单上的用户,未来免费版的用户也会获得使用权限。

大厂的收割来得猝不及防,但仔细一想也在预料之中。

如果你是一个硬核技术人员,正在基于自己的兴趣构建产品,对于搞副业转正这件事,你有什么建议?

参考内容: https://www.reddit.com/r/SideProject/comments/1gds937/i_got_250000_users_quit_my_job_and_then_growth/



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

数字病理与AI辅助诊断,助力肿瘤精准诊疗

图片

图:前沿对话-数字病理与AI辅助诊断赋能疾病精准诊疗

编辑 | ScienceAI

作为疾病诊断的「金标准」,病理诊断是指导肿瘤临床治疗、评估预后的最可靠依据,在精准医疗时代,准确、高效的病理诊断所发挥的价值日益凸显。

近年来,数字化浪潮席卷全球,病理诊断领域也积极拥抱数字化、智慧化变革,为提质增效开辟创新路径。


今日,罗氏诊断携整体数字化智慧病理解决方案亮相第七届中国国际进口博览会,并分享与探讨了数字病理和人工智能(AI)辅助诊断在疾病精准诊疗中所发挥的重要价值。

借助进博会的溢出效应,该解决方案自去年进博会正式推出以来,已在越来越多病理实验室展开应用,为中国病理实验室的数字化、智能化转型注入了创新力量,也为个体化精准诊疗的持续发展全面赋能。

作为病理诊断流程中的关键环节之一,病理阅片是指病理医生通过显微镜对患者的病理切片进行观察和分析。传统的病理阅片不仅较为耗时耗力,也存在难以实现远程诊断、不便存储与管理等局限性。

近年来,数字病理的飞速发展为病理阅片「破局」提供了关键驱动力。通过数字病理扫描系统将染色切片转换为高清晰、全视野的数字化图像后,病理医生可通过计算机显示器进行数字化阅片,并可实现实时管理、共享和分析。

作为国内数字化、智慧化病理实验室建设的引领者之一,复旦大学附属肿瘤医院病理科在数字病理的应用方面积累了丰富的实践经验。

复旦大学附属肿瘤医院病理科主任王坚教授指出:「数字病理的应用是助力科室实现效率、质量、管理等多维度持续发力的突破点。数字化阅片打破了原有的空间限制,是不同地域、不同医院、不同院区内医生实现远程实时会诊、联合诊断的基石,在助力解决病理医生数量缺乏、优质病理资源分布不均等方面发挥着重要作用,能够让更多患者更快地得到同质化的病理诊断结果。此外,数字化阅片具有可追溯性,方便存档与调取,为科室的数字化质控和病例管理提供了有力支撑。」

图片

图:王坚教授

在数字化阅片的基础之上,AI辅助判读算法日益广泛的应用进一步推动了病理阅片的智慧化跃升。依托海量的数字化染色切片所形成的丰富数据集,并借助AI的强大运算能力及深度学习能力,AI辅助判读算法可自动识别数字切片中的病变区域并进行客观、定量的肿瘤细胞含量判读,辅助病理医生实现更快速、准确、重复性高的病理诊断。

复旦大学附属肿瘤医院病理科李媛教授分享道:「AI在大批量数据处理及定量分析方面的优势不言而喻。在日常工作中,AI辅助判读算法可快速分析数字化病理切片,并在短时间内给出初步诊断结果,为病理医生繁重的日常阅片工作提供了便捷、高效的辅助工具,大幅提高了整体诊断效率,也为病理医生释放出了更多时间与精力去完成更具挑战性的科研工作。此外,AI辅助判读算法还可对细微的、不易察觉的区域进行标记和提醒,为病理医生提供『侦破』疑难病例的关键线索。」

图片

图:李媛教授

谈及数字化、智慧化病理科初期建设的经验,王坚教授指出:「影响数字化阅片的因素众多,而这其中,数字化切片的图像质量是最基本、也是最关键的要素,它直接影响到病理医生能观察和分析的细节,这就要求科室以高质量的扫描设备制备高清晰度、高分辨率的数字化图像,为后续诊断的准确性奠定坚实基础。此外,AI辅助判读算法的准确性、数据存储的安全性也是智慧化病理科建设之初需要充分考量的。」

为了推动中国病理诊断向着「数智融合」的方向持续迈进,罗氏诊断于去年进博会创新推出了整体数字化智慧病理解决方案,其依托罗氏诊断VENTANA DP 200和DP 600数字病理切片扫描仪*以及罗氏诊断数字病理开放平台…

图片

图:何鹏志先生

  • VENTANA DP 600目前仅供研究使用(RUO)

。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

具身智能GPT-2时刻到了!这家国内公司已做出全球最大规模的端到端统一具身大模型——专访自变量机器人团队

近日,关于 Open AI 被投企业 Physical Intelligence (PI) 的一系列报道,让人们关注到具身智能大模型引发的机器人时代变革。

目光转回国内,我们同样在中国公司中发现了这场变革浪潮的先行者。


据机器之心了解,“国内初创公司自变量机器人(X Square),是国内唯一一家从第一天就选择了端到端统一大模型技术路线的公司,与 PI 的技术路线不谋而合。”这家公司正在训练的 Great Wall 操作大模型系列的 WALL-A 甚至从参数规模上已经超过了 PI。

今年 4 月,机器之心曾对自变量机器人公布的 Demo 进行报道,其中基于他们自研的端到端统一具身大模型,双臂机器人可利用低成本硬件即实现对不规则物体的精细操作(如抓握、拾取、切割等),以及折叠衣服、冲泡饮料等复杂任务,展现出相当程度的泛化性能。

当前,自变量机器人的模型效果已达到惊人水准,体现在包括处理长序列复杂任务,以及泛化性、通用性等方面。

这种处理复杂任务以及「泛化」的能力,正是自变量机器人团队对机器人「Scaling Law」的探索成果,他们希望用单一的大模型来驱动端到端的机器人 manipulation。

目前,这家成立不到一年的中国初创企业,已经做出了世界上最大规模的端到端统一具身大模型「WALL-A」,并在多个维度上超过了所有已知模型。

自变量机器人认为,目前 Great Wall 系列的 WALL-A 类似于「GPT-2」,伴随着模型的不断迭代,机器人领域的「ChatGPT」时刻可能会在不久后来到。

令大家好奇的是,这家年轻的初创公司,将会如何实现这一宏伟目标?

近日,自变量机器人接受了机器之心的采访,介绍了他们正在进行的有关于技术边界的探索,以及这场机器人浪潮下的一些思考。

世界上最大规模的端到端统一具身大模型

机器之心:X Square 正在训练的 WAll-A 是一个怎样的模型?

WALL-A 是世界上最大规模的端到端统一具身大模型。在多个维度上,我们的模型都…

【文章未完,图片等内容在原文中,请查看完整内容】

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

无问芯穹提出混合稀疏注意力方案MoA,加速长文本生成,实现最高8倍吞吐率提升

随着大语言模型在长文本场景下的需求不断涌现,其核心的注意力机制(Attention Mechanism)也获得了非常多的关注。注意力机制会计算一定跨度内输入文本(令牌,Token)之间的交互,从而实现对上下文的理解。


随着应用的发展,高效处理更长输入的需求也随之增长,这带来了计算代价的挑战:注意力高昂的计算成本和不断增长的键值缓存(KV-Cache)代价。稀疏注意力机制可以有效缓解内存和吞吐量的挑战。

然而,现有稀疏注意力通常采用统一的稀疏注意力模式,即对不同的注意力头和输入长度应用相同的稀疏模式。这种统一的方法难以捕捉到大语言模型中多样的注意力模式,导致不同注意力头的不同的精度 - 代价权衡被忽略。

最近,来自清华大学、无问芯穹和上海交通大学的研究团队发表了《MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression》,提出通过混合不同稀疏度的注意力头,使用 25% 的注意力稠密度,就可以记忆几乎 100% 的上下文。

本工作现已开源,欢迎交流讨论。

代码:https://github.com/thu-nics/MoA
主页:https://nics-effalg.com/MoA
arXiv:https://arxiv.org/abs/2406.14909

总览

在大语言模型中,不同的注意力头表现出各异的注意力模式和扩展规则:有的关注全局信息,有的则聚焦局部;有的注意力范围随输入长度增加而扩展,有的则保持不变。然而,现有的统一稀疏注意力机制破坏了这些固有的特性。

为应对这一挑战,研究团队提出了混合稀疏注意力(Mixture of Sparse Attention, MoA)方法,它能够为不同的头和层定制独特的稀疏注意力配置。MoA 构建了一个包含多种注意力模式及其扩展规则的搜索空间。通过分析模型,评估潜在配置,MoA 可以为每个注意力头找到最优的稀疏注意力模式和扩展规则。

实验结果显示,无需任何训练,MoA 就可以在保持平均注意力跨度不变的情况下,将有效…


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

量子级精度,静态到动态,微软蛋白MD模拟系统登Nature

生物世界的本质在于分子及其相互作用的不断变化。了解生物分子的动力学和相互作用对于破译生物过程背后的机制,以及开发生物材料和药物至关重要。


正如诺贝尔物理学奖得主理查德·费曼(Richard Feynman)的名言:「所有生物体的行为都可以通过原子的颤动和摆动来理解。」然而,通过实验捕捉这些真实的运动几乎是不可能的。

近年来,以 AlphaFold 和 RoseTTAFold 为代表的深度学习方法,在预测静态晶体蛋白质结构方面已经达到了实验精度,相关研究人员获得了 2024 年诺贝尔化学奖。然而,以原子分辨率准确表征动力学仍然更具挑战性,尤其是当蛋白质发挥作用并与其他生物分、药物分子相互作用时。

经典分子动力学(MD)模拟速度快,但缺乏化学准确性。密度泛函理论(DFT)等量子化学方法可以达到化学精度,但无法扩展到大型生物分子。

MD 模拟用于模拟生物分子的时间相关运动。如果你将蛋白质想象成时钟中复杂的齿轮,那么微软研究…


基于 AI 的从头算生物分子动力学系统

AI²BMD 是一种基于 AI 的从头算生物分子动力学系统。AI²BMD 可以以近似从头算的精度(即量子级的精度),高效地对各类蛋白质进行了全原子模拟仿真。

与密度泛函理论相比,它将计算时间缩短了几个数量级。最新发现可以解锁生物分子建模的新功能,特别是对于需要高精度的过程,例如蛋白质-药物相互作用。

AI²BMD 采用一种设计新颖的可通用蛋白质碎片化方法,将蛋白质分割成重叠单元,从而创建一个包含 2000 万个快照的数据集,这是 DFT 级别有史以来最大的数据集。基于微软之前设计的通用分子几何建模基础模型 ViSNet,并将其纳入 PyTorch geometry 库。

研究人员使用机器学习训练了 AI²BMD 的势能函数。然后由高效的 AI²BMD 模拟系统执行…


推进生物分子 MD 模拟

AI²BMD 在以下方面代表了 MD 模拟领域的重大进步:

(1)从头算精度:引入了一种可推广的「机器学习力场」,即原子和分子之间相互作用的机器学习模型,用于从头算精度的全原子蛋白质动力学模拟。

(2)解决泛化问题:首次解决了机器学习力场模拟蛋白质动力学的泛化难题,为多种蛋白质提供了稳健的从头算 MD 模拟。

(3)普遍兼容性:AI²BMD 将量子力学(QM)建模从小的局部区域扩展到整个蛋白质,而无需任何关于蛋白质的先验知识。这消除了蛋白质 QM 和 MM 计算之间潜在的不兼容性,并将 QM 区域计算速度提高了几个数量级…


展望未来

在生物分子模拟中实现从头算精度具有挑战性,但对于理解生物系统的奥秘以及设计新的生物材料和药物潜力巨大。这一突破证明了 AI for Science 的远见,即利用人工智能的能力革新科学探索。AI²BMD…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

把Waymo玩成GTA游戏!全生成式的车辆行驶轨迹视频合成器来了

来自中科院自动化所的团队提出 FreeVS,一个全生成式的新视角合成方法。相较于仅能在记录的车辆行驶原轨迹上渲染高质量相机视角的基于场景重建的方法,FreeVS 能够作为生成引擎渲染真实场景中任意车辆行驶轨迹下的视频。


FreeVS 可被直接部署于任何测试场景,而无需负担通常耗时 2-3 小时的场景重建过程。

论文链接:https://arxiv.org/abs/2410.18079
项目主页:https://freevs24.github.io/

以生成模型合成真实场景中的相机成像

现有驾驶场景中的新视角合成方法多遵循「场景重建 - 新视角渲染」的管线,依靠重建得到的 NeRF 或 3D-GS 等场景表示来渲染新视角下的成像。…


Fair use rationale: This article discusses the development of FreeVS, an innovative method for synthesizing new camera perspectives in driving scenes, using the Waymo dataset. The article provides insights into the capabilities of FreeVS in simulating vehicle movements and editing scenes, showcasing its potential applications in creating realistic simulated driving scenarios. The information presented here is for educational purposes and analysis within the field of artificial intelligence and computer vision.

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板

前些时日,AI 大模型开始掌握操作计算机的能力,但整体而言,它们与物理世界互动的能力仍处于早期阶段。为了提高 LLM 在复杂的现实世界中的表现,研究者们提出了各种提示策略来提升大模型的推理和规划能力,比如思维链、思维树和思维图谱。


这些进步与工具集成一起,推动着通用 AI 智能体的发展,让它们现在已经能够用 LLM 输出的决策策略来解决序列决策问题(不过依然还相对简单)。在现实世界中,一个难题的解决方案往往都不是孤立存在的,而需要系统性的方法。这就促使人们开始研究如何让 LLM 通过顺序或并行模块处理智能体任务,从而动态地、分步骤地解决问题。近日,华为诺亚方舟实验室、伦敦大学学院(UCL)和达姆施塔特工业大学的一个研究团队在这个研究方向上做出了自己的贡献。他们采用第一性原理方法,将数据的分析、处理和预测(即数据科学)作为 LLM 与现实世界环境和外部系统交互的核心和可迁移技能,得到了一种利用 LLM 解决系统数据科学任务复杂性的新方法。然后他们基于此开发了智能体 Agent K v1.0,并让其参加了多模态 Kaggle 竞赛。最终 Agent K v1.0 获得了相当于 6 金 3 银 7 铜的成绩,成为首个达到 Kaggle Grandmaster level 1 的 AI 智能体。
图片

研究动机

这项研究有三个研究动机。
第一,数据科学的目的是从结构化和非结构化数据中提取见解和知识,从而解决各种复杂问题。这需要系统级的方法,需要自动化和优化来适应具体的任务目标。
举个例子,在 Kaggle 数据科学竞赛中(如图 1 所示),数据科学家需要遵循一个结构化的工作流程:收集、清理、预处理和标准化数据,创建数据加载器以实现高效管理,生成关键评估指标,以及开发自定义模型。然后,这些见解和预测可以为决策和优化提供信息。因此,为了解决这些工作流程,需要数据科学智能体将任务分解为子问题并与各种子系统交互以实现指定目标。
图片
第二,数据能让 LLM 感知和理解外部环境(物理和虚拟皆可)。LLM 智能体可通过收集、清理和分析这些数据来获得有意义的见解并做出明智的决策。数据和动作之间的这种基本联系可将计算推理与有形的现实世界后果联系起来。
第三,数据科学对企业而言至关重要。数据科学可将原始数据转换成可行动的见解,并由此提升效率和竞争力,进而推动创新。因此,据 Grand View Research 预计,到 2031 年,全球对数据科学的投资将达到约 7400 亿美元。数据科学智能体可通过生成代码来自动执行数据清理、建模和预测等任务,从而扩大这种影响,使组织能够扩展其数据驱动的决策,以最大化回报和利润。

结构化推理造就强大数据科学智能体

竞争性数据科学基准

当前的数据科学智能体缺乏竞争性基准测试,这限制了它们在专业领域的表现。为此,该团队也做出了自己的贡献:基于 Kaggle 竞赛构建了一个多样化且竞争性的数据科学基准,而 Kaggle 提供了 27K 个多样化数据集、110 万个笔记本、超过 7.7K 个预训练机器学习模型和大约 27K 场比赛。该基准支持在一个透明的排行榜上与人类参与者进行直接比较并涵盖计算机视觉、自然语言处理、时间序列和表格数据等多种任务,支持多种模态。
图片
下表则是基于 Kaggle 的指南和风格构建的 Kaggle 进展系统。⋆ (Top 10 + 0.2 %) 是指竞赛每增加 500 个参赛队伍,就会额外给出一枚金牌。举个例子,如果一个竞赛有 500 个参赛队伍,则会给 11 团队授予金牌。而如果竞赛队伍有 5000 个,则金牌数会达到 20。

实验和结果

Agent K 表现如何?终究还需看实验结果。该团队严格测试了 Agent K v1.0(基础模型使用了 Qwen-2.5 72B)实现完全自动化的能力以及性能。在自动化方面,他们评估了新系统能否有效地直接根据 Kaggle URL 设置任务。结果,在跨多个领域自动执行任务方面,该系统实现了 92.5% 的准确度,展示了其完全自动化地实现复杂设置的能力。
图片
在性能方面,在多模态挑战赛中,该团队的方法实现了相当于 6 金 3 银 7 铜的成绩(共 65 场竞赛),成为了首个达到 Kaggle Grandmaster level 1 的方法。下图展示了 Agent K v1.0 在各个任务上的性能表现。
图片
此外,他们还测量了 Agent K v1.0 与人类参与者的 Elo-MMR 评分。结果表明,在由 5856 名参赛者组成的竞赛池中,Agent K v1.0 排名前 38%。
图片
实验详情和更多实验结果以及相关讨论请访问原论文。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Insight在德克萨斯州沃思堡揭示解决方案集成中心

Powered by cutting-edge robotics and AI-driven automation, the new IT distribution center helps businesses modernize, reduce costs, and improve efficiency
Insight Enterprises (NASDAQ:NSIT) held the grand opening today in Fort Worth, Texas, of its latest Solutions Integration Center. The 250,000-square-foot facility serves clients across the United States and is powered by the latest technology, making it a paragon of modern warehouse operations. With AI-driven capabilities like autonomous mobile robotics and advanced logistics, it can achieve 10 times the shipping velocity of traditional IT fulfillment centers.
Insight annually ships more than 6 million hardware products in North America, configuring more than 2 million devices for immediate use out of the box by client workforces. The new center is expected to configure more than 1.3 million user-ready devices and ship far more assets annually from its 183,000 square feet of logistics space and 40,000 square feet of integration space. Combined with Insight’s Solutions Integration Center in Hanover Park, Illinois, which is strategically located next to one of the biggest U.S. airports, Insight can reach 94 percent of the country via ground shipping.
The Fort Worth Solutions Integration Center, which also houses on-premises data centers and IT configuration labs, boasts several key features that set it apart from standard fulfillment facilities, including:
Warehouse automation technologies orchestrated by Malin ensure efficient product movement through the center. These include automated robotics, conveyor systems, and wire-guided Raymond forklifts in very narrow aisle (VNA) configurations to maximize storage capacity. This ensures that the devices and technology that clients need are always readily available. It also results in precise inventory handling, achieving up to 99 percent accuracy and increasing usable inventory space by 75 percent.
Geek+ robots accurately and autonomously pick devices every 6 seconds, minimizing collection time and safety risks thanks to 80 percent less foot traffic on the warehouse floor. This also enables rush deployments for clients as assets can be quickly pulled from inventory, configured, and shipped to end users.
Integrated technologies with the use of Intel® SceneScape drive AI and spatial computing into workflow management. This empowers fast, data-driven decisions without requiring constant cloud connectivity, making it ideal for logistics, manufacturing, and beyond.
A major investment in networking and data center infrastructure enables rapid configuration of more than 3,500 devices simultaneously without degradation.
Speaking at the center’s opening, Insight CEO Joyce Mullen said: “Cutting the ribbon today for this facility is a proud milestone for all of us. It’s our latest technology showcase — everything that we’ve invested in, from the labs and the network infrastructure to the data center and the robotics, is based on partnerships with the world-class technology brands we sell and trust. It’s an exhibition of what we do for our clients and allows us to demonstrate our solutions in action.”
Fort Worth Mayor Mattie Parker said: “Fort Worth has positioned itself as a key player in the nation’s technological landscape, making our city an ideal hub for companies like Insight to grow and thrive. Insight’s investment underscores Fort Worth’s growing position as a leader in technology and innovation. The state-of-the-art Solutions Integration Center not only showcases the innovative digital transformation work that Insight brings to its clients globally but also strengthens our local economy by creating new jobs. We are thrilled to welcome this world-class facility and the opportunities it brings to our community.”
Insight’s commitment to sustainability and safety is evident throughout the facility:
An energy-efficient design intelligently distributes cooling to the data center and integration labs while minimizing energy consumption in the robotics warehouse space. Consequently, the facility uses 27 fewer air conditioners than comparable logistics and data centers.
As part of its Insight Flex for Devices comprehensive device lifecycle care program, the center’s hardware repair and recycling services safely dispose of old devices and reduce e-waste. Insight is one of the only Solutions Integrators certified to handle both in-warranty and out-of-warranty repairs for leading technology brands. Last year alone, Insight’s integration and disposal services helped clients recycle 3.7 million pounds of computer equipment.
AI-powered video security cameras from Verkada leverage large language and large vision models to set proactive alerts for different facility events, detect line-crossing into prohibited areas, understand occupancy trends, and more. This results in enhanced inventory control and floor safety, including automatically creating safety corridors through the movable VNA shelving stacks.
“Our new Solutions Integration Center is a demonstration of the world-class digital transformation solutions we build for our clients,” said Megan Amdahl, senior vice president of client experience and chief operating officer for North America at Insight. “The facility exemplifies modern efficiency and the power of AI to streamline a business. This investment underscores our commitment to providing our clients with smarter and more reliable service, meeting their technology needs faster than ever.”
Take a virtual tour of Insight’s new Solutions Integration Center at insight.com/SolutionsIntegrationCenter. For more information on Insight, visit insight.com or call 800-INSIGHT.。图片{ width=60% }


请先将这篇文章翻译为中文,Title部分内容需要翻译为中文。最后只需要输出为Makedown源文件格式内容。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Tintri推出新的VMstore™功能,配备全新的VMstore CSI驱动程序

VMstore CSI将关键VMstore性能、数据保护和可观察性功能提供给Kubernetes生态系统
Tintri®,DDN®的子公司,是AI驱动的数据管理解决方案领先提供商,今天宣布通过其全新的VMstore容器存储接口(CSI)驱动程序将Tintri的VMstore™功能提供给Kubernetes环境。图片{ width=60% }


VMstore平台为虚拟机工作负载提供了无与伦比的性能、数据保护和管理可见性,主要关注简单性。该CSI驱动程序为VMstore客户提供了在Kubernetes环境中相同的洞察力,以便通过一个界面轻松管理所有容器和虚拟机工作负载。
VMstore云原生CSI驱动程序允许管理员使用熟悉的Tintri界面和工具管理所有数据,以减少混合VM/容器环境中的复杂性。该驱动程序支持动态配置和卷与容器的自动连接和分离。借助云原生应用程序支持,VMstore集成到支持原始CSI访问的平台中,以有效地管理微服务部署的数据。
“Tintri的新IO感知CSI驱动程序是Kubernetes中最适应的数据管理平台,改变了IT管理员如何处理云端和本地的Kubernetes环境,” Tintri的CTO Brock Mowry表示。“VMstore CSI驱动程序赋予管理员们,无论其对Kubernetes的专业知识水平如何,管理和优化跨物理和虚拟集群中的数据所需的基本工具。”
主要功能和优势
高级可观察性和管理:在其环境中利用容器的VMstore客户可以全面了解数据移动和活动。VMstore CSI驱动程序使容器之间的工作负载转换易于管理,通过自动性能调整提高了操作效率。此外,ETPH分析提供了优化云存储成本的见解。出色的性能和控制:VMstore CSI驱动程序利用Tintri TxOS领先行业的性能、分析和优化能力,允许管理员动态管理容器性能,并可以实时自动优先处理应用工作负载。通过Tintri Global Center(TGC)的利用,管理员可以通过单个管理界面全局或本地管理作为Kubernetes集群服务的多个VM存储。强大的数据保护和恢复:通过VMstore TxOS集成,Tintri为Kubernetes环境带来了卓越的数据保护和灾难恢复,包括持久卷或大数据集的快照和克隆,确保一致的存储、安全的数据管理和高效的可恢复性。
Silicon Sky是一家富有创新性和前瞻性的IT基础设施和托管安全服务提供商,将Tintri VMstore解决方案作为其基础设施即服务(IaaS)和灾难恢复即服务(DRaaS)业务的支柱。Silicon Sky正在其数据中心中使用Tintri CSI驱动程序,无论是在云端还是本地。“通过提供一体化的主存储、灾难恢复和数据保护解决方案,我们简化并增强了IT运营,” Silicon Sky的美国CTO Tim Averill表示。
可用性
VMstore CSI支持将在2024年第四季度面向客户提供。有关更多信息,请联系Tintri销售代表或访问tintri.com/contact-us/。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB