2024-08-20发表2025-03-21更新 ByteAILab 16 分钟读完 (大约2433个字)

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

亚马逊上海人工智能研究院成立于 2018 年，已成为深度学习研究领域的领先机构之一，共发表了～90 篇论文。研究领域包括深度学习的基础理论、自然语言处理、计算机视觉、图机器学习、高性能计算、智能推荐系统、欺诈检测与风险控制、知识图谱构建以及智能决策系统等。研究院率先研究和开发了世界领先的深度图学习库 Deep Graph Library (DGL)，结合了深度学习和图结构表示的优势，影响许多重要应用领域。

检索增强生成（Retrieval-Augmented Generation, RAG）技术正在彻底革新 AI 应用领域，通过将外部知识库和 LLM 内部知识的无缝整合，大幅提升了 AI 系统的准确性和可靠性。然而，随着 RAG 系统在各行各业的广泛部署，其评估和优化面临着重大挑战。现有的评估方法，无论是传统的端到端指标还是针对单一模块的评估，都难以全面反映 RAG 系统的复杂性和实际表现。特别是，它们只能提供一个最终打分报告，仅反映 RAG 系统的性能优劣。

人生病了需要去医院做检查，那 RAG 系统生病了，如何诊断呢？

近日，亚马逊上海人工智能研究院推出了一款名为 RAGChecker 的诊断工具为 RAG 系统提供 细粒度、全面、可靠 的诊断报告，并为进一步提升性能， 提供可操作的方向。本文详细介绍了这个 RAG 的 “显微镜”，看看它如何帮助开发者们打造更智能、更可靠的 RAG 系统。

RAGChecker: RAG 系统的全面诊断工具

想象一下，如果我们能对 RAG 系统进行一次全面的 “体检”，会是什么样子？RAGChecker 就是为此而生的。它不仅能评估系统的整体表现，还能深入分析检索和生成两大核心模块的性能。

RAGChecker 的主要特点包括：

细粒度评估：RAGChecker 采用基于声明（claim）级别的蕴含关系检查，而非简单的回复级别评估。这种方法能够对系统性能进行更加详细和微妙的分析，提供深入的洞察。
全面的指标体系：该框架提供了一套涵盖 RAG 系统各个方面性能的指标，包括忠实度（faithfulness）、上下文利用率（context utilization）、噪声敏感度（noise sensitivity）和幻觉（hallucination）等。
经过验证的有效性：可靠性测试表明，RAGChecker 的评估结果与人类判断有很强的相关性，其表现超过了其他现有的评估指标。这保证了评估结果的可信度和实用性。
可操作的洞察：RAGChecker 提供的诊断指标为改进 RAG 系统提供了明确的方向指导。这些洞察能够帮助研究人员和实践者开发出更加有效和可靠的 AI 应用。

RAGChecker 的核心指标

RAGChecker 的指标体系可以用下图直观的理解：

这些指标被分为三大类：

整体指标:
- Precision（精确率）：模型回答中正确陈述的比例
- Recall（召回率）：模型回答中包含的标准答案中陈述的比例
- F1 score（F1 分数）：精确率和召回率的调和平均数，提供平衡的性能度量
检索模块指标:
- Context Precision（上下文精确率）：在所有检索块中，包含至少一个标准答案陈述的块的比例
- Claim Recall（陈述召回率）：被检索块覆盖的标准答案陈述的比例
生成模块指标:
- Context Utilization（上下文利用率）：评估生成模块如何有效利用从检索块中获取的相关信息来产生正确的陈述。这个指标反映了系统对检索到的信息的利用效率。
- Noise Sensitivity（噪音敏感度）：衡量生成模块在回答中包含来自检索块的错误信息的倾向。这个指标帮助识别系统对不相关或错误信息的敏感程度。
- Hallucination（幻觉）：测量模型生成既不存在于检索块也不在标准答案中的信息的频率。这就像是捕捉模型 “凭空捏造” 信息的情况，是评估模型可靠性的重要指标。
- Self-knowledge（模型内部知识）：评估模型在未从检索块获得信息的情况下，正确回答问题的频率。这反映了模型在需要时利用自身内置知识的能力。
- Faithfulness（忠实度）：衡量生成模块的响应与检索块提供的信息的一致程度。这个指标反映了系统对给定信息的依从性。

这些指标就像是 RAG 系统的 “体检报告”，帮助开发者全面了解系统的健康状况，并找出需要改进的地方。

开始使用 RAGChecker

对于想要尝试 RAGChecker 的开发者来说，上手过程非常简单。以下是快速入门的步骤：

环境设置：首先，安装 RAGChecker 及其依赖：

1 2	pip install ragchecker python -m spacy download en_core_web_sm

准备数据：将 RAG 系统的输出准备成特定的 JSON 格式，包括查询、标准答案、模型回答和检索的上下文。数据格式应如下所示：

{
     "results": [
       {
         "query_id": "< 查询 ID>",
         "query": "< 输入查询 >",
         "gt_answer": "< 标准答案 >",
         "response": "<RAG 系统生成的回答 >",
         "retrieved_context": [
           {
             "doc_id": "< 文档 ID>",
             "text": "< 检索块的内容 >"
           },
           ...
         ]
       },
       ...
     ]   
}

运行评估：

使用命令行：

1
2
3

ragchecker-cli \
    --input_path=examples/checking_inputs.json \
    --output_path=examples/checking_outputs.json

或者使用 Python 代码：

from ragchecker import RAGResults, RAGChecker
from ragchecker.metrics import all_metrics

# 从 JSON 初始化 RAGResults
with open("examples/checking_inputs.json") as fp:
    rag_results = RAGResults.from_json(fp.read())

# 设置评估器
evaluator = RAGChecker()

# 评估结果
evaluator.evaluate(rag_results, all_metrics)
print(rag_results)

分析结果：RAGChecker 会输出 json 格式的文件来展示评估指标，帮助你了解 RAG 系统的各个方面表现。

通过分析这些指标，开发者可以针对性地优化 RAG 系统的各个方面。例如：

较低的 Claim Recall（陈述召回率）可能表明需要改进检索策略。这意味着系统可能没有检索到足够多的相关信息，需要优化检索算法或扩展知识库。
较高的 Noise Sensitivity（噪音敏感度）表明生成模块需要提升其推理能力，以便更好地从检索到的上下文中区分相关信息和不相关或错误的细节。这可能需要改进模型的训练方法或增强其对上下文的理解能力。
高 Hallucination（幻觉）分数可能指出需要更好地将生成模块与检索到的上下文结合。这可能涉及改进模型对检索信息的利用方式，或增强其对事实的忠实度。
Context Utilization（上下文利用率）和 Self-knowledge（模型内部知识）之间的平衡可以帮助你优化检索信息利用和模型固有知识之间的权衡。这可能涉及调整模型对检索信息的依赖程度，或改进其综合利用多种信息源的能力。

通过这种方式，RAGChecker 不仅提供了详细的性能评估，还为 RAG 系统的具体优化方向提供了清晰的指导。

在 LlamaIndex 中使用 RAGChecker

RAGChecker 现在已经与 LlamaIndex 集成，为使用 LlamaIndex 构建的 RAG 应用提供了强大的评估工具。如果你想了解如何在 LlamaIndex 项目中使用 RAGChecker，可以参考 LlamaIndex 文档中关于 RAGChecker 集成的部分。

RAGChecker 的推出为 RAG 系统的评估和优化提供了一个新的工具。它为开发者提供了一把 “显微镜”，帮助他们深入了解、精准优化 RAG 系统。无论你是正在研究 RAG 技术的学者，还是致力于开发更智能 AI 应用的工程师，RAGChecker 都将是你不可或缺的得力助手。读者可以访问 RAGChecker GitHub链接获取更多信息或参与到项目的开发中来。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-20发表2025-03-21更新 ByteAILab 4 分钟读完 (大约669个字)

给RAG系统做一次全面「体检」，亚马逊开源RAGChecker诊断工具

亚马逊上海人工智能研究院成立于 2018 年，已成为深度学习研究领域的领先机构之一，共发表了～90 篇论文。研究领域包括深度学习的基础理论、自然语言处理、计算机视觉、图机器学习、高性能计算、智能推荐系统、欺诈检测与风险控制、知识图谱构建以及智能决策系统等。

检索增强生成（Retrieval-Augmented Generation, RAG）技术正在彻底革新 AI 应用领域，通过将外部知识库和 LLM 内部知识的无缝整合，大幅提升了 AI 系统的准确性和可靠性。随着 RAG 系统在各行各业的广泛部署，其评估和优化面临着重大挑战。

人生病了需要去医院做检查，那 RAG 系统生病了，如何诊断呢？

近日，亚马逊上海人工智能研究院推出了一款名为 RAGChecker 的诊断工具为 RAG 系统提供细粒度、全面、可靠的诊断报告，并为进一步提升性能，提供可操作的方向。本文详细介绍了这个 RAG 的 “显微镜”，看看它如何帮助开发者们打造更智能、更可靠的 RAG 系统。

图片1链接

论文：https://arxiv.org/pdf/2408.08067
项目地址：https://github.com/amazon-science/RAGChecker

RAGChecker: RAG 系统的全面诊断工具

想象一下，如果我们能对 RAG 系统进行一次全面的 “体检”，会是什么样子？RAGChecker 就是为此而生的。它不仅能评估系统的整体表现，还能深入分析检索和生成两大核心模块的性能。

图片2链接

RAGChecker 的主要特点包括：

细粒度评估：RAGChecker 采用基于声明（claim）级别的蕴含关系检查，而非简单的回复级别评估。
全面的指标体系：该框架提供了一套涵盖 RAG 系统各个方面性能的指标，包括忠实度、上下…

继续阅读全文

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-20发表2025-03-21更新 ByteAILab 21 分钟读完 (大约3193个字)

一年秀一次！稚晖君的人形机器人上新了，还有开源、免费彩蛋

一年一秀，稚晖君的第二代人形机器人来了。

灵巧小手，正在麻将桌上叱咤风云：

不对不对，让我们先看看整体气质：

然后是常规家务，能看出来也是非常熟练：

在大模型风靡的 2024 年，如果说 AI 领域什么最火，「具身智能」这个方向必定位列其中。

视线放到国内，「智元机器人」这家具身智能公司备受瞩目。自 2023 年 2 月成立以来，「智元机器人」已马不停蹄地完成了 6 轮融资，迅速成为机器人创业圈的「顶流项目」。

创业半年，稚晖君和团队就拿出了首款产品「远征 A1」。一出道，「远征 A1」的行走能力和人机互动就是业界领先水平。不过，在「远征 A1」初次亮相之后，我们似乎再也没听说过它的下一步消息，甚至没有放出任何整活视频。

但今天的发布会之后，我们知道了，智元机器人在「闷声干大事」。

在这场发布会中，稚晖君一口气推出了三款远征系列机器人产品：交互服务机器人「远征 A2」、柔性智造机器人「远征 A2-W」、重载特种机器人「远征 A2-Max」。最后的 One more thing 环节，智元 X-Lab 孵化的模块化机器人系列产品「灵犀 X1」和「灵犀 X1-W」也作为「彩蛋」正式亮相。

相比上一代，五款机器人采用了家族化设计语言，对机器人的外形进行了系列化的规整，结合轮式与足式两种形态，覆盖交互服务、柔性智造、特种作业、科研教育和数据采集等应用场景。

关于量产进度，智元机器人也透露了最新消息：2024 年预估发货量将达到 300 台左右，其中双足 200 台左右，轮式 100 台左右。

新一代远征 A2

从「远征 A1」开始，智元在机器人产品上的落地方向就已经很清晰：「进厂打工」。今年的「远征 A2」更是为批量「进厂打工」做了更充分的准备。

我们来看下这个家族的成员：

「远征 A2」是一款交互服务机器人，全身具备超过 40 个主动自由度的关节和仿人的灵巧双手，能够模拟出丰富和复杂的人类工作。它拥有一个可以持续学习的大脑，由大语言模型加持。此外，它还具备多模态的感知，输入系统，可以通过视觉感知交互者的情绪。

「远征 A2-Max」是一款重载特种机器人，既力大无穷又具备灵巧作业的优势，在开场的情景剧中，它轻松地搬动了 40kg 的航空箱，目前「远征 A2-Max」还处于产品研发阶段。

「远征 A2-W」是一款柔性智造机器人，它的两条手臂既可以独立操作，也可以协同工作。它采用了轮式底盘，结合机身搭载的 rgbd 激光雷达、全景相机、为全域安全配置的传感器等等构件，使得它可以在各种环境中快速而平稳的移动。

在发布会前，「远征 A2-W」的表现简直像钢铁侠的「贾维斯」走进了现实。在听懂稚晖君的指令后，它完全自主地打开了可乐瓶子，在榨汁机中放入葡萄，按下榨汁机，一滴没撒地把榨汁机里的饮料倒进了杯子，给稚晖君端上了一杯「萄气可乐」。

除了颜值提升，「远征 A2」系列机器人更是内外兼修。对于机器人的核心零部件，「智元机器人」创新地将机器人系统划分为动力域、感知域、通信域、控制域。显然，「智元机器人」都是冲着全栈生态去的。

在动力域方面，「智元机器人」对 PowerFlow 关节模组实现了量产化迭代升级，从参数上看，PowerFlow 关节模组都有大幅提升。在稳定性和可靠性方面，「智元机器人」也对其峰值性能、老化速度等方面进行了大量测试和优化。

对于「干活」而言对重要的灵巧手，这回「智元机器人」也升级了一番：自由度数跃升至 19 个，主动自由度翻倍至 12 个，在感知能力方面也引入了更多模态，例如基于 MEMS 原理的触觉感知和视触觉感知技术。

此外，「智元机器人」还推出了高精度力控 7 自由度双臂，能够精准执行阻抗控制、导纳控制、力位混控等多种力控任务，也支持双臂拖拽示教模式和可视化调节。

对于感知域方面，新一代的远征机器人系列集成了 RGBD 相机、激光雷达、全景相机等传感器，引入自动驾驶 Occupancy 前沿感知方案，通过 SLAM 算法进一步提升环境理解能力。

在通信域方面，「智元机器人」自研了具身原生、轻量化、高性能的智能机器人通信框架 AimRT。相比 ROS 等第三方中间件，提升了性能、稳定性、系统部署的效率和灵活性，同时又完全兼容 ROS/ROS2 已有生态。AimRT 将于 9 月底开源。

对于控制域方面，「智元机器人」结合了 Model-based 与 Learning-based 两种算法，进一步提升机器人运动控制与适应能力。对于 Model-based，「智元机器人」进一步提升了系统的鲁棒性，因此，在发布会上机器人所做的演示才能如此流畅和丝滑。对于 Learning-based 算法，「智元机器人」在这里划了一个重点，希望能促成机器人训练方法从算法驱动 - 数据驱动的转变。

在运控算法的基础上，「智元机器人」预研了基于自然语言指令集驱动的、可以适配不同机器人本体的 AgentOS，基于强化学习，实现机器人技能的精准编排与高效执行。

首次提出 G1-G5 具身智能技术演进路线

在本次发布会上，智元机器人还首次提出了具身智能领域的技术演进路线，包含从 G1 到 G5 五个阶段：

G1 指的是基础自动化阶段，也就是基于手工设计的特征，配合简单的机器视觉去做一些反馈。这一阶段的部署是为特定的场景量身定制的，虽然可以解决某些场景下的任务执行问题，但无法在不同的场景里面做低成本快速迁移。

G2 是「通用原子技能」阶段，针对大量不同的场景任务和各种作业的任务需求，提炼出一些可以复用的原子能力。简而言之，是以相对通用的方式去实现类似场景任务的快速迁移，然后配合大语言模型框架去做任务编排，使得机器人具备一定的泛化能力。

G3 则意味着具身智能的整体架构开始调整为「端到端」的路线，尽管这个阶段与 G2 阶段的算法架构可能是类似的，但此时的各项「原子能力」的形成方式，已经由手工设计的算法驱动变为了大量数据采集之后的数据驱动。

区别于前三个阶段，G4 阶段将会出现一个通用的端到端操作大模型。到了这一阶段，即可引入大量跨场景的真实数据和仿真数据，同时引入世界模型帮助 AI 理解现实世界背后的物理原理，理解不同任务背后底层逻辑的相通之处。最终通向无限趋近 AGI 的 G5 阶段。

过去一年，智元机器人已经在 G2 路线取得了阶段性突破，实现了通用的位姿估计模型 UniPose、通用的抓取模型 UniGrasp，通用的力控插拔模型 UniPlug 等一系列 zero-shot 和 few-shot 的通用原子技能。在 G2 阶段的原子能力模型，面向柔性智造和交互服务场景，已经在多个实际场景中得到了商业应用。

在 G3 路线上，智元机器人也形成了一套完整的全流程具身数据方案 AIDEA（Agibot Integrated Data-system for Embodied AI，智元具身智能数据系统）。

但我们都知道，要想形成这样一套方案，首先需要投入大量的数据采集成本，不是每个机器人团队都有条件做到的。

而智元机器人做到了，还预备在今年第四季度开源。

稚晖君表示，数据采集是整个环节的痛点。在过去一年中他们面向数据做了大量的基建工作，而且形成了一套完整、全流程的数据采集、应用的方案 AIDEA。

AIDEA 除了提供硬件本体方案之外，也会提供整个云全链路数据平台，还有 AIDEA ML 机器学习平台进行模型训练与算法评测，以及 AIDEA Sim 仿真平台。

稚晖君表示，他预计接下来智元会有百台以上自由部署机器人专门用来做端到端的数据采集，他们也将于四季度开源基于 AIDEA 的百万条真机、千万条仿真数据集，以积极建设开放生态。

稚晖君的 One more thing

大概因为觉得一年才开一次发布会属实「鸽」太久了，稚晖君也在发布会最后公布了 One more thing：全栈开源机器人灵犀 X1、专业数采机器人灵犀 X1-W 两款新品。

这两款机器人来自于 X-Lab（稚晖君实验室），是 10 个人不到 3 个月的时间做出的产品，里面有非常多的创新细节。例如，自研了 PF86 和 PF52 两款全新的 PowerFlow 关节，融入了模块化设计理念，可以通过简单抱箍形式轻松拆装。

基于 X-Lab 对极致创新的追求，稚晖君表示，会开源灵犀 X1 的本体设计图纸、软件框架、中间件源码、基础运控算法。

此外在执行器方面，X-Lab 自研了带前馈力控、超低成本的自适应通用夹爪，也推出了满足场景需求的百元级成本的六维力传感器。

对了，灵犀的售价是零元，开源大

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-20发表2025-03-21更新 ByteAILab 11 分钟读完 (大约1623个字)

波士顿动力技术揭秘：后空翻、俯卧撑与翻车，6年经验、教训总结

为什么波士顿动力的人形机器人能完成跑酷、后空翻等高难度动作？为什么有时候它会翻车？工程师从中总结的经验、教训都在这里了。

今年 4 月，著名机器人公司波士顿动力跟全世界开了一个玩笑，先是官宣人形机器人 Atlas 退役，狠狠来了一波回忆杀。

退役的 Atlas

紧接着，就在第二天，他们又放出了一个新的人形机器人视频。新机器人也叫 Atlas，不过由原来的液压改为了电动，身材更为小巧、灵活。

此时，外界才反应过来，原来波士顿动力并不是要放弃人形机器人，而是转变了研发方向，让机器人更加适应工业环境。该公司表示，这个电动版的 Atlas 将于明年初在韩国现代汽车工厂里开始进行试点测试，并会在几年后全面投产。

自公布后，这个机器人鲜少露面。直到最近，在机器人顶会 RSS 的一场技术分享上，大家才知道，原来新的 Atlas 已经进化到可以做俯卧撑、倒立行走的地步了。

这个技术分享来自波士顿动力机器人工程师 Robin Deits。他是 MIT 博士，2018 年至今一直在波士顿动力工作，研究 Atlas 人形机器人的控制。

个人主页：http://robindeits.com

在分享中，他介绍了 Atlas 机器人过去几年的研发历程，以及从中学到的经验、教训，对机器人行业从业者可能很有启发。机器之心将在这篇文章中进行系统梳理。

视频链接：https://www.youtube.com/watch?v=aQi6QxMKxQM

Atlas 控制器的核心 ——MPC

在演讲开头，Robin Deits 首先介绍了波士顿动力这家公司。

波士顿动力现在是韩国现代汽车公司旗下的人形机器人公司，员工大概有八九百人，其代表性的机器人有 Spot（机器狗）、Stretch（仓库搬运机器人）和 Atlas（人形机器人）。目前，Atlas 主要还是一个研发平台，波士顿动力正慢慢将其转化为产品。

接下来，Robin Deits 介绍了他们如何将 MPC 用于 Atlas，包括怎么用、遇到了哪些挑战、还有哪些问题没有解决等。

MPC 指的是 Model Predictive Control（模型预测控制），这是一种高级控制策略，通过使用数学模型来预测系统在未来一段时间内的行为，然后优化控制输入，以实现系统性能的最佳化。MPC 的一个关键优势是它能够处理多变量系统，并且可以显式地考虑约束条件（例如输入和状态的限制）。在机器人领域，MPC 通常用于路径规划、运动控制、姿态控制等任务中，因为它能在动态和复杂的环境下提供鲁棒的控制解决方案。

Deits 表示，他们从 2019 年以来实现的所有机器人动作都是依靠 MPC 来完成的，包括跑酷、体操、跳舞、后空翻等等。最近，他们还展示了 MPC 用于操纵物体的效果。2024 款纯电驱动的 Atlas 新版本也是由 MPC 驱动的。

所有版本 Atlas 的 MPC 都有一些共同特点，包括：

1、非线性动力学、成本和约束

Deits 指出，所有 MPC 版本从一开始就包含非线性动力学，非线性无处不在，特别是接触点的位置与接触点施加力的大小之间的耦合…

2、迭代线性化并求解 QP

他们通过迭代地线性化来解决这个问题…

3、从不运行到收敛

他们对收敛不感兴趣，因为 Deits 认为收敛并不能很好地预测机器人是否真的有效…

4、利用问题结构提高速度

他们做了很多工作，利用问题结构来提高速度…

5、不将求解器视为黑盒

他们尝试打开求解器，重写其内部，以提高性能…

自进入波士顿动力以来，Deits 所在的团队已经在机器人（硬件）上解决了大约 1000 万个 QP 问题，在模拟环境中则解决了 100 亿个。但这些还远远不够。

另外，他们采用了类似的耦合方法，将机器人和物体的状态放到一个 MPC 问题中去解决，使得 Atlas 能够做到扔工具包、搬运木板、操纵较重物体等动作。

但是，一旦「土豆」想做一些四肢做不到的事情（「土豆」以为能跳到那么远，而四肢其实不能），Atlas 就会贡献翻车片段。二者之间不够协调。

所以，从这时起，波士顿动力调整策略，开始将 Atlas 视为一个运动学 - 重心动力学耦合的系统（a Kinodynamic System）。这个系统可以让 Atlas 完成 540 度的转体空翻…

……

原文链接

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-20发表2025-03-21更新 ByteAILab 17 分钟读完 (大约2501个字)

波士顿动力技术揭秘：后空翻、俯卧撑与翻车，6年经验、教训总结

为什么波士顿动力的人形机器人能完成跑酷、后空翻等高难度动作？为什么有时候它会翻车？工程师从中总结的经验、教训都在这里了。

今年 4 月，著名机器人公司波士顿动力跟全世界开了一个玩笑，先是官宣人形机器人 Atlas 退役，狠狠来了一波回忆杀。

退役的 Atlas。

紧接着，就在第二天，他们又放出了一个新的人形机器人视频。新机器人也叫 Atlas，不过由原来的液压改为了电动，身材更为小巧、灵活。

此时，外界才反应过来，原来波士顿动力并不是要放弃人形机器人，而是转变了研发方向，让机器人更加适应工业环境。该公司表示，这个电动版的 Atlas 将于明年初在韩国现代汽车工厂里开始进行试点测试，并会在几年后全面投产。

自公布后，这个机器人鲜少露面。直到最近，在机器人顶会 RSS 的一场技术分享上，大家才知道，原来新的 Atlas 已经进化到可以做俯卧撑、倒立行走的地步了。

这个技术分享来自波士顿动力机器人工程师 Robin Deits。他是 MIT 博士，2018 年至今一直在波士顿动力工作，研究 Atlas 人形机器人的控制。

个人主页：http://robindeits.com

在分享中，他介绍了 Atlas 机器人过去几年的研发历程，以及从中学到的经验、教训，对机器人行业从业者可能很有启发。机器之心将在这篇文章中进行系统梳理。

Atlas 控制器的核心 ——MPC

在演讲开头，Robin Deits 首先介绍了波士顿动力这家公司。

波士顿动力现在是韩国现代汽车公司旗下的人形机器人公司，员工大概有八九百人，其代表性的机器人有 Spot（机器狗）、Stretch（仓库搬运机器人）和 Atlas（人形机器人）。目前，Atlas 主要还是一个研发平台，波士顿动力正慢慢将其转化为产品。

接下来，Robin Deits 介绍了他们如何将 MPC 用于 Atlas，包括怎么用、遇到了哪些挑战、还有哪些问题没有解决等。

MPC 指的是 Model Predictive Control（模型预测控制），这是一种高级控制策略，通过使用数学模型来预测系统在未来一段时间内的行为，然后优化控制输入，以实现系统性能的最佳化。MPC 的一个关键优势是它能够处理多变量系统，并且可以显式地考虑约束条件（例如输入和状态的限制）。在机器人领域，MPC 通常用于路径规划、运动控制、姿态控制等任务中，因为它能在动态和复杂的环境下提供鲁棒的控制解决方案。

Robin Deits 表示，他们从 2019 年以来实现的所有机器人动作都是依靠 MPC 来完成的，包括跑酷、体操、跳舞、后空翻等等。最近，他们还展示了 MPC 用于操纵物体的效果。2024 款纯电驱动的 Atlas 新版本也是由 MPC 驱动的。

所有版本 Atlas 的 MPC 都有一些共同特点，包括：

1、非线性动力学、成本和约束

Deits 指出，所有 MPC 版本从一开始就包含非线性动力学，非线性无处不在，特别是接触点的位置与接触点施加力的大小之间的耦合。他们选择接受这一点：如果一切都是非线性的，他们不会找到一个完美的线性近似系统。

2、迭代线性化并求解 QP

他们通过迭代地线性化来解决这个问题。这包括从一个初始猜测开始，然后解决一个 QP（二次规划问题），围绕那个 QP 的解进行线性化。

3、从不运行到收敛

他们对收敛不感兴趣，因为 Deits 认为收敛并不能很好地预测机器人是否真的有效。如果机器人在等待过程中摔倒了，那么为了等待收敛到某个阈值而花费上百倍的时间并不值得。

4、利用问题结构提高速度

他们做了很多工作，利用问题结构来提高速度，尽可能保留由 MPC 问题结构带来的稀疏性。

5、不将求解器视为黑盒

他们尝试打开求解器，重写其内部，以提高性能，而不是简单地将求解器视为一个无法更改的黑盒。因为最终，他们需要尽可能快地解决最大的 MPC 问题。

自进入波士顿动力以来，Deits 所在的团队已经在机器人（硬件）上解决了大约 1000 万个 QP 问题，在模拟环境中则解决了 100 亿个。但这些还远远不够。

把机器人看成长了四肢的「土豆」

为了简化模型，他们首先把机器人想象成一个土豆。机器人存在诸多非线性因素，比如力的位置和大小之间的耦合，以及旋转动力学等。通过简化模型，专注于重心动力学，他们成功实现了 Atlas 机器人的 360 度旋转、后空翻等动作。

但是，归根结底，机器人不是土豆，它有可以移动的四肢，因此他们转向了分阶段优化：首先考虑土豆的重心动力学，然后在独立的运动学上做一些下游优化，以找到与「土豆」一致的运动学行为。这种方法效果很好，帮 Atlas 实现了单手支撑跳过平衡木的动作。在这一过程中，他们使用手和脚来操纵重心动力变化，但是以一种跟踪参考轨迹的方式移动四肢，使其清楚地避开平衡木。

但问题是，一旦「土豆」想做一些四肢做不到的事情（「土豆」以为能跳到那么远，而四肢其实不能），Atlas 就会贡献翻车片段。二者之间不够协调。

所以，从这时起，波士顿动力调整策略，开始将 Atlas 视为一个运动学 - 重心动力学耦合的系统（a Kinodynamic System）。这个系统可以让 Atlas 完成 540 度的转体空翻，这是以前的分阶段优化系统做不到的。

此时，他们也意识到，增加模型的复杂性似乎总能在某种程度上提升机器人的性能，尽管这确实会让计算过程变得更加复杂，软件也更加庞大。他们在 MPC 问题中加入的每一个正确元素，都有助于改善机器人的表现，但这同时也意味着需要更强大的计算能力和更精细的软件实现。他们尚未发现一个临界点。

为了让机器人能够操纵物体，他们采取了类似的耦合方法，将机器人和物体的状态放到一个 MPC 问题中去解决，因为二者的运动互相约束。这使得 Atlas 能够做到扔工具包、搬运木板、操纵较重物体等动作。

不过，这些动作都是在非常结构化的环境中完成的，波士顿动力需要考虑机器人实际所处的世界。这让问题变得更大、更难，引入了感知驱动的约束之类的东西。

他们采用像体素地图这样的世界表示，并将其作为 MPC 问题的额外约束。在一个例子中，他们让机器人慢跑，没有特别的参考动作，但是要求它保持头部在体素外面，结果可以看到，机器人知道遇到体素要低头。这仍然是一个局部优化，机器人不会特别聪明地决定如何绕过一棵树。但是 Deits 表示，依靠这些局部优化并看看能用它做到什么，效果出奇地好。在一个让机器人跑向盒子的例子中，它居然通过一个聪明的扭腰动作绕过了盒子。

但想要真正创造出一个用于执行任务的有用机器人，只让它在障碍物周围走动并做一些编程好的动作还远远不够。波士顿动力最近面临的一大挑战是如何将整个 MPC 系统应用到人类在线指定的某种任务上。

Deits 展示了他们遥控机器人进行操作的例子。在遥控过程中，他们获取操作者手部的动作，并将这些动作转换成 MPC 的参考轨迹。由于无法预知操作者将来想要做什么，他们必须采取

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-20发表2025-03-21更新 ByteAILab 17 分钟读完 (大约2480个字)

国内首个UI大模型出炉！Motiff妙多大模型打造设计师最佳助手、优化UI设计工作流

人工智能的发展速度可能超乎你的想象。自GPT-4将多模态技术引入公众视野以来，多模态大模型进入快速发展阶段，逐渐从单纯的模型研发转向垂直领域的探索和应用，与各行各业深度融合。

在界面交互领域，谷歌、苹果等国际科技巨头纷纷投入UI多模态大模型研发，这被视为手机AI革命的必经之路。

在此背景下，国内首个UI大模型横空出世。8月17日，在IXDC2024国际体验设计大会上，AI时代设计工具Motiff妙多推出了其自主研发的UI多模态大模型——Motiff妙多大模型。这是全球首个由UI设计工具企业研发的大模型，标志着中国UI设计力量在全球舞台上的崛起。

企业微信截图_c5cef789-3c1a-47cf-87be-cf88f42cc7c8

（IXDC大会现场，Motiff妙多副总裁介绍国内首个UI大模型——Motiff妙多大模型）

Motiff妙多大模型具备出色的UI理解能力和执行开放式指令的能力。在五个行业公认的UI能力基准测试集中，Motiff妙多大模型的各项指标均超过了GPT-4o和苹果的Ferret UI，同时在Screen2Words（界面描述与推断）和Widget Captioning（部件描述）两大指标上也超越了谷歌的ScreenAI，其中Widget Captioning指标高达161.77，刷新SoTA。与Ferret UI、ScreenAI等现有解决方案相比，Motiff妙多大模型能灵活地根据上下文理解界面元素，达到“设计专家”水平，最接近人类对UI界面的理解和表述结果。

企业微信截图_e0ba6bbd-acd6-4f43-a662-6ef6d5baa26a

（权威UI指标横评中，Motiff妙多大模型所有指标均超过GPT-4o和Ferret UI）

最懂UI的大模型、表述高度接近人类，未来界面交互革命的基石

在IXDC大会上，Motiff妙多副总裁张昊然详细介绍了Motiff妙多大模型，它具备理解用户界面和交互导览两大能力，有望引领界面交互革命。“人类的创造从认知和理解开始，AI 时代的 UI 创作也将从大模型充分理解用户界面开始。”张昊然说。

Motiff妙多大模型在理解用户界面方面表现卓越，堪比“设计专家”。它不仅能识别界面中所有的图片、图标、文字和40多种细粒度UI组件，还能精确标注界面上不同元素的区域坐标。此外，它还能够回答与用户界面相关的各种问题，并根据界面信息进行功能推断、详细描述界面内容。

相较于GPT-4o、Ferret UI和ScreenAI等大模型，Motiff妙多大模型还在界面分析能力上具有显著优势。例如，在APP Store应用界面中，Motiff妙多大模型能以UI设计视角将页面分为顶部导航栏、应用信息模块等多个模块，并详细分析每个模块的功能和布局，这有助于提供设计…

AI 大模型 1
AI 大模型 2

（Motiff妙多大模型能回答各种各样有关UI界面的问题）

Motiff妙多大模型在理解和表述能力上也最接近人类。此前的解决方案（如 Ferret UI 和 ScreenAI）难以根据上下文理解图标的含义，Motiff妙多大模型通过人工标注等方式收集了大量高质量的 UI 领域数据，能理解并指出同一图标在不同界面中的多种含义，显著提升了描述的准确度和情境相关性。

大模型配图5

（图1数据由谷歌ScreenAI生成，将心形图标错误地理解为“心”而不是“收藏”；图2、3、4数据由Motiff妙多大模型生成，能结合界面信息准确描述图标含义。）

Motiff妙多大模型还具备交互导览能力，可以根据用户需求提示操作步骤，并在获得许可后替代用户完成相关操作。这为未来的界面交互革命奠定了基础。未来，用户无需手动点击屏幕，只需语音或图像输入即可操作设备，Siri等手机助手可能成为所有App的新入口，真正的智能手机和电脑将由此诞生，软件应用新范式和界面交互新时代也将随之开启。

此外，Motiff妙多大模型也成功将错误率控制在个位数内。业内观点认为，错误率的大幅下降标志着AI从辅助工具向独立完成工作的“技术奇点”迈进。目前，大模型面临的核心问题之一是较高的错误率，如GPT-4在多个指标上有30%至40%的错误率，在UI领域错误率甚至超过70%。相比之下，Motiff妙多大模型将错误率降低到15%以下，个别指标错误率仅为7%。

为何AI应用企业能自主研发出全球领先的大模型？张昊然在大会上称，这源于对“产品做得更好”的持续追求。“Motiff妙多作为AI产品引领者，致力于从应用场景出发突破技术瓶颈，不断提升对AI能力的要求。”他说。

Motiff妙多能在UI领域“打败”GPT-4o、苹果Ferret UI等国际领先大模型，也得益于其长期的技术积累。Motiff妙多自2021年成立以来一直专注于界面交互与设计，其母公司猿辅导集团2014年就成立了专注于AI技术前沿探索的AI Lab，2018年猿辅导集团在知名机器阅读比赛MSMARCO中就位列全球第一，当时的机器阅读理解能力已经超越了百度和微软。

AI提效+生成打造设计师最佳助手，优化软件开发工作流

毫无疑问， Motiff妙多大模型的发布标志着界面设计领域迎来GPT时刻。UI 设计需要对视觉元素的精确处理和对用户交互逻辑的深度理解，Motiff妙多大模型显著提升了设计工具的效率和生成能力。

在Motiff妙多的AI生成UI功能中，用户只需输入一段指令，不到30秒，Motiff妙多就能生成两版设计稿。根据近期30多位行业人士的盲评，Motiff妙多生成的两版设计稿均优于之前领先的AI生成UI工具Galileo AI。该功能发布后迅速成为市场上的领先者，这一优势直接源于Motiff妙多大模型的UI专业能力。据悉，AI生成UI功能已于8月17日对全球用户开放，只需注册Motiff妙多账号即可免费体验。

大模型配图6

（输入同样的提示词“生成类似hulu的视频流主页”，Motiff妙多生成效果的准确性、丰富度强于Galileo AI。）

此外，AI设计系统功能中的组件识别准确性也得到了显著提升。在大模型的支持下，设计师仅需花费几分钟就能完成过去至少几周才能完成的工作。AI复制功能对设计稿中的图片和文案识别准确率达到97%以上。

“Motiff 妙多将计划面向中大型企业开放大模型能力，和客户共同打造 AI 时代新的界面生产关系。”张昊然在会上指出，Motiff妙多大模型有助于优化软件开发工作流，有效缩短现有的界面生产流程。

Motiff妙多此前已在界面设计行业开创了多个“第一”，不仅首创多个AI功能，也是国内首个自研图形渲染引擎的界面设计软件，并且是全球唯一在单画布100万图层下仍可流畅编辑的高性能产品。Motiff在海外社交媒体上被誉为“AI版Figma”，在提高生产力超百倍的同时，价格比Figma低80%以上，并登上知名产品发布平台Product Hunt 7月最受欢迎产品日榜和周榜第一。

截屏2024-08-08 15.17.46
大模型配图8

（海外社交平台出现大量比较Motiff妙多和Figma的帖子，Motiff妙多被认为是设计师都需要了解的AI工具。）

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-20发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1078个字)

一年秀一次！稚晖君的人形机器人上新了，还有开源、免费彩蛋

一年一秀，稚晖君的第二代人形机器人来了。

灵巧小手，正在麻将桌上叱咤风云：

不对不对，让我们先看看整体气质：

然后是常规家务，能看出来也是非常熟练：

在大模型风靡的 2024 年，如果说 AI 领域什么最火，「具身智能」这个方向必定位列其中。

视线放到国内，「智元机器人」这家具身智能公司备受瞩目。自 2023 年 2 月成立以来，「智元机器人」已马不停蹄地完成了 6 轮融资，迅速成为机器人创业圈的「顶流项目」。

创业半年，稚晖君和团队就拿出了首款产品「远征 A1」。一出道，「远征 A1」的行走能力和人机互动就是业界领先水平。不过，在「远征 A1」初次亮相之后，我们似乎再也没听说过它的下一步消息，甚至没有放出任何整活视频。

但今天的发布会之后，我们知道了，智元机器人在「闷声干大事」。

在这场发布会中，稚晖君一口气推出了三款远征系列机器人产品：交互服务机器人「远征 A2」、柔性智造机器人「远征 A2-W」、重载特种机器人「远征 A2-Max」。最后的 One more thing 环节，智元 X-Lab 孵化的模块化机器人系列产品「灵犀 X1」和「灵犀 X1-W」也作为「彩蛋」正式亮相。

相比上一代，五款机器人采用了家族化设计语言，对机器人的外形进行了系列化的规整，结合轮式与足式两种形态，覆盖交互服务、柔性智造、特种作业、科研教育和数据采集等应用场景。

关于量产进度，智元机器人也透露了最新消息：2024 年预估发货量将达到 300 台左右，其中双足 200 台左右，轮式 100 台左右。

新一代远征 A2

从「远征 A1」开始，智元在机器人产品上的落地方向就已经很清晰：「进厂打工」。今年的「远征 A2」更是为批量「进厂打工」做了更充分的准备。

我们来看下这个家族的成员：

「远征 A2」是一款交互服务机器人，全身具备超过 40 个主动自由度的关节和仿人的灵巧双手，能够模拟出丰富和复杂的人类工作。它拥有一个可以持续学习的大脑，由大语言模型加持。此外，它还具备多模态的感知，输入系统，可以通过视觉感知交互者的情绪。

「远征 A2-Max」是一款重载特种机器人，既力大无穷又具备灵巧作业的优势，在开场的情景剧中，它轻松地搬动了 40kg 的航空箱，目前「远征 A2-Max」还处于产品研发阶段。

「远征 A2-W」是一款柔性智造机器人，它的两条手臂既可以独立操作，也可以协同工作。它采用了轮式底盘，结合机身搭载的 rgbd 激光雷达、全景相机、为全域安全配置的传感器等等构件，使得它可以在各种环境中快速而平稳的移动。

在发布会前，「远征 A2-W」的表现简直像钢铁侠的「贾维斯」走进了现实。在听懂稚晖君的指令后，它完全自主地打开了可乐瓶子，在榨汁机中放入…
功能，请查看Figma - 一年秀一次！稚晖君的人形机器人上新了，还有开源、免费彩蛋

。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-20发表2025-03-21更新 ByteAILab 18 分钟读完 (大约2720个字)

为什么学线代时不知道：矩阵与图竟然存在等价关系

矩阵很难理解，但换个视角或许会不一样。

在学习数学时，我们常因所学知识的难度和抽象而受挫；但有些时候，只需换个角度，我们就能为问题的解答找到一个简单又直观的解法。

举个例子，小时候在学习和的平方 (a+b)² 公式时，我们可能并不理解为什么它等于 a²+2ab+b²，只知道书上这么写，老师让这么记；直到某天我们看见了这张动图：

登时恍然大悟，原来我们可以从几何角度来理解它！

现在，这种恍然大悟之感又出现了：非负矩阵可以等价地转换成对应的有向图！

如下图所示，左侧的 3×3 矩阵其实可以等价地表示成右侧的包含三个节点的有向图，并且这种表示方式对矩阵和图论都大有帮助。

这个例子来自致力于让每个人都能看懂数学（make math accessible for everyone）的数学家 Tivadar Danka。这位自称「混乱善良（Chaotic good）」的数学家通过一系列推文和博客文章生动地介绍了矩阵和图的这种等价性及其用途。截至目前，这些推文已被阅读了超过 200 万次，收获了超过 3200 次转发和 9100 次收藏。

矩阵与有向图的对价性

如上图的例子所示，如果我们将其中每一行都视为一个节点，则每一个元素都可表示成一条有向且加权的边。当然，0 元素可以忽略不计。如果该元素位于第 i 行第 j 列，则对应于从节点 i 到节点 j 边。

乍一看，这似乎很复杂，但我们可以先看其中一个节点。

如图所示，对于这个 3×3 的矩阵，第 1 行对应于最顶部的节点（我们这里称之为 1 号节点），其包含 3 个元素但其中一个为 0，因此该节点延伸出了两条边。其中黄色边表示的是 (1,1) 处的元素 0.5，因此它是指向自身且权重为 0.5 的有向边。同理，蓝色边是指向 2 号节点且权重为 1 的边。

这样一来，我们便能分析出，矩阵的第 i 列便对应于指向 i 号节点的所有边。

这种等价表示有什么用？

非负矩阵与有向图之间的这种等价性既能帮助我们更好地理解矩阵及其运算，也能帮助简化一些计算过程；反过来，这也能帮助我们从新的视角理解图。

举个例子，矩阵的幂就对应于图中的游走。

如上图所示，对于 n×n 的方形矩阵 A 的 k 次幂，其中每个元素的求和过程都会纳入所有可能的 k 步游走。

举个例子，假设我们要计算上述 3×3 矩阵的平方。

对于运算结果的第一个元素，我们可以得到结果 = 0.5×0.5+1×0.2+0×1.8 = 0.45。最终，我们可以得到完整的结果为：

但如果借助上述的图游走方法，则可以通过游走路径来得到结果。同样，对于结果矩阵的第一个元素，就需要对符合 a_{1,l}→a_{l,1} 的所有 2 步游走路径求和。

但是，如果这个有向图表示的是马尔科夫链的状态，其转移概率矩阵的平方本质上就表示该链 2 步之后达到某个状态的概率。

不仅如此，用图表示矩阵还能让我们深入了解非负矩阵的结构。为此，Danka 表示我们需要先了解「强连通分量（strongly connected components）」这一概念。

强连通分量

什么是强连通分量？对于一个有向图，如果能从该图中的每个节点到达其它每个节点时，我们就说该图是强连通的。如下图所示。

而强连通分量就是指有向图中能够实现强连通的部分 / 子图。如下图所示，左右各有一个强连通分量，而中间的白色边不属于任何强连通分量。

下图则展示了另一个例子，其中黄色部分是强连通分量：

对应于强连通图的矩阵是不可约矩阵，而非负矩阵中的所有其它矩阵都是可约矩阵。

Danka 通过一个例子给出了解释。（为了说明简单，例子中的权重均为单元权重，但实践中这些权重值可以是任意非负值。）

下面将这个包含强连通分量但本身并不强连通的图转写成对应的矩阵形式：

而这个矩阵是可约矩阵。

可以看到，在主对角线上的两个子矩阵分别表示两个强连通分量，而右上方的子矩阵表示从第 1 个强连通分量指向第 2 个强连通分量的边，左下方的则表示从第 2 个强连通分量指向第 1 个强连通分量的边（因为没有这样的边，所以全为 0）。

这种书写分块矩阵的形式被称为弗罗贝尼乌斯标准形（Frobenius normal form）。

那么，我们很自然就会问：我们能将任意非负矩阵都转换成弗罗贝尼乌斯标准形矩阵吗？

通过使用有向图来表示非负矩阵，我们可以轻松地看出答案是肯定的，因为任何表示非负矩阵的有向图都可以表示成互相连接的强连通分量。这个过程非常简单：

为非负矩阵构建对应的有向图；
找到其中的强连通分量；
换更好的方式标注各个节点。

如此便大功告成了！

用图来得到弗罗贝尼乌斯标准形

那么，这个更好的方式是什么呢？

以上述的例子为基础，我们来看看这个过程。

首先，将各个强连通分量融合成单个对象，如下图所示。这时候我们可以将每个强连通分量视为一个黑箱 —— 我们不关心其内部结构，只看其外部连接。

然后，在这个新图中，我们需要找到只有出边而没有入边的分量。这个具体示例中只有一个，我们将其标记为 0 号：

接下来一步较为麻烦：对每个分量进行编号，使得每个分量的编号都是离 0 号最远的距离。如下示例能更清晰地说明这一点：

可以看到，0 号到中间的分量有两条路径，那么选择离 0 最远的那条路径对其进行编号。最终得到：

实际上，这定义的是分量的顺序。接下来标记各个分量的内部节点：

如果该图本身来自一个矩阵，则这样的重新标注过程就能得到一个弗罗贝尼乌斯标准形矩阵！

实际上，这个重新标注的过程就是使用一个置换矩阵 P 对原矩阵执行变换，而该置换矩阵由多个转置矩阵的积构成。

以下为该定理的完整形式：

当然，用图表示矩阵的用途远不止于此，比如我们还可以使用矩阵的特征值来定义图的特征值。事实上，这一思路催生了谱图理论（spectral graph theory）这一研究领域。

结语

很显然，矩阵和图之间的这种等价关系既有助于图论研究，也能为线性代数的计算和分析提供一个新视角。其也有一些重要的实际用途，比如 DNA 数据就常被表示成矩阵或图的形式。

另外，我们都知道矩阵运算对于当前的大模型 AI 的重要性，而以知识图谱为代表的图也正通过检索增强式搜索等技术成为当前 AI 的重要助力。将这两者关联起来，或许能在 AI 可解释性以及图人工智能方面带来一些新的突破。至少，这能帮助我们更好地学习线性代数。

实际上，上述内容正是提炼自 Tivadar Danka 正在编写的《Mathematics of Machine Learning》一书。这本书将由浅入深地介绍与机器学习相关的数学知识，让读者真正知其然也知其所以然，并且 Danka 自信地宣称这会是「学习机器学习的最佳资源」。目前他已经在网上发布了两章预览，感兴趣的读者可访问：https://tivadardanka.com/mathematics-of-machine-learning-preview/

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-20发表2025-03-21更新 ByteAILab 16 分钟读完 (大约2350个字)

国内首个UI大模型出炉！Motiff妙多大模型打造设计师最佳助手、优化UI设计工作流

人工智能的发展速度可能超乎你的想象。自GPT-4将多模态技术引入公众视野以来，多模态大模型进入快速发展阶段，逐渐从单纯的模型研发转向垂直领域的探索和应用，与各行各业深度融合。

在界面交互领域，谷歌、苹果等国际科技巨头纷纷投入UI多模态大模型研发，这被视为手机AI革命的必经之路。

在此背景下，国内首个UI大模型横空出世。8月17日，在IXDC2024国际体验设计大会上，AI时代设计工具Motiff妙多推出了其自主研发的UI多模态大模型——Motiff妙多大模型。这是全球首个由UI设计工具企业研发的大模型，标志着中国UI设计力量在全球舞台上的崛起。

（IXDC大会现场，Motiff妙多副总裁介绍国内首个UI大模型——Motiff妙多大模型）

Motiff妙多大模型具备出色的UI理解能力和执行开放式指令的能力。在五个行业公认的UI能力基准测试集中，Motiff妙多大模型的各项指标均超过了GPT-4o和苹果的Ferret UI，同时在Screen2Words（界面描述与推断）和Widget Captioning（部件描述）两大指标上也超越了谷歌的ScreenAI，其中Widget Captioning指标高达161.77，刷新SoTA。与Ferret UI、ScreenAI等现有解决方案相比，Motiff妙多大模型能灵活地根据上下文理解界面元素，达到“设计专家”水平，最接近人类对UI界面的理解和表述结果。

（权威UI指标横评中，Motiff妙多大模型所有指标均超过GPT-4o和Ferret UI）

最懂UI的大模型、表述高度接近人类，未来界面交互革命的基石

在IXDC大会上，Motiff妙多副总裁张昊然详细介绍了Motiff妙多大模型，它具备理解用户界面和交互导览两大能力，有望引领界面交互革命。“人类的创造从认知和理解开始，AI 时代的 UI 创作也将从大模型充分理解用户界面开始。”张昊然说。

Motiff妙多大模型在理解用户界面方面表现卓越，堪比“设计专家”。它不仅能识别界面中所有的图片、图标、文字和40多种细粒度UI组件，还能精确标注界面上不同元素的区域坐标。此外，它还能够回答与用户界面相关的各种问题，并根据界面信息进行功能推断、详细描述界面内容。

相较于GPT-4o、Ferret UI和ScreenAI等大模型，Motiff妙多大模型还在界面分析能力上具有显著优势。例如，在APP Store应用界面中，Motiff妙多大模型能以UI设计视角将页面分为顶部导航栏、应用信息模块等多个模块，并详细分析每个模块的功能和布局，这有助于提供设计建议、自动生成UI设计原型等。Motiff妙多在界面分析能力上处于行业领先水平，是最懂UI设计的多模态大模型。

（Motiff妙多大模型能回答各种各样有关UI界面的问题）

Motiff妙多大模型在理解和表述能力上也最接近人类。此前的解决方案（如 Ferret UI 和 ScreenAI）难以根据上下文理解图标的含义，Motiff妙多大模型通过人工标注等方式收集了大量高质量的 UI 领域数据，能理解并指出同一图标在不同界面中的多种含义，显著提升了描述的准确度和情境相关性。

（图1数据由谷歌ScreenAI生成，将心形图标错误地理解为“心”而不是“收藏”；图2、3、4数据由Motiff妙多大模型生成，能结合界面信息准确描述图标含义。）

Motiff妙多大模型还具备交互导览能力，可以根据用户需求提示操作步骤，并在获得许可后替代用户完成相关操作。这为未来的界面交互革命奠定了基础。未来，用户无需手动点击屏幕，只需语音或图像输入即可操作设备，Siri等手机助手可能成为所有App的新入口，真正的智能手机和电脑将由此诞生，软件应用新范式和界面交互新时代也将随之开启。

此外，Motiff妙多大模型也成功将错误率控制在个位数内。业内观点认为，错误率的大幅下降标志着AI从辅助工具向独立完成工作的“技术奇点”迈进。目前，大模型面临的核心问题之一是较高的错误率，如GPT-4在多个指标上有30%至40%的错误率，在UI领域错误率甚至超过70%。相比之下，Motiff妙多大模型将错误率降低到15%以下，个别指标错误率仅为7%。

为何AI应用企业能自主研发出全球领先的大模型？张昊然在大会上称，这源于对“产品做得更好”的持续追求。“Motiff妙多作为AI产品引领者，致力于从应用场景出发突破技术瓶颈，不断提升对AI能力的要求。”他说。

Motiff妙多能在UI领域“打败”GPT-4o、苹果Ferret UI等国际领先大模型，也得益于其长期的技术积累。Motiff妙多自2021年成立以来一直专注于界面交互与设计，其母公司猿辅导集团2014年就成立了专注于AI技术前沿探索的AI Lab，2018年猿辅导集团在知名机器阅读比赛MSMARCO中就位列全球第一，当时的机器阅读理解能力已经超越了百度和微软。

AI提效+生成打造设计师最佳助手，优化软件开发工作流

毫无疑问， Motiff妙多大模型的发布标志着界面设计领域迎来GPT时刻。UI 设计需要对视觉元素的精确处理和对用户交互逻辑的深度理解，Motiff妙多大模型显著提升了设计工具的效率和生成能力。

在Motiff妙多的AI生成UI功能中，用户只需输入一段指令，不到30秒，Motiff妙多就能生成两版设计稿。根据近期30多位行业人士的盲评，Motiff妙多生成的两版设计稿均优于之前领先的AI生成UI工具Galileo AI。该功能发布后迅速成为市场上的领先者，这一优势直接源于Motiff妙多大模型的UI专业能力。据悉，AI生成UI功能已于8月17日对全球用户开放，只需注册Motiff妙多账号即可免费体验。

（输入同样的提示词“生成类似hulu的视频流主页”，Motiff妙多生成效果的准确性、丰富度强于Galileo AI。）

此外，AI设计系统功能中的组件识别准确性也得到了显著提升。在大模型的支持下，设计师仅需花费几分钟就能完成过去至少几周才能完成的工作。AI复制功能对设计稿中的图片和文案识别准确率达到97%以上。

“Motiff 妙多将计划面向中大型企业开放大模型能力，和客户共同打造 AI 时代新的界面生产关系。”张昊然在会上指出，Motiff妙多大模型有助于优化软件开发工作流，有效缩短现有的界面生产流程。

Motiff妙多此前已在界面设计行业开创了多个“第一”，不仅首创多个AI功能，也是国内首个自研图形渲染引擎的界面设计软件，并且是全球唯一在单画布100万图层下仍可流畅编辑的高性能产品。Motiff在海外社交媒体上被誉为“AI版Figma”，在提高生产力超百倍的同时，价格比Figma低80%以上，并登上知名产品发布平台Product Hunt 7月最受欢迎产品日榜和周榜第一。

（海外社交平台出现大量比较Motiff妙多和Figma的帖子，Motiff妙多被认为是设计师都需要了解的AI工具。）

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-20发表2025-03-21更新 ByteAILab 12 分钟读完 (大约1764个字)

Nature子刊，上智院、复旦、中国气象局研发次季节AI大模型「伏羲」，突破「可预报性沙漠」

编辑 | ScienceAI
作者 | 伏羲团队

国务院印发的《气象高质量发展纲要（2022—2035 年）》明确提出要「提前一个月预报重大天气过程」，而这离不开 15 天以上的次季节气候预测技术。
次季节气候预测关注的是未来 15~60 天的气候异常，可以为农业、水利、能源等领域的生产安排提供重要支撑。

相比时效在两周以内的中短期天气预报，次季节气候预测的不确定性更大。它不仅需要考虑初值问题，还要考虑边界强迫的影响，预测来源更为复杂，预测技巧也较少。因此，次季节气候预测一直被称为「可预报性沙漠」，
由于其复杂性，甚至连 AI 大模型在时间尺度上的表现亦长期未能超越传统模型。
为了解决这个问题，上海科学智能研究院（简称上智院）、复旦大学、中国气象局国家气候中心联合研发了「伏羲」次季节气候预测大模型（FuXi-S2S) ，首次超越传统数值预报模式的标杆 —— 欧洲中期天气预报中心（ECMWF）的 S2S 模式。
近日，该成果以「A Machine Learning Model that Outperforms Conventional Global Subseasonal Forecast Models」为题的论文，被国际权威综合性期刊《Nature Communications》杂志收录发表。

作为一种机器学习模型，「伏羲」次季节气候预测大模型包含较为全面的变量：13 个气压层的 5 个高空大气变量和 11 个地面变量。其独特之处在于能够快速有效地生成大型集合预测，在大约 7 秒内完成长达 42 天的全球日平均预报。
这些预测信息对于农业规划、资源管理、灾害准备，以及抵御热浪干旱、寒潮洪水等极端天气事件至关重要。
「伏羲」次季节气候预测大模型在技术上实现了两个关键性创新：
一是引入了海气相互作用过程，特别是将热带大气季节内振荡（MJO）这个次季节最重要的可预报性来源纳入模型；
二是在隐空间中创新性设计了智能扰动生成模块，从而可以在当前气候系统状态下刻画未来一个预报时次气候系统演变的概率特征，进而有效抓住气候系统的物理不确定性。
这些技术突破使得该模型对降水的全球预测能力显著提升，尤其在我国长江中下游地区等热带外地区更为显著。

MJO 是一种周期性的大气环流模式，其影响范围从热带到中高纬度地区。预测 MJO 可以帮助气象学家和气候学家更准确地理解和预测未来数周到数月内的降水模式、风暴活动、温度变化，以及干旱和洪涝等极端天气事件的发生。
「伏羲」次季节气候预测大模型有效提升了对 MJO 的预测技巧，将 MJO 的预测技巧达到了 36 天，大幅超过了 ECMWF 的 S2S 模式的 30 天时长。

此外，「伏羲」次季节气候预测大模型还可以通过构建显著图 (Saliency map) 识别导致极端事件发生的潜在信息，这一能力在预测 2022 年巴基斯坦洪水期间的极端降雨方面得到了验证。
具体过程为，首先定义一个损失函数，例如下图绿色方框标出的巴基斯坦平均降水异常百分率，保持模型参数固定，然后通过反向传播求解梯度最终输出输入图像像素的梯度，来反映输入气象要素对于巴基斯坦降水异常百分率的正相关和负相关作用。
凭借「伏羲」次季节气候预测大模型强大的预测能力和前兆信号识别能力，可以为应对极端天气事件提供有效的工具和策略。

展望

以往，全球仅有少数国家能够研发并实时运行传统数值预报模式，其研发和运行需要大量人力和计算资源，且依赖超级计算机上成千上万的 CPU。
如今，伏羲气象大模型等基于人工智能的模型在训练完成后运行速度更快，计算资源需求更少，为发展中国家提供了更可承受的选项。
人工智能在气候变化风险管理领域也拥有广阔的发展空间。它能够改变气候科学的研究范式，突破传统模式的局限性，实现更精细的空间分辨率和更长时间尺度的精准气候风险预报。此技术将广泛应用于极端气候预测、交通运输、保险、新能源、期货交易、城市规划等多个产业领域。
目前，「伏羲」次季节气候预测大模型仍有提升空间，例如其空间分辨率为 1.5 度，与 ECMWF 次季节模式的 36 公里的空间分辨率相比仍相对粗糙，目前预报的是日均气温、缺少日最高温度和日最低温度等。
此外，「伏羲」次季节大模型还在探索把最高气压层从当前的 50hPa（百帕）提升到 1hPa 甚至是临近空间，赋能更多应用场景。

作者简介

上智院研究员陈磊，复旦大学人工智能创新与产业研究院博士后仲晓辉，以及中国气象局气候研究开放实验室吴捷副主任为论文共同第一作者。上智院院长、复旦大学浩清特聘教授漆远，上智院科研副院长、复旦大学人工智能创新与产业研究院研究员李昊，以及中国气象局气倛研究开放实验室研究员陆波为论文的共同通讯作者。
全体作者：Lei Chen, Xiaohui Zhong, Hao Li#, Jie Wu, Bo Lu#, Deliang Chen, Shang-Ping Xie, Libo Wu, Qingchen Chao, Chensen Lin, Zixin Hu & Yuan Qi#（标#的为通讯作者）

论文链接：
https://www.nature.com/articles/s41467-024-50714-1

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

对了，灵犀的售价是零元，开源大

波士顿动力技术揭秘：后空翻、俯卧撑与翻车，6年经验、教训总结

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

Deits 展示了他们遥控机器人进行操作的例子。在遥控过程中，他们获取操作者手部的动作，并将这些动作转换成 MPC 的参考轨迹。由于无法预知操作者将来想要做什么，他们必须采取

。

论文链接：
https://www.nature.com/articles/s41467-024-50714-1

链接

分类

最新文章

归档

标签

订阅更新

对了，灵犀的售价是零元，开源大

波士顿动力技术揭秘：后空翻、俯卧撑与翻车，6年经验、教训总结

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

Deits 展示了他们遥控机器人进行操作的例子。在遥控过程中，他们获取操作者手部的动作，并将这些动作转换成 MPC 的参考轨迹。由于无法预知操作者将来想要做什么，他们必须采取

。

论文链接：https://www.nature.com/articles/s41467-024-50714-1

链接

分类

最新文章

归档

标签

订阅更新

论文链接：
https://www.nature.com/articles/s41467-024-50714-1