GPTNB · AI资讯与技术分享站

2025-04-13发表2025-04-14更新 ByteAILab 6 分钟读完 (大约959个字)

状态增强其作为AI基础设施解决方案领导者的地位
ePlus公司（NASDAQ NGS: PLUS – 新闻）今天宣布已获得NVIDIA DGX SuperPOD专业合作伙伴资格。{ width=60% }

将这一资质加入ePlus的AI专业知识组合，验证了其提供全面NVIDIA DGX SuperPOD服务的能力，确保AI基础设施为企业AI工作负载的设计、部署和优化做好准备。
作为NVIDIA合作伙伴网络（NPN）的精英合作伙伴及DGX认可的托管服务合作伙伴，展示了ePlus成功提供专业知识的能力，通过其庞大的资源团队为客户提供NVIDIA DGX SuperPOD解决方案，包括：

设计与架构 – 为AI训练、推理和研究设计和部署NVIDIA DGX SuperPOD配置
部署与网络 – 集成NVIDIA DGX系统、NVIDIA Quantum InfiniBand网络和高速存储
AI软件与优化 – 实施NVIDIA AI企业版、NVIDIA NeMo和NVIDIA Base Command，确保卓越性能、可扩展性和操作效率
高级支持服务 – 提供监控、运营支持和AI工作负载的持续优化

“AI在企业中的快速崛起使许多组织在没有必要的基础设施、资源或可扩展性的情况下争相采用这项技术，”ePlus首席运营官Darren Raiguel说。“随着ePlus努力帮助我们的客户为成功定位，我们已经提升了我们的专业知识，通过获得NVIDIA DGX SuperPOD专业合作伙伴资格脱颖而出，这是我们承诺的明证。我们自豪地引导客户成功采用AI，并提供可扩展、优化和可靠的解决方案，以推动实际结果。”
“AI正在改变各个行业，企业正在寻找值得信赖的供应商，来帮助他们构建可扩展的高性能基础设施，以处理这些复杂的工作负载，”NVIDIA美洲合作伙伴组织副总裁Craig Weinstein说。“通过获得NVIDIA DGX SuperPOD专业合作伙伴资格，ePlus带来了经过验证的专业知识和端到端解决方案，帮助组织加速其以AI为驱动的创新。”
NVIDIA DGX SuperPOD是一个可扩展的高性能AI基础设施平台，旨在应对企业AI和高性能计算的挑战。集成NVIDIA DGX系统、NVIDIA Quantum InfiniBand网络解决方案和AI软件，帮助消除瓶颈、加速工作负载并简化部署。
通过其AI Ignite产品组合，ePlus提供了一套全面的AI专注解决方案，包括研讨会和评估、旅程支持、优化基础设施和高级服务。客户还可以探索ePlus AI体验中心或利用最近推出的ePlus安全GenAI加速器，这是一个受指导和托管的概念验证产品，帮助组织探索和优化想法，通过指标发现关键见解，并以速度和安全性自信地测试GenAI用例。
有关AI Ignite的更多信息，请访问：eplus.com/solutions/ai。有关ePlus安全GenAI加速器的更多信息，请访问：https://discover.eplus.com/ai-ignite/eplus-secure-genai-accelerator/。
有关ePlus获得NVIDIA DGX SuperPOD专业合作伙伴资格状态的更多信息，以及NVIDIA DGX SuperPOD技术的其他信息，请访问eplus.com/partners/showcase-partners/nvidia。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-13发表2025-04-14更新 ByteAILab 5 分钟读完 (大约767个字)

Seeq宣布推出Seeq for CONNECT

Seeq与AVEVA的合作伙伴关系延续，推出与AVEVA工业CONNECT平台无缝集成的Seeq for CONNECT
Seeq，一家全球领先的工业分析、人工智能和企业监控公司，宣布推出其最新的软件产品Seeq for CONNECT，该产品与AVEVA的工业智能平台CONNECT 实现了无缝集成。{ width=60% }

此次发布标志着Seeq和AVEVA的重要里程碑，强调了两家公司对协同创新的承诺，以及针对过程制造行业独特市场需求的专业软件解决方案。
Seeq for CONNECT使操作领域的主题专家能够快速访问集中存储库中的集成数据，加速洞察和业务价值的实现。CONNECT用户可以立即受益于Seeq提供的先进分析能力，确保在工业分析和人工智能工作负载中获得增强的体验。Seeq首席执行官Lisa Graham博士表示：“我们很高兴推出专门为CONNECT设计的产品，这反映了我们对创新和以客户为中心的解决方案的承诺。通过与AVEVA的CONNECT平台合作，超越传统的PI集成；Seeq for CONNECT的用户将能够更快地开发有意义的洞察，从而提高生产力和加快投资回报率，突显出两种技术之间强大的集成。”
AVEVA与Seeq的最佳数据管理服务、工业分析和人工智能的结合，为数据驱动的创新提供了新的机会，包括沿生态系统价值链的数据交换、简化的研发协作和排放数据透明化。此外，借助CONNECT数据服务，能够安全地与值得信赖的生态系统合作伙伴共享数据和Seeq洞察，组织可以在整个价值链中实现超越企业边界的洞察。
AVEVA副总裁Bry Dillon表示：“我们与Seeq的长期合作关系继续为我们的客户提供创新解决方案，让他们拥有适合特定需求的分析选择。通过CONNECT工业智能平台作为互联数据生态系统的中央集成中心，Seeq的新产品使用户能够快速访问操作数据，加速洞察和业务价值的实现。”
Seeq将在2025年4月7日至10日在旧金山举办的AVEVA World大会上，作为银级赞助商展示客户成功案例和最新的生成式人工智能、工业分析和企业监控创新，欢迎您在创新区的5号展位参观。欲了解有关Seeq和AVEVA合作关系的更多信息，请访问seeq.com。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-13发表2025-04-14更新 ByteAILab 3 分钟读完 (大约464个字)

Premier Cloud被任命为Google Agentspace的启动合作伙伴

Premier Cloud, 一家领先的Google Cloud Premier Partner，荣幸地宣布其被选为Google Agentspace的启动合作伙伴。{ width=60% }

Google Agentspace是一个开创性的AI平台，旨在重新定义各类组织的企业搜索和生产力。

凭借在Google Cloud和人工智能方面的深厚专业知识，Premier Cloud独特地处于有利位置，能够帮助企业充分利用Agentspace的潜力。作为此次启动的一部分，Premier Cloud将与客户紧密合作，实施该平台并开发定制化的AI代理，以满足其运营目标。这建立在公司在推动各行业AI应用方面的丰富经验之上，包括通过简化客户支持系统以减少响应时间，开发智能数据检索解决方案以改善知识管理，以及自动化工作流程以提高运营效率等举措。

Google Agentspace引入了企业AI的新标准，能够以Google级别的智能无缝地搜索内部数据源。它结合了先进的安全性、隐私和合规性，以及集成了尖端工具如Gemini、NotebookLM、Imagen和Veo的统一生产力平台。这种整体方法简化了复杂的工作流程，同时确保组织保持敏捷、安全和数据驱动。

要了解更多关于Premier Cloud的AI和ML产品的信息，包括Google Agentspace如何改变组织，请访问 premiercloud.com/ai-and-ml，或通过直接联系请求一个小时的Agentspace用例发现会议。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-13发表2025-04-14更新 ByteAILab 3 分钟读完 (大约476个字)

Premier Cloud 被指定为 Google Agentspace 的启动合作伙伴

Premier Cloud, 作为一家领先的 Google Cloud Premier 合作伙伴，自豪地宣布其被选为 Google Agentspace 的启动合作伙伴。{ width=60% }

Google Agentspace 是 Google 开创性的 AI 平台，旨在重新定义各类组织的企业搜索和生产力。

凭借在 Google Cloud 和人工智能领域的深厚专业知识，Premier Cloud 在帮助企业充分利用 Agentspace 的潜力方面处于独特的有利地位。作为此次启动的一部分，Premier Cloud 将与客户密切合作，实施该平台并开发针对其运营目标定制的 AI 代理。这建立在公司在推动各行业 AI 采纳方面的丰富经验之上，包括简化客户支持系统以减少响应时间、开发智能数据检索解决方案以改善知识管理，以及自动化工作流程以提高运营效率等举措。

Google Agentspace 在企业 AI 领域引入了新标准，能够实现跨内部数据源的无缝搜索，提供 Google 级别的智能。它结合了先进的安全性、隐私和合规性，并与如 Gemini、NotebookLM、Imagen 和 Veo 等尖端工具集成，形成统一的生产力平台。这种整体方法简化了复杂的工作流程，同时确保组织保持灵活、安全和数据驱动。

欲了解更多关于 Premier Cloud 的 AI 和 ML 解决方案的信息，包括 Google Agentspace 如何转变一个组织，请访问 premiercloud.com/ai-and-ml，或通过直接联系请求一小时的 Agentspace 用例发现会话。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-13发表2025-04-14更新 ByteAILab 7 分钟读完 (大约1021个字)

Hypertec Cloud收购5C数据中心成立5C集团

在一个标志性事件中，反映出人工智能与数据中心基础设施的快速融合，领先的人工智能云平台Hypertec Cloud收购了5C数据中心，这是一家拥有超过2吉瓦（GW）产能的顶级托管和数据中心提供商。{ width=60% }

此次战略收购标志着Hypertec Cloud从其母公司Hypertec Group的分拆，以及5C集团的成立——一个新独立实体，专注于构建下一代大规模AI基础设施。

乔纳森·阿赫杜特被任命为新成立的5C集团的首席执行官，该集团结合了Hypertec Cloud的高性能云计算能力与5C数据中心在美国的广泛足迹。两者结合，形成了北美地区最大、最灵活的AI数字基础设施提供商之一，旨在构建将推动行业未来的下一代AI工厂。

此次收购驱动的三个关键战略目标包括：

提供综合AI数字基础设施解决方案：通过结合Hypertec Cloud和5C数据中心，5C集团将提供集成的数据中心和AI基础设施，旨在满足AI前沿实验室、AI原生企业和大型企业客户的需求。
加速受限市场中的部署速度：随着AI部署需求的增长，而大规模数据中心的产能仍然有限，结合的平台将使超大规模AI集群的上市时间更快。集成的计算和数据中心设计将显著减少部署时间，并使基础设施的同步部署成为可能。
驱动性能和成本优化：借助Hypertec在硬件和基础设施设计、白手套支持和可持续工程方面的数十年经验，新的实体将采用先进的冷却技术——如直接到芯片的液体冷却和浸没冷却——以支持更高的机架密度和节能。

“今天AI基础设施面临的最大挑战是协调——AI计算需求与物理托管环境之间的对接。我们通过将双方整合在一起解决了这一问题，”5C集团首席执行官乔纳森·阿赫杜特说道。“通过这次收购，我们将优化性能的AI计算基础设施的深厚专业知识与大型、世界级数据中心校园的设计与运营结合起来。这样的组合使我们能够加速部署、推动密度进一步提升，并为最大的、最苛刻的AI用户提供无与伦比的效率，持续多年。”

“Hypertec Cloud的分拆标志着Hypertec Group的一个重大时刻，”Hypertec Group首席执行官西蒙·阿赫杜特补充道。通过收购5C数据中心，新成立的5C集团处于一个良好位置，能够提供设计用于未来行业规模、速度和复杂性的AI数字基础设施。作为合作伙伴，我们将继续推动计算、存储和数据中心技术的进步，为未来的AI创新提供真实价值。”

5C集团在美国的AI优化数据中心校园组合包括超过600兆瓦（MW）的产能——是其总计2吉瓦（GW）中的一部分——将在未来6到18个月内可供新老AI数据中心托管和计算客户部署。该平台专为满足AI工作负载的极端密度、功率和冷却需求而量身定制，为未来AI创新奠定了基础。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-13发表2025-04-14更新 ByteAILab 4 分钟读完 (大约527个字)

Vast.ai获得SOC 2 Type I认证，安全里程碑

云计算市场加强安全态势
Vast.ai，领先的云GPU平台，专注于人工智能和机器学习，今日宣布成功完成SOC 2 Type I审计，展示了公司在保持健全的安全协议方面的承诺，满足数据安全、可用性、处理完整性、机密性和隐私的SOC 2合规要求。{ width=60% }

SOC 2 Type I认证是对Vast.ai在全球提供可靠计算服务超过六年的安全基础设施的重要验证。该认证确认公司已经实施了适当的控制措施，以保护客户数据并维护系统完整性。
“这一认证里程碑反映了我们对安全的坚定承诺，同时我们将继续扩展我们的平台，”Vast.ai首席运营官Travis Cannell表示。“对于依赖我们的基础设施进行关键业务运营的客户来说，这为他们的数据提供了根据行业标准保护的额外保障。”
SOC 2合规性由美国注册会计师协会（AICPA）制定，评估组织对特定信任标准的控制，包括安全性、可用性、处理完整性和数据机密性。Type I报告提供了对这些控制措施在特定时刻的快照评估。
作为其持续致力于合规和安全的一部分，Vast.ai已经在准备更严格的SOC 2 Type II审计，该审计将评估这些控制措施在较长时间内的有效性。公司还在追求其他合规认证，以更好地服务于具有严格监管要求的组织。
有兴趣获取Vast.ai SOC 2报告的客户可以通过compliance@vast.ai联系，或通过公司网站安排咨询。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-13发表2025-04-14更新 ByteAILab 3 分钟读完 (大约522个字)

Aquila Clouds任命安杰洛·普鲁斯基诺为新首席技术官

Aquila Clouds，一家领先的云和人工智能管理解决方案提供商，欣然宣布任命安杰洛·普鲁斯基诺（Angelo Pruscino）为新任首席技术官。{ width=60% }

作为Oracle RAC（真实应用集群）的创造者，安杰洛带来了丰富的知识和在人工智能、数据管理和优化方面的领导能力。曾在Oracle任职期间，他管理了包括Oracle集群文件系统（OCFS）、自动存储管理（ASM）和Oracle数据库设备（ODA）在内的广泛产品组合，并为Oracle创造了每年数十亿美元的收入。

Aquila Clouds的联合创始人兼首席执行官苏希特·考拉（Suchit Kaura）分享了他的热情，表示：“我们期待安杰洛带领我们在云和人工智能财务管理方面达到新的高度。我们利用人工智能推动FinOps并创造应用感知解决方案的目标，在安杰洛的领导下将显著提升。”苏希特还提到，他和安杰洛多年前共同创建了Oracle RAC，并将其发展为一个数十亿美元的业务。

安杰洛·普鲁斯基诺强调：“Aquila Clouds的愿景在FinOps领域与其他竞争对手有着显著的区别。我相信，我可以帮助公司实现与我在Oracle时所带来的爆炸性增长相同的成功，管理多十亿美元的产品组合。”

安杰洛的首要任务是与Aquila Clouds管理团队合作，定义用于现代和AI工作负载的产品线，如Kubernetes、Databricks、LLM和Agentic AI，旨在全球范围内占据云和人工智能财务管理解决方案的首位。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-13发表2025-04-14更新 ByteAILab 33 分钟读完 (大约4879个字)

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

人和智能体共享奖励参数，这才是强化学习正确的方向？

大模型驱动的 AI 助手又升级了。本周五，科技圈正在围观一个陪你一起玩《我的世界》的 AI。

它话不多说，就是埋头干活。一起盖房子的时候，你不需要给 AI 一张蓝图，或是不断告诉它该怎么做，你只需要盖自己的，它就能一边观察一边配合，并观察你的意图随时改变计划。

现在，AI 可以不断主动学习、纠正错误，展现出了此前大模型智能体无法实现的一系列能力。

看起来，新版的 AI 在与我们共同游戏时不再是催一下动一下了，它已经是一个有「主观能动性」的玩家，就像个和你共同玩过几百局游戏的老友一样。

这项技术名为 AssistanceZero，出自加州大学伯克利分校（UC Berkeley）。值得注意的是，它并未接受大模型常见的 RLHF 训练。相反，它是由「assistance games」强化学习驱动的，研究人员认为，这是构建 AI 助手的更好途径。

AI 在这个框架中并不会被动地接受人类反馈，而是寻求主动与人合作，通过推断目标而不断优化行为，这避免了 RLHF 中 AI 可能会出现的作弊行为，让 AI 可以采取更加协作的策略。

paper

论文：AssistanceZero: Scalably Solving Assistance Games
论文链接：https://arxiv.org/abs/2504.07091
项目链接：https://github.com/cassidylaidlaw/minecraft-building-assistance-game

目标：把 RLHF 革命掉

最近，AI 领域里很多研究都在尝试改进或替代 RLHF。

我们知道，预训练、监督微调（SFT）以及基于人类反馈的强化学习（RLHF）或其变体已经成为训练通用 AI 助手的主要范式。RLHF 涉及对预训练的基础模型进行微调，使其根据人类标注者对诸如「帮助性」和「无害性」等标准的偏好来采取行动（即生成响应）。然而，通过 RLHF 训练的助手存在一些缺点：

标注者可能会被误导，对无帮助的行动给予积极的反馈，从而激励助手产生欺骗性或操纵性的行为。
RLHF 并不鼓励模型保持对用户目标的不确定性，生成高评分单轮响应的目标使得助手不愿提出澄清问题或对其响应进行保留，像 GitHub Copilot 这样的非聊天型人工智能助手也存在类似的问题，当编码任务不明确时，Copilot 无法要求澄清。
像 Copilot 这样的自动完成助手也并未充分考虑助手行为的协作性 ——AI 助手的行动应补充用户的行为，而不是简单地预测或取代它们。

ChatGPT 倾向于用一个回复来解决你的所有问题。如果你要求 ChatGPT「清理一些磁盘空间」，它会给你一个程序运行，而不会询问哪些文件可以删除。

训练 AI 助手的另一种范式是 Assistance Games。它通过明确考虑协助的互动性和用户目标的不确定性，避免了 RLHF 的上述缺点。

具体来说，Assistance Games 是一个双人游戏，助手和用户在一个共享环境中采取行动。两个 Agent 共享一个奖励函数，但关键是助手最初对这个奖励函数是不确定的，assistance games 消除了欺骗的动机，因为助手的表现取决于真实的潜在奖励函数，而不是人类的反馈。此外，assistance games 还激励助手与用户互动以解决其不确定性。最后，解决 assistance games 的结果是助手的行动能够补充用户的行动，以实现最优的联合性能。而且，研究人员还设想了一种将 assistance games 应用于大语言模型后训练的方法，以替代 RLHF。

尽管 Assistance Games 具有诸多优势，但它们为何仍然是一个研究较少的训练 AI 助手的方法呢？Assistance Games 过去仅被用于解决非常简单的问题，但在复杂环境中却被广泛忽视，主要是由于以下看似不可克服的挑战：

计算上的难题：AI 助手需要在奖励函数的不确定性下保持决策能力，而这被认为是计算上不可行。
人类模型的准确性：与 RLHF 不同，解决 Assistance Games 需要一个能够准确预测人类对 AI 行动反应的模型。如果 AI 无法理解人类的沟通策略，可能会在与真实人类互动时表现不佳。过去关于 Assistance Games 的研究使用了基于强化学习或规划的人类模型，但这些模型可能与真实人类行为有显著差异。

该研究团队成功应对了这些挑战，并证明了复杂的 Assistance Games 是可以被有效解决的。为此，他们引入了一个新基准测试 —— Minecraft Building Assistance Game (MBAG)。

在这个测试中，AI 助手需要在《我的世界》游戏环境中帮助人类建造目标结构，但助手对目标一无所知。MBAG 的挑战在于目标结构的分布非常复杂，可能的目标数量超过 10^400 个，远远超过以往研究中的数量，同时状态和动作空间也更大。

研究人员通过 MBAG 研究了深度强化学习算法是否能够解决 Assistance Games。研究发现，PPO（一种流行的无模型强化学习算法）可以轻松地在 MBAG 中建造已知目标房屋，但在目标结构未知时表现不佳。他们认为这是因为 PPO 需要同时从高方差的反馈中学习如何预测目标并根据预测采取行动，这增加了其难度。

因此，为更好地解决 Assistance Games 问题，他们提出了一种名为 AssistanceZero 的新算法，该算法通过扩展 AlphaZero 来分离预测和行动。与 AlphaZero 类似，AssistanceZero 结合了蒙特卡洛树搜索（MCTS）和神经网络来选择行动。AssistanceZero 采用了一种具有额外输出层的神经网络，这些输出层用于预测奖励和人类行为，MCTS 利用这些预测在不确定性下有效规划。

AssistanceZero 的效果远胜于 PPO。

此外，他们还通过探索如何开发出能产生有效助手的人类模型来应对解决 Assistance Games 的第二个挑战。有趣的是，他们发现 MBAG 中最佳的人类模型也结合了 MCTS 和模仿学习，这种方法被称为 piKL。

研究人员将通过 Assistance Games 训练的策略与其他方法（如类似预训练和 SFT 的流程）训练的策略进行了比较。

在 MBAG 中，他们发现通过 AssistanceZero 训练的助手在最佳人类模型和真实人类方面都大大优于通过预训练 + SFT 或其他方法训练的助手。AssistanceZero 助手展现了许多有用的自发行为，例如根据修正进行适应。

表3

图2

总的来说，结果表明，Assistance Games 是可扩展的，并且可以成为在具有挑战性的环境中训练有用助手的优越框架。

什么是MBAG

在设计 MBAG 时，研究人员设定了几个目标，以使其成为一个更广泛研究协助游戏的有用环境。

其设计目标包括复杂的奖励参数分布、多样的助手帮助方式，以及适合学术实验室训练 RL agent 的环境。

MBAG 是由一个三维方块网格、网格内的玩家位置以及玩家的物品栏组成。网格中的每个位置可以是十种方块类型之一，包括空气，实验中使用了一个 11×10×10 的网格。

动作空间包括无操作、移动、放置方块和破坏方块。放置和破坏动作由位置参数化，放置动作还由方块类型参数化，这意味着在 11×10×10 的环境中，有超过 20000 种可能的动作。

玩家只能到达有限的距离来破坏或放置方块，而且在当前状态下，许多动作是无效的（例如，不可能破坏空气方块）。因此，通常只有一小部分动作是有效的。

提出 AssistanceZero 新算法

研究人员使用 MBAG 来研究如何解决协助游戏中的复杂序贯决策问题，并尝试了 PPO（一种无模型强化学习算法）训练助手策略。

然而，他们发现 PPO 在 MBAG 中表现不佳。使用循环 PPO 训练的助手根本无法帮助人类模型，而非循环 PPO 的表现略优于循环 PPO。他们认为，这是因为高方差的奖励信号使得 PPO 难以有效学习。

表1

此外，由于助手对目标结构不确定，即使根据观察历史，采取一个在期望中有帮助的动作有时也会导致负面奖励。任务的序贯性和长期性加剧了这些问题，进一步增加了 PPO 试图优化的奖励信号的噪声。

在训练初期，PPO 接收到的最明显的信号是放置和破坏动作往往是错误的，导致负面奖励。因此，助手策略收敛到几乎不建造任何东西。为了减少奖励信号中的噪声，并激励助手更多地采取行动，他们探索了仅根据助手自身动作的奖励来训练助手，还尝试添加一个辅助损失项，以鼓励放置正确的方块。

这些方法略微提高了助手 - 人类模型组合完成的目标百分比，同时减少了人类模型的动作数量或保持其不变。然而，它们仍然只是勉强有帮助。

为了解决 PPO 的局限性，他们设计了 AssistanceZero 来分离目标预测和行动选择，通过学习一个目标预测器，然后将其用于规划。

具体来说，AssistanceZero 是 AlphaZero 的扩展，AlphaZero 是一种在围棋和国际象棋等复杂竞争性游戏中取得超人表现的深度强化学习算法。

和 AlphaZero 一样，AssistanceZero 使用蒙特卡洛树搜索（MCTS）的一个变体来选择动作。MCTS 通过模拟从当前状态采取不同动作序列的结果来构建搜索树。然而，它需要知道奖励和动作导致的下一个状态，这两者在协助 POMDP 中都是未知的。

虽然作者已经证明 AssistanceZero 可以训练出与固定人类模型配合良好的助手，但如何先获得一个好的人类模型仍然不清楚。理想情况下，助手策略不仅应该与训练时使用的人类模型表现良好，还应该与真实人类配合时表现良好。他们探索了人类 AI 交互文献中开发 MBAG 人类模型的几种方法，包括基于奖励和基于数据的模型。

基于奖励的人类模型假设人类选择动作近似于最优，以最大化其奖励函数。他们使用深度强化学习训练了两个基于奖励的模型来独自建造目标结构。

对于其中一个模型，他们使用了带有熵系数的 PPO，近似于 Boltzmann 理性，这是一种常见的人类行为的噪声最优模型；另一个模型则使用了 AlphaZero 训练。

接下来，他们使用行为克隆（BC）训练了一系列基于数据的人类模型，行为克隆使用监督学习从状态预测动作。对于训练数据集，他们记录了五个受试者在 MBAG 中建造房屋的 18 个片段。

在一半的片段中人类独自建造，另一半则由一位有经验的《我的世界》玩家作为助手。他们将目标结构显示为受试者的一个半透明蓝图，覆盖在正常的游戏上，同时对人类助手隐藏目标结构。使用 BC，他们训练了三种人类模型：一种基于受试者独自游戏的数据（BC-alone），一种基于与助手一起游戏的子集（BC-with-assistant），以及一种基于整个数据集（BC-combined）。

虽然研究人员对 Assistance Games 的正式定义假设人类模型是马尔可夫的，但他们发现基于循环、历史的 BC 模型比马尔可夫策略更能预测人类动作。除了捕捉个别非马尔可夫行为外，循环人类模型还可以隐式地模拟多种人类策略的混合。这使得一个单一的循环模型有可能捕捉到真实人类技能水平的差异。

有望提升大模型后训练

在该研究中，研究人员实现了通过 Assistance Games 在 MBAG 中训练助手的完整方案，然后使用 AssistanceZero 求解生成的辅助 POMDP。如果将 Assistance Games 与其他 AI 助手训练范式进行比较会如何？

具体而言，作者开发了用于训练 MBAG 助手的流程，类似于 GitHub Copilot/OpenAI Codex 和 RLHF 的监督微调 (SFT) 阶段所使用的流程，这也是当前训练 AI 助手的两个主要范式。研究人员将生成的策略与使用 AssistanceZero 训练的助手进行比较。

RLHF 和 Codex 都以预训练语言模型为起点，这使得它们能够学习有用的表征并预测人类行为。在 MBAG 中，作者生成了一个预训练语料库，使用结合 BC 的人类模型生成 1 万个回合，该回合会从训练集 Dtrain 中随机选择目标结构进行构建。然后从观测值中删除目标结构信息，并在生成的数据集上训练一个循环神经网络（即预训练模型）。与语言或代码模型类似，该模型可以在没有目标信息的情况下预测人类行为，并学习到了能够理解人类目标结构的表征。

通过在低热状态下从预训练模型中采样动作，我们就获得了一个类似于 GitHub Copilot 的助手：当它对人类将采取的动作高度自信时，它会构建目标结构，缺乏自信时则不会采取行动。

进一步使用 SFT 训练预训练模型，其中使用人类专家作为助手的数据，对预训练模型进行微调以模仿人类助手，类似于在 RLHF 的 SFT 阶段训练 LLM 模仿人类书写的助手回复的方式。研究使用网格搜索对 540 个超参数组合进行搜索，以找到适合 SFT 策略的学习率、训练周期、数据增强和 dropout 的最佳组合。

表 3 比较了预训练模型和 SFT 模型以及基于 Assistance Games 的策略。作者使用结合 piKL 的人类模型对每个模型进行了超过 1000 轮评估，并报告了与表 1 相同的指标。预训练策略和 SFT 策略均略微减少了实现相似目标完成率所需的人类操作数量（约 4-5 个）。SFT 策略平均构建了约 3% 的目标结构。相比之下，使用 AssistanceZero 训练的策略将人类操作数量减少了约 65 个，同时提高了目标完成率；它构建了约 26% 的目标。

作者还比较了 AI 助手与真人的表现。比较四种条件下的人类玩家：独自一人（无助手）、使用 SFT 策略、使用 AssistanceZero 训练的助手以及与专家人类助手一起进行游戏，每个参与者连续五次建造同一栋房屋。第一次用于练习，帮助受试者熟悉《我的世界》的操作和目标结构，随后受试者在四种条件下以随机顺序建造房屋。

在每次互动结束后，受试者对其整体实用性进行评分，结果显示经过 AssistanceZero 训练的助手表现明显优于 SFT 助手，并接近人类基准。其中，参与者对 AssistanceZero 能够从纠正中有效学习的能力印象深刻。例如，在人类破坏一两个错误方块后，AssistantZero 也能破坏多个错误方块，相比之下 SFT 助手则完全没有帮助。

伯克利的研究人员希望，基于 Assistance Games 的工作最终可以帮助大语言模型实现解决复杂问题的能力。

参考内容：
https://x.com/cassidy_laidlaw/status/1910708807258534008

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-13发表2025-04-14更新 ByteAILab 16 分钟读完 (大约2447个字)

Science子刊 | 基于公平贝叶斯扰动，首个面向医学图像生成公平性的方法FairDiffusion来了

编辑 | ScienceAI

随着人工智能在医学影像领域的广泛应用，文本到图像扩散模型（如 Stable Diffusion）正逐步渗透到医学数据合成、医学教育和数据共享中。然而，尽管生成质量整体较高，模型在不同人口统计属性（性别、种族、族裔）上却存在明显差异。

例如，实验表明，Stable Diffusion 在生成女性、白人及非西班牙裔样本时图像细节和临床特征更为突出，而在男性、亚洲人及西班牙裔样本上则表现欠佳。这种不均衡现象直接影响了后续临床特征检测、病情预测及诊断准确性，进而可能加剧医疗资源分配的不公平问题。

最近，来自哈佛大学和纽约大学等机构的研究者首次探讨了医学影像生成中的公平性问题，研究论文以《FairDiffusion: Enhancing Equity in Latent Diffusion Models via Fair Bayesian Perturbation》为题发表在《Science Advances》上。

论文链接：https://www.science.org/doi/full/10.1126/sciadv.ads4593
数据集和代码链接：https://github.com/Harvard-Ophthalmology-AI-Lab/FairDiffusion

研究团队认为医学影像生成存在以下挑战：

噪声建模与分布不匹配问题
扩散模型的噪声去除假设数据服从统一分布，但真实医学数据在不同群体间存在分布偏移，导致单一全局损失难以平衡各群体的生成质量。
公平性指标缺乏
传统指标（如 FID、IS）只关注总体质量，无法揭示不同群体间的性能差异。因此，该研究提出了 ES-FID、ES-IS 和公平 AUC（ES-AUC）等新指标，用于量化群体间的公平性。
公平调控机制设计难题
如何在保证整体生成质量的同时，自适应地调节各群体的损失权重，是当前技术的一大难点。为此，该研究引入了公平贝叶斯扰动机制，通过针对不同群体施加自适应高斯扰动，缩小群体间的误差差距。

数据集与公平性问题探讨

公平性研究需要高质量且具备多维敏感属性标注的数据。为此，该研究构建了 FairGenMed 数据集，其主要特点如下：

数据来源与采集
FairGenMed 基于真实临床 SLO 眼底图像，数据采自一家大型学术眼科医院，覆盖 2015 至 2022 年期间的患者数据，并附带详细的临床指标（如青光眼风险、杯盘比、视野缺损程度等）。
多维敏感属性标注
数据集中详细标注了性别、种族、族裔、首选语言、婚姻状况等敏感属性，允许针对不同群体单独分析，揭示模型在弱势群体上存在的性能不足问题。
公平性问题的实际背景
在医学影像领域，不同群体由于生理差异和疾病风险的不同，在病理表现上可能存在细微区别。如果生成模型不能平衡学习这些差异，可能导致弱势群体的影像质量不达标，增加误诊风险，进而引发伦理和社会公平问题。
数据集意义
FairGenMed 不仅为生成模型提供了充足且多样化的训练样本，同时也为公平性指标（如 ES-FID、ES-IS、ES-AUC）的设计提供了坚实的数据基础，有助于推动医学生成模型在公平性与实用性上的双重提升。

方法与技术细节

在上述背景与数据集支持下，该研究提出了 FairDiffusion 方法，其核心技术细节包括：
基础扩散模型损失：标准 LDM 的去噪损失定义为：

公平贝叶斯扰动机制：为自适应调节各群体损失贡献，该研究在损失中引入扰动因子：

群体间损失差异量化为衡量批次内各群体误差的不均衡，该研究定义了平均损失差异这一指标用于指导贝叶斯优化过程中扰动参数的更新。

贝叶斯优化与参数更新：该研究将扰动参数的最优求解转化为贝叶斯优化问题：

采用上置信界（UCB）作为采集函数，并用以下规则更新参数：

这一过程实现了探索与利用的平衡，逐步缩小群体间的性能差异。

公平评价指标：除了传统的 FID 和 IS 指标，该研究设计了公平扩展指标：

以及公平 AUC（ES-AUC）指标，用于评估生成图像与文本提示间的语义一致性。

结果

图像视觉效果对比
在新增的定性可视化图中，该研究展示了真实 SLO 眼底图像、Stable Diffusion 生成的图像与 FairDiffusion 生成图像的对比。可以明显看出，FairDiffusion 生成的图像不仅结构更为清晰，而且在纹理和细节上更接近真实图像，尤其是在原本容易出现模糊和细节缺失的弱势群体样本上，优势更为明显。

整体生成性能提升
该研究在 SLO 眼底图像上对比了 FairDiffusion 与 Baseline 模型（例如 Stable Diffusion 和 Debiased Diffusion）的 FID 和 IS 指标。FairDiffusion 取得了显著更低的 FID 值和更高的 IS 值，证明了其在整体图像生成质量上的优势。此外，通过 ES-FID 和 ES-IS 指标，可以看到各敏感群体（性别、种族、族裔）之间的性能差距明显缩小。例如，在白人、亚洲人和黑人群体中，FairDiffusion 减少了最大误差差距（最大 - 最小 FID 值）的幅度，确保生成图像在各群体间更为一致。

非眼科数据集结果
在 HAM10000 皮肤病图像和 CheXpert 胸部 X 光影像上，该研究同样验证了 FairDiffusion 的有效性。对于 HAM10000 数据集，该图展示了 FairDiffusion 在不同年龄和性别组上的 ES-FID 和 ES-IS 指标均有大幅提升；而在 CheXpert 数据集中，无论是针对性别还是种族的细分指标，FairDiffusion 均实现了 FID 降低和 IS 提升的目标。这表明该研究的公平贝叶斯扰动机制在跨模态任务中均能稳定发挥作用，提升各群体的生成质量和公平性。

语义一致性与临床相关性
该研究还设计了分类任务，对生成图像与文本提示之间的语义相关性进行评估。通过公平 AUC（ES-AUC）指标，可以观察到 FairDiffusion 生成的图像与临床特征描述具有更高的一致性，特别是在青光眼和杯盘比的分类任务中，弱势群体的 AUC 值均有明显提升。这一结果进一步证明了方法在提升医学语义相关性方面的有效性。

总结与展望

本论文首次探讨了医学影像生成中的公平性问题，并提出了基于公平贝叶斯扰动的 FairDiffusion 方法，并构建了具备多维敏感属性标注的 FairGenMed 数据集。通过对比实验，该研究证明了该方法在整体图像质量和各群体间公平性（通过 ES-FID、ES-IS 和 ES-AUC 指标）的双重提升效果。未来，研究团队将进一步扩充数据集规模、丰富敏感属性维度，并探索更多应用场景下的公平生成策略，以推动医学生成模型在全球医疗影像领域实现更为普惠、公正的应用。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-12发表2025-04-14更新 ByteAILab 8 分钟读完 (大约1175个字)

法律辩护基金因DEI变更退出Meta民权顾问团

上周五，法律辩护基金（LDF）宣布，由于对Meta内容审核和多样性、公平性、包容性及可及性（DEIA）政策变更的担忧，它决定退出Meta的外部民权顾问团。

今年1月，Meta进行了系列大规模变更，包括结束其多样性、公平性和包容性（DEI）项目、取消事实检查员并改变内容审核政策。这些变动被一些人视为是与当时即将上任的特朗普政府的对接，从而影响了LDF的决定。该月，在Meta宣布这些变动后，LDF与其他民权组织组成的联盟一起，向Meta外部民权顾问团表达了不满。

“这些变化对自由表达造成了毁灭性影响，因为它们将使受保护群体的成员受到更多攻击、骚扰和伤害，驱使他们退出Meta的服务，削弱讨论内容，消除观点，压制异议和常被审查的声音，”这些公司在1月14日致Meta首席执行官马克·扎克伯格的信中写道。“Meta显然完全未考虑到其政策变更的寒蝉效应——结果将是更多的自我审查，而非更少。”

这些担忧仍然对于LDF至关重要。“我对Meta在2025年1月7日宣布的对其平台内容审核政策的无责任变更感到深感不安和失望，这对黑人社区的健康和安全构成了严重风险，并可能进一步破坏我们的共和国，”LDF副主任顾问托德·A·考克斯在4月11日的信中写道。“近十年来，国家有色人种协会法律辩护和教育基金会（LDF）投入了大量时间和资源，与Meta合作，作为一个非正式委员会就民权问题向公司提供建议。然而，Meta在未事先咨询或警告该小组的情况下，做出了这些内容审核政策的变更，许多变更与LDF及其合作伙伴的建议直接相冲突。因此，LDF无法在良心上继续参与Meta的民权顾问委员会。”

LDF还对Meta决定取消其DEI政策表示不满。在Meta实施1月份的这些政策之前，公司报告称其DEI倡议取得了成功：在美国黑人和西班牙裔员工的数量在预定目标前两年实现了翻倍。根据一份声明，LDF担心撤回DEI政策“可能加固在Meta的就业中的歧视性障碍，并进一步加剧黑人社区在使用Meta平台时的潜在伤害。”

在另外一封同样于4月11日发给Meta的信中，考克斯写道：“虽然Meta已经改变了其政策，但其在联邦民权法下的义务没有改变。1964年《民权法》第七条和其他民权法禁止职场歧视，包括不成比例的待遇、对政策的不公正影响以及恶劣的工作环境。特朗普政府对多样性、公平性、包容性和可及性程序的虚假攻击并未改变这些努力的合法性。如果Meta由于缺失多样性、公平性、包容性和可及性项目而未能履行其反歧视义务，则将面临更大的法律责任。”

考克斯在一份声明中表示：“Meta政策变更的严重影响不容小觑。”“我们的国家正处于一个危机时刻，”他说。“Meta的改变加剧了对我们社区健康和安全的风险。我们希望Meta重新考虑这些政策变更。至少，我们希望Meta评估社区注释系统是否有效减少用户与虚假内容的互动。我们还希望Meta公开报告其平台上的仇恨帖子，并公开披露政策变更对报告和删除的帖子数量的影响。为此，我们希望Meta能与各种收集数据的学者合作，并评估其对用户的影响。”

Meta未回应评论请求。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

要了解更多关于Premier Cloud的AI和ML产品的信息，包括Google Agentspace如何改变组织，请访问 premiercloud.com/ai-and-ml，或通过直接联系请求一个小时的Agentspace用例发现会议。

链接

分类

最新文章

归档

标签

订阅更新