GPTNB · AI资讯与技术分享站

2025-04-08发表2025-04-08更新 ByteAILab 26 分钟读完 (大约3940个字)

铰链物体的通用世界模型，超越扩散方法，入选CVPR 2025

基于当前观察，预测铰链物体的的运动，尤其是 part-level 级别的运动，是实现世界模型的关键一步。尽管现在基于 diffusion 的方法取得了很多进展，但是这些方法存在处理效率低，同时缺乏三维感知等问题，难以投入真实环境中使用。

清华大学联合北京大学提出了第一个基于重建模型的 part-level 运动的建模——PartRM。用户给定单张输入图像和对应的 drag ，PartRM 能生成观测物体未来状态的三维表征，使得生成数据能够真正服务于机器人操纵等任务。实验证明 PartRM 在生成结果上都取得了显著的提升。该研究已入选CVPR 2025。

论文题目：PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model
论文主页：https://partrm.c7w.tech/
论文链接：https://arxiv.org/abs/2503.19913
代码链接：https://github.com/GasaiYU/PartRM

研究动机

世界模型是一种基于当前观察和动作来预测未来状态的函数。该模型的研发使得计算机能够理解物理世界中的复杂规律，在机器人等领域得到了广泛应用。近期，对 part-level 的动态建模的兴趣日益增长，给定当前时刻的观察并给与用户给定的拖拽，预测下一时刻的铰链物体各个部件的运动受到越来越多的关注，这种类型的世界模型对于需要高精度的任务，例如机器人的操纵任务等，具有重要的意义。

然而，我们对这个充满前景的领域的调研表明，目前的前沿研究（如 Puppet-Master）通过对预训练的大规模视频扩散模型进行微调，以实现增加拖拽控制的功能。尽管这种方法有效地利用了预训练过程中学习到的丰富运动模式，但在实际应用中仍显不足。其中一个主要局限是它仅输出单视角视频作为表示，而模拟器需要三维表示来从多个视角渲染场景。此外，扩散去噪过程可能需要几分钟来模拟单个拖拽交互，这与为操作策略（Manipulation Policies）提供快速试错反馈的目标相悖。

因此，我们需要采用三维表征，为了实现从输入单视角图像的快速三维重建，我们利用基于三维高斯泼溅（3DGS）的大规模重建模型，这些模型能以前馈方式从输入图像预测三维高斯泼溅，使重建时间从传统优化方法所需的几分钟减少到仅需几秒钟。同时，通过将用户指定的拖拽信息加入到大规模三维重建网络中，我们实现了部件级别的动态建模。在这个问题中，我们认为联合建模运动和几何是至关重要的，因为部件级运动本质上与每个部件的几何特性相关联（例如，抽屉在打开时通常沿其法线方向滑动）。这种集成使我们能够实现更真实和可解释的部件级动态表示。

同时，由于我们是第一个做这个任务的，在这个任务上缺少相关的数据集，因此我们基于 PartNet- Mobility 构建了PartDrag-4D 数据集，并在这个数据集上建立了衡量对部件级别动态建模的基准（Benchmark），实验结果表明，我们的方法在定量和定性上都取得了最好的效果。

PartDrag-4D 数据集的构建

我们首先定义 PartRM 需要完成的任务，给定单张铰链物体的图像 ot 和用户指定的拖拽 at ，我们需要设计一个模型，完成

其中是 Ot 在 at 作用下的三维表征。

现有的数据集分为两种，一种是只含有数据对，但是缺乏对应的三维表征（比如 DragAPart 中提出的 Drag-a-Move 数据集）。还有一种是通用数据集，比如 Objaverse 中的动态数据，这种数据不止还有部件级别的运动，还会含有物体整体的变形等运动，不适合我们训练。

因此，我们基于提供铰链物体部件级别标注的 PartNet-Mobility 数据集构建了 PartDrag-4D 数据集。我们选取了 8 种铰链物体（其中 7 种用于训练， 1 种用于测试），共 738 个 mesh。对于每个 mesh，如图所示，我们使其中某个部件在两种极限状态（如完全闭合到完全开启）间运动至 6 个状态，同时将其他部分状态设置为随机，从而产生共 20548 个状态，其中 20057 个用于训练，491 个用于测试。为渲染多视角图像，我们利用 Blender 为每个 mesh 渲染了 12 个视角的图像。对于两个状态之间拖拽数据的采样，我们在铰链物体运动部件的 Mesh 表面选取采样点，并将两个状态中对应的采样点投影至 2D 图像空间，即可获得对应的拖拽数据。

PartRM 方法

方法概览

上图提供了 PartRM 方法的概述，给定一个单视角的铰链物体的图像 ot 和对应的拖拽 at，我们的目标是生成对应的 3D 高斯泼溅。我们首先会利用多视角生成模型 Zero123++ 生成输入的多视角图像，然后对输入的拖拽在用户希望移动的 Part 上进行传播。这些多视角的图像和传播后的拖拽会输入进我们设计的网络中，这个网络会对输入的拖拽进行多尺度的嵌入，然后将得到的嵌入拼接到重建网络的下采样层中。在训练过程中，我们采用两阶段训练方法，第一阶段学习 Part 的运动，利用高斯库里的 3D 高斯进行监督，第二阶段学习外观，利用数据集里的多视角图像进行监督。

图像和拖拽的预处理

图像预处理：由于我们的主网络是基于 LGM 设计的， LGM 需要多视角的图像作为输入，所以我们需要将输入的单视角图像变成多视角，我们利用多视角图像生成网络 Zero123++，为了使得 Zero123++ 生成的图像质量更高，我们会在训练集上对其进行微调。

拖拽传播：如果用户只输入一个拖拽，后续网络可能会对拖拽的区域产生幻觉从而出错，因此我们需要对拖拽进行传播到需要被拖拽部分的各个区域，使得后续网络感知到需要被拖拽的区域，为此我们设计了一个拖拽传播策略。如图所示，我们首先拿用户给定的拖拽的起始点输入进 Segment Anything 模型中得到对应的被拖拽区域的掩码，然后在这个掩码区域内采样一些点作为被传播拖拽的起始点，这些被传播的拖拽的强度和用户给定的拖拽的强度一样。尽管在拖动强度大小的估计上可能存在不准确性，我们后续的模型仍然足够稳健，能够以数据驱动的方式学习生成预期的输出。

拖拽嵌入

PartRM 重建网络的 UNet 部分沿用了 LGM 的网络架构，为了将上一步处理好的拖拽注入到重建网络中，我们设计了一个多尺度的拖拽嵌入。具体地，对于每一个拖拽，我们会将它的起始点和终止点先过一个 Fourier 嵌入，然后过一个三层的 MLP：

其中代表第 i 个拖拽在第 l 层的嵌入，其余部分设为 0。F 代表 Fourier 嵌入和 MLP ，代表在 channel 维度上连接。得到第 l 层的嵌入后，我们将和网络第 l 层的输出 Ol 在 channel 维度上连接，并过一个卷积层，作为 Ol 的残差加到 Ol 上作为下一层的输入，具体地：

其中卷积层的参数全零初始化，为第 l + 1 层的输入。

两阶段训练流程

为了保证对静态 3D 物体外观和几何的建模能力，我们在预训练的 LGM 基础上构建了 PartRM。但直接在新数据集上微调会导致已有知识灾难性遗忘，从而降低对真实场景数据的泛化能力。为此，我们提出了两阶段学习方法：先专注于学习之前未涉及的运动信息，再训练外观、几何和运动信息，以确保更好的性能。

运动学习阶段：在运动学习阶段，我们期望模型能够学到由输入的拖拽引起的运动。我们首先利用在我们的数据集上微调好的 LGM 去推理每个状态 Mesh 对应的 3D 高斯泼溅表征，拿这些作为监督数据我们第一阶段的训练。对于两个 3D 高斯之间的对应，我们利用 LGM 输出的是一个 splatter image 这一优势，即 LGM 会对 2D 图像的每一个像素点学一个高斯泼溅，我们可以直接对监督数据和 PartRM 网络预测的输出做像素级别的 L2 损失，即：

其中 i 代表在 splatter image 里的坐标， GSi 和 GSj 均为每个像素点对应的 14 维高斯球参数。

外观学习阶段：在运动学习阶段之后，我们引入了一个额外的阶段来联合优化输出的外观，几何以及部件级别的运动。这个阶段我们会渲染我们输出的 3D 高斯，利用数据集中提供的多视角图像计算一个损失，具体地：

实验结果

实验设置

我们在两个数据集上来衡量我们提出的 PartRM 方法，这两个数据集包括我们提出的 PartDrag-4D 数据集以及通用数据集 Objaverse-Animation-HQ。因为 Objaverse-Animation-HQ 数据量比较大，我们只从其中采样 15000 条数据，然后手动拆分训练集和测试集。验证时，我们对输出的 3D 高斯渲染 8 个不同的视角，在这 8 个视角上算 PSNR ，SSIM 和 LPIPS 指标。

我们选用 DragAPart ， DiffEditor 和 Puppet-Master 作为我们的 baseline。对于不需要训练的 DiffEditor 方法，我们直接拿它官方的训练权重进行推理。对于需要训练的 DragAPart 和 Puppet-Master，我们在训练集上对他们进行微调。

由于现有的方法只能输出 2D 图像，不能输出 3D 表征，为了和我们的任务对齐，我们设计了两种方法。第一种称为 NVS-First，即我们首先对输入的单视角图像利用 Zero123++ 生成多视角图像，再分别对每个视角结合每个视角对应的拖拽进行推理，生成对应的图像后再进行 3D 高斯重建；第二种称为 Drag-First，

即我们首先先对输入视角进行拖拽，然后对生成的结果利用 Zero123++ 进行多视角生成，最后进行 3D 高斯重建。我们采用了两种 3D 高斯重建方法，第一种为直接用 LGM （下图中两个时间的第一个）进行重建，第二种利用基于优化的 3D 高斯泼溅进行重建（下图中两个时间的第二个）。

定性比较

在视觉效果方面， PartRM 通过对外观，几何和运动的联合建模，能够在抽屉开合等场景中生成物理合理的三维表征。相比之下， DiffEditor 由于缺乏三维感知，导致部件形变错位； DragAPart 虽然能够处理简单的关节运动，但在生成微波门板时出现了明显的伪影等问题，同时在通用数据集上表现不佳；Puppet- Master 在外观的时间连续性和运动部分的建模方面表现不佳。

定量比较

定量评估中， PartRM 在 PSNR、SSIM、 LPIPS 指标上较基线模型均有提升；同时大幅提升了生成效率， PartRM 仅需 4 秒即可完成单次生成，而传统方案需分步执行 2D 形变与三维重建。

总结

本文介绍了 PartRM ，一种同时建模外观、几何和部件级运动的新方法。为了解决 4D 部件级运动学习中的数据稀缺问题，我们提出了 PartDrag-4D 数据集，提供了部件级动态的多视角图像。实验结果表明，我们的方法在部件运动学习上优于以往的方法，并且可应用于具身 AI 任务。然而，对于与训练分布差异较大的关节数据，可能会遇到挑战。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-08发表2025-04-08更新 ByteAILab 14 分钟读完 (大约2130个字)

MoCha：开启自动化多轮对话电影生成新时代

近年来，视频生成技术在动作真实性方面取得了显著进展，但在角色驱动的叙事生成这一关键任务上仍存在不足，限制了其在自动化影视制作与动画创作中的应用潜力。现有方法多聚焦于Talking Head场景，仅生成面部区域，且高度依赖辅助条件（如首帧图像或精确关键点），导致生成内容在动作幅度与连贯性方面受限，难以展现自然流畅的全身动态与丰富的对话场景。

此外，已有方法通常仅支持单角色说话，无法满足多角色对话与交互的生成需求。

为此，研究团队提出了MoCha，首个面向Talking Characters任务的视频生成方法，致力于仅基于语音（Speech）与文本 (text) 输入，直接生成完整角色的对话视频，无需依赖任何辅助信号，突破了现有技术仅限于面部区域生成（Talking Head）及动作受限的局限，为自动化叙事视频生成提供了全新解决方案。

该方法面向角色近景至中景（close shot to medium shot）的全身区域，支持一个或多个人物在多轮对话场景中的动态交互。为实现语音与视频内容的精准同步，MoCha 设计了Speech-Video Window Attention机制，有效对齐语音与视频的时序特征，确保角色口型与身体动作的一致性。同时，针对大规模语音标注视频数据稀缺的问题，研究团队提出了联合训练策略，充分利用语音标注与文本标注的视频数据，显著提升了模型在多样角色动作与对话内容下的泛化能力。此外，团队创新性地设计了结构化提示模板，引入角色标签，使 MoCha 首次实现了多角色、多轮对话的生成，能够驱动 AI 角色在上下文连贯的场景中展开具备电影叙事性的对话。通过大量定性与定量实验，包括用户偏好调研与基准对比，研究团队验证了 MoCha 在真实感、表现力、可控性与泛化性方面的领先性能，为 AI 驱动的电影叙事生成树立了新标杆。

性能展示
MoCha 能够实现基于角色对话驱动的叙事视频生成。以下为研究团队基于 MoCha 生成的视频样例，并通过简单剪辑制作成宣传视频，以展示未来自动化电影生成的可行性与潜力。视频链接

MoCha 能够生成高度准确的唇动同步效果，展现出精细的语音 - 视频对齐能力。

情绪可控性：MoCha能够根据输入文本灵活控制角色情绪，自动生成符合语境的角色表情与情绪动作，同时保证唇动同步与面部表情与上下文的一致性。
动作可控性：MoCha支持通过文本提示灵活控制角色动作，生成符合语境的动态表现，同时确保唇动同步与面部表情与上下文的协调性。
Zero-shot中文对话生成（无间道台词）：尽管MoCha未在中文语音数据上进行训练，模型仍展现出良好的跨语言泛化能力，能够生成同步较为自然的中文对话视频。视频链接
多角色对话生成：MoCha支持多角色对话生成，能够在单角色发言时，保证所角色的动作与表现合理连贯，整体对话场景保持视觉一致性与叙事连贯性。
多角色多轮对话生成：MoCha支持多角色、多轮对话（Turn-based Dialog）生成，能够实现镜头切换与多角色动态对话的自然衔接，突破现有方法仅支持单角色发言的局限，生成具有镜头语言与剧情连贯性的复杂对话视频。视频链接

核心方法
下图展示了 MoCha 的整体框架。

端到端训练，无需辅助条件：与现有方法（如 EMO、OmniHuman-1、SONIC、Echomimicv2、Loopy 和 Hallo3）不同，这些方法通常依赖参考图像、骨骼姿态或关键点等外部控制信号，MoCha实现了完全基于语音与文本的端到端训练，无需任何辅助条件。这一设计有效简化了模型架构，同时显著提升了动作多样性与泛化能力。

Speech-Video Window Attention 机制：研究团队提出了一种创新性的注意力机制——Speech-Video Window Attention，通过局部时间条件建模有效对齐语音与视频输入。该设计显著提升了唇动同步准确率与语音 - 视频对齐效果。

联合语音 - 文本训练策略：针对大规模语音标注视频数据稀缺的问题，研究团队提出了联合训练框架，充分利用语音标注与文本标注的视频数据进行协同训练。该策略有效提升了模型在多样化角色动作下的泛化能力，同时实现了基于自然语言提示的通用可控性，支持在无需辅助信号的前提下，对角色的表情、动作、交互以及场景环境等进行细粒度控制。

多角色对话生成与角色标签设计：MoCha首次实现了多角色动态对话生成，突破了现有方法仅支持单角色的限制，能够生成连贯、具备镜头切换与剧情连贯性的多轮对话视频。为此，研究团队设计了结构化提示模板，明确指定对话片段数量，并引入角色描述与标签，通过角色标签简化提示，同时保证对话清晰可控。MoCha利用视频 Token 的自注意力机制，有效保持角色身份与场景环境的一致性，同时通过语音条件信号自动引导模型在多角色对话中的镜头切换与发言时机。

总结
总体而言，本研究首次系统性地提出了Talking Characters 生成任务，突破传统Talking Head合成方法的局限，实现了面向完整角色、支持多角色动态对话的视频生成，仅需语音与文本输入即可驱动角色动画。为解决这一挑战性任务，研究团队提出了MoCha框架，并在其中引入了多项关键创新，包括：用于精确音视频对齐的Speech-Video Window Attention机制，以及结合语音标注与文本标注数据的联合训练策略，有效提升模型的泛化能力。此外，团队设计了结构化提示模板，实现了多角色、多轮对话的自动生成，具备上下文感知能力，为可扩展的电影级 AI 叙事生成奠定了基础。通过系统的实验评估与用户偏好研究，研究团队验证了 MoCha 在真实感、表现力与可控性等方面的优越性能，为未来生成式角色动画领域的研究与应用提供了坚实基础。

论文链接：https://arxiv.org/pdf/2503.23307
Hugging face 论文地址：https://huggingface.co/papers/2503.23307
项目地址：https://congwei1230.github.io/MoCha/

目前，该研究在 X 平台上引起了广泛的关注与讨论，相关热帖已经有一百多万的浏览量。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-08发表2025-04-08更新 ByteAILab 25 分钟读完 (大约3731个字)

反向传播、前向传播都不要，这种无梯度学习方法是Hinton想要的吗？

Noprop：没有反向传播或前向传播，也能训练神经网络。

「我们应该抛弃反向传播并重新开始。

」早在几年前，使反向传播成为深度学习核心技术之一的 Geoffrey Hinton 就发表过这样一个观点。

而一直对反向传播持怀疑态度的也是 Hinton。因为这种方法既不符合生物学机理，与大规模模型的并行性也不兼容。所以，Hinton 等人一直在寻找替代反向传播的新方法，比如 2022 年的前向 - 前向算法。但由于性能、可泛化性等方面仍然存在问题，这一方向的探索一直没有太大起色。

最近，来自牛津大学和 Mila 实验室的研究者向这一问题发起了挑战。他们开发了一种名为 NoProp 的新型学习方法，该方法既不依赖前向传播也不依赖反向传播。相反，NoProp 从扩散和流匹配（flow matching）方法中汲取灵感，每一层独立地学习对噪声目标进行去噪。

论文标题：NOPROP: TRAINING NEURAL NETWORKS WITHOUT BACK-PROPAGATION OR FORWARD-PROPAGATION
论文链接：链接

研究人员认为这项工作迈出了引入一种新型无梯度学习方法的第一步。这种方法不学习分层表示 —— 至少不是通常意义上的分层表示。NoProp 需要预先将每一层的表示固定为目标的带噪声版本，学习一个局部去噪过程，然后可以在推理时利用这一过程。

他们在 MNIST、CIFAR-10 和 CIFAR-100 图像分类基准测试上展示了该方法的有效性。研究结果表明，NoProp 是一种可行的学习算法，与其他现有的无反向传播方法相比，它实现了更高的准确率，更易于使用且计算效率更高。通过摆脱传统的基于梯度的学习范式，NoProp 改变了网络内部的贡献分配（credit assignment）方式，实现了更高效的分布式学习，并可能影响学习过程的其他特性。

在看了论文之后，有人表示，「NoProp 用独立的、无梯度的、基于去噪的层训练取代了传统的反向传播，以实现高效且非层次化的贡献分配。这是一项具有开创性意义的工作，可能会对分布式学习系统产生重大影响，因为它从根本上改变了贡献分配机制。」

其数学公式中涉及每层特定的噪声模型和优化目标，这使得无需梯度链即可进行独立学习。其优势在于通过让每一层独立地对一个固定的噪声目标进行去噪，从而绕过了反向传播中基于顺序梯度的贡献分配方式。这种方式能够实现更高效、可并行化的更新，避免了梯度消失等问题，尽管它并未构建传统的层次化表示。

还有人表示，「我在查看扩散模型架构时也产生过这样的想法…… 然而，我认为这可能是一种非最优的方法，所以它现在表现得如此出色让我感到很神秘。显而易见的是其并行化优势。」

为什么要寻找反向传播的替代方案？

反向传播虽是训练神经网络的主流方法，但研究人员一直在寻找替代方案，原因有三：

生物学合理性不足：反向传播需要前向传递和后向传递严格交替，与生物神经系统运作方式不符。
内存消耗大：必须存储中间激活值以计算梯度，造成显著内存开销。
并行计算受限：梯度的顺序传播限制了并行处理能力，影响大规模分布式学习，并导致学习过程中的干扰和灾难性遗忘问题。

目前为止，反向传播的替代优化方法包括：

无梯度方法：如直接搜索方法和基于模型的方法
零阶梯度方法：使用有限差分近似梯度
进化策略
基于局部损失的方法：如差异目标传播（difference target propagation）和前向 - 前向算法

但这些方法因在准确性、计算效率、可靠性和可扩展性方面的限制，尚未在神经网络学习中广泛应用。

方法解析

NoProp

设 x 和 y 是分类数据集中的一个输入 - 标签样本对，假设从数据分布 q₀(x,y) 中抽取，z₀,z₁,…,zₜ ∈ Rᵈ 是神经网络中 T 个模块的对应随机中间激活值，目标是训练该网络以估计 q₀(y|x)。

定义两个分布 p 和 q，按以下方式分解：

p 分布可以被解释为一个随机前向传播过程，它迭代地计算下一个激活值 zₜ，给定前一个激活值 zₜ₋₁ 和输入 x。实际上，可以看到它可以被明确表示为一个添加了高斯噪声的残差网络：

其中 Nᵈ(・|0,1) 是一个 d 维高斯密度函数，均值向量为 0，协方差矩阵为单位矩阵，aₜ,bₜ,cₜ 是标量（如下所示），bₜzₜ₋₁ 是一个加权跳跃连接，而 ûθₜ(zₜ₋₁,x) 是由参数 θₜ 参数化的残差块。注意，这种计算结构不同于标准深度神经网络，后者没有从输入 x 到每个模块的直接连接。遵循变分扩散模型方法，也可以将 p 解释为给定 x 条件下 y 的条件隐变量模型，其中 zₜ 是一系列隐变量。可以使用变分公式学习前向过程 p，其中 q 分布作为变分后验。关注的目标是 ELBO，这是对数似然 log p (y|x)（即证据）的下界：

遵循 Sohl-Dickstein 和 Kingma 等人的方法，将变分后验 q 固定为一个易于处理的高斯分布。在这里使用方差保持的 Ornstein-Uhlenbeck 过程：

其中 uᵧ 是类别标签 y 在 Rᵈ 中的嵌入，由可训练的嵌入矩阵 W (Embed) ∈ Rᵐˣᵈ 定义，m 是类别数量。嵌入由 uᵧ = {W (Embed)}ᵧ 给出。利用高斯分布的标准性质，我们可以得到：

其中 ᾱₜ = ∏ₛ₌ₜᵀαₛ，μₜ(zₜ₋₁,uᵧ) = aₜuᵧ + bₜzₜ₋₁，aₜ = √(ᾱₜ(1-αₜ₋₁))/(1-ᾱₜ₋₁)，bₜ = √(αₜ₋₁(1-ᾱₜ))/(1-ᾱₜ₋₁)，以及 cₜ = (1-ᾱₜ)(1-αₜ₋₁)/(1-ᾱₜ₋₁)。为了优化 ELBO，将 p 参数化以匹配 q 的形式：

其中 p (z₀) 被选为 Ornstein-Uhlenbeck 过程的平稳分布，ûθₜ(zₜ₋₁,x) 是由参数 θₜ 参数化的神经网络模块。给定 zₜ₋₁ 和 x 对 zₜ 进行采样的结果计算如残差架构（方程 3）所示，其中 aₜ,bₜ,cₜ 如上所述。最后，将此参数化代入 ELBO（方程 4）并简化，得到 NoProp 目标函数：

其中 SNR (t) = ᾱₜ/(1-ᾱₜ) 是信噪比，η 是一个超参数，U {1,T} 是在整数 1,…,T 上的均匀分布。我们看到每个 ûθₜ(zₜ₋₁,x) 都被训练为直接预测 uᵧ，给定 zₜ₋₁ 和 x，使用 L2 损失，而 p̂θout (y|zₜ) 被训练为最小化交叉熵损失。每个模块 ûθₜ(zₜ₋₁,x) 都是独立训练的，这是在没有通过网络进行前向或反向传播的情况下实现的。

实现细节

NoProp 架构如图 1 所示。

在推理阶段，NoProp 架构从高斯噪声 z₀开始，通过一系列扩散步骤转换潜变量。每个步骤中，潜变量 zₜ通过扩散动态块 uₜ演化，形成序列 z₁→z₂→…→zₜ，其中每个 uₜ都以前一状态 zₜ₋₁和输入图像 x 为条件。最终，zₜ通过线性层和 softmax 函数映射为预测标签ŷ。

训练时，各时间步骤被采样，每个扩散块 uₜ独立训练，同时线性层和嵌入矩阵与扩散块共同优化以防止类别嵌入崩溃。对于流匹配变体，uₜ表示 ODE 动态，标签预测通过寻找与 zₜ在欧几里得距离上最接近的类别嵌入获得。

训练所用的模型如图 6 所示，其中左边为离散时间情况的模型，右边为连续时间情况的模型。

作者在三种情况下构建了相似但有区别的神经网络模型：

离散时间扩散：神经网络 ûθt 将图像 x 和潜变量 zt−1 通过不同嵌入路径处理后合并。图像用卷积模块处理，潜变量根据维度匹配情况用卷积或全连接网络处理。合并后的表示通过全连接层产生 logits，应用 softmax 后得到类别嵌入上的概率分布，最终输出为类别嵌入的加权和。
连续时间扩散：在离散模型基础上增加时间戳 t 作为输入，使用位置嵌入编码并与其他特征合并，整体结构与离散情况相似。
流匹配：架构与连续时间扩散相同，但不应用 softmax 限制，允许 v̂θ 表示嵌入空间中的任意方向，而非仅限于类别嵌入的 convex combination。

所有模型均使用线性层加 softmax 来参数化相应方程中的条件概率分布。

对于离散时间扩散，作者使用固定余弦噪声调度。对于连续时间扩散，作者将噪声调度与模型共同训练。

实验结果

作者对 NoProp 方法进行了评估，分别在离散时间设置下与反向传播方法进行比较，在连续时间设置下与伴随敏感性方法（adjoint sensitivity method）进行比较，场景是图像分类任务。

结果如表 1 所示，表明 NoProp-DT 在离散时间设置下在 MNIST、CIFAR-10 和 CIFAR-100 数据集上的性能与反向传播方法相当，甚至更好。此外，NoProp-DT 在性能上优于以往的无反向传播方法，包括 Forward-Forward 算法、Difference Target 传播以及一种称为 Local Greedy Forward Gradient Activity-Perturbed 的前向梯度方法。虽然这些方法使用了不同的架构，并且不像 NoProp 那样显式地对图像输入进行条件约束 —— 这使得直接比较变得困难 —— 但 NoProp 具有不依赖前向传播的独特优势。

此外，如表 2 所示，NoProp 在训练过程中减少了 GPU 内存消耗。

为了说明学习到的类别嵌入，图 2 可视化了 CIFAR-10 数据集中类别嵌入的初始化和最终学习结果，其中嵌入维度与图像维度匹配。

在连续时间设置下，NoProp-CT 和 NoProp-FM 的准确率低于 NoProp-DT，这可能是由于它们对时间变量 t 的额外条件约束。然而，它们在 CIFAR-10 和 CIFAR-100 数据集上通常优于伴随敏感性方法，无论是在准确率还是计算效率方面。虽然伴随方法在 MNIST 数据集上达到了与 NoProp-CT 和 NoProp-FM 相似的准确率，但其训练速度明显较慢，如图 3 所示。

对于 CIFAR-100 数据集，当使用 one-hot 编码时，NoProp-FM 无法有效学习，导致准确率提升非常缓慢。相比之下，NoProp-CT 仍然优于伴随方法。然而，一旦类别嵌入与模型联合学习，NoProp-FM 的性能显著提高。

作者还对类别概率的参数化和类别嵌入矩阵 W_Embed 的初始化进行了消融研究，结果分别如图 4 和图 5 所示。消融结果表明，类别概率的参数化方法之间没有一致的优势，性能因数据集而异。对于类别嵌入的初始化，正交初始化和原型初始化通常与随机初始化相当，甚至优于随机初始化。

更多详细内容请参见原论文。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-07发表2025-04-08更新 ByteAILab 2 分钟读完 (大约308个字)

作者作品的开采并不是新鲜事——人工智能只是模仿创意人类的行为

作者们表示，对Meta使用他们的材料来训练其人工智能感到愤怒（作者呼吁英国政府追究Meta的版权侵犯责任，3月31日）。

但这难道不是已经持续了数千年吗？人类的所有思想都是对过去的迭代吗？艺术家和科学家几代人以来一直在开采他人的作品；这就是人类思想发展的方式。伊恩·麦克尤恩受到LP·哈特利的《中间人》的影响。乔治·奥威尔的《1984》受到了叶甫盖尼·扎米亚京的《我们》的启发。理查德·奥斯曼是否发明了舒适犯罪这一类型？整个出版行业都在不停地推出模仿热门书籍风格、主题和情节的作品。作家协会首席执行官安娜·甘利表示，作家们“愤怒不已”。她是否创造了这个短语？创造力始终在“训练”他人的作品。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-07发表2025-04-08更新 ByteAILab 19 分钟读完 (大约2802个字)

「从悲惨中获利」：TikTok如何通过儿童乞讨直播赚钱

三名年轻儿童盘腿坐在摄像机前，双手捧着。

一个男孩盯着镜头说道：“请支持我，我们很贫穷。”他们似乎身处阿富汗的一间泥砖房中，生活在极端贫困中。但他们的直播正在通过TikTok Live向英国和全世界的观众传播。几个小时里，他们乞讨虚拟“礼物”，这些礼物可以兑换成现金。当收到礼物时，他们会恭敬地鼓掌。在另一个直播中，一名女孩跳起来大喊：“谢谢你，我们爱你！”她是收到了一位美国女性送出的数字玫瑰，这位女性为此支付了约1便士。当这些礼物兑现时，价值可能不到三分之一便士。

TikTok表示，它禁止儿童乞讨和其他被视为剥削的乞讨形式，并称对进行直播的用户有严格的政策。然而，观察者的一项调查发现，这种行为在广泛存在。乞讨直播被算法积极推广，TikTok也从中获利，收取高达70%的费用和佣金。联合国极端贫困和人权特使奥利维耶·德·舒特称这一趋势为“令人震惊的发展”，并指责TikTok及其中介“从人们的痛苦中获利”。“从人们的痛苦中获取利润无异于数字掠夺。我敦促TikTok立即采取行动，执行其对剥削性乞讨的政策，并认真审视它从世界最脆弱人群中获取的‘佣金’，”他说。

儿童慈善机构“拯救儿童”（Save the Children）的数字危害专家杰弗里·德马尔科表示：“这些被记录的行为代表了重大滥用，必须立即采取行动，以确保平台不再容许或直接间接地从这种内容中获利。”

2025年1月至4月间进行的分析发现，包括印度尼西亚、巴基斯坦、阿富汗、叙利亚、埃及和肯尼亚在内的多个国家都有乞讨直播及相关行为的证据。许多直播显示家庭在家中乞讨，但一些直播似乎则具有组织乞讨的特征。一个几乎每天播出的账号，定期展现不同的儿童。在二月的一次直播中，七个小男孩乞讨数字礼物。第二天，出现在同一地点的又是不同的男孩，旁边依旧坐着同样的两名成年人。在观察者提醒TikTok该账号后，其在两小时内即被暂停。通过内部报告工具提交的先前报告则没有导致任何行动。

另一个拥有5300名追随者的账号则展示了一名坐在轮椅上的老人。该账户似乎由一个第三方运营，但其身份信息没有任何说明。账户描述中写着“穷人”和哭泣脸表情。而在乞讨之外，直播还显示出人们为了获得虚拟礼物而进行贬低甚至危险的特技表演，如自己打自己、长时间失眠、全身涂抹泥土或在镜头前睡觉。一个印度尼西亚的直播显示两名女孩躺在一间没有窗户的白墙小屋的瓷砖地板上。周五，同一账号在直播一名男人睡觉，地点与之前相同。

来自巴基斯坦的另一场直播则展示了三个男人在黑暗中，头戴派对帽，面前摆着塑料桶。他们在镜头前似乎入睡，只有在收到礼物时才会醒过来以表演舞蹈。自2020年8月推出以来，TikTok Live成为用户可以实时向观众播出的一个应用部分。根据TikTok的说法，2024年有1亿人进行直播，触达“数十亿用户”，用户可以通过发送评论或礼物与创作者进行实时互动。直播通过专门的直播推送向TikTok用户推广，能触及数百万观众。

居住在印度尼西亚、为慈善机构“国际关怀”工作的社会包容专家诺维塔·安格拉埃尼表示，许多创作者利用TikTok Live来“展示他们的才华”或“与人联系”。这通常用于拍摄自己唱歌、跳舞、打游戏、绘画或烹饪的影片。但她表示，越来越多的人将其视为“快速赚钱的捷径”，而且“有害”的视频呈现出“非常迅速的人数增长”。“这是一种全新的剥削形式，”她补充道。

她指出，这些直播受贫困和数字素养差的驱动，并且并不总是容易识别出人们是否遭到胁迫。表面上的受害者往往否认他们被剥削并表示这是“为了赚钱的合作”。但她表示，“组织乞讨网络”控制收入可达及组织拍摄多个家庭的高风险滥用仍然存在。

来自数字权利组织“Access Now”的玛尔瓦·法塔夫塔表示，TikTok Live的设计方式激励了乞讨和高风险行为，因为参与度提升了奖励。“与此同时，TikTok并没有采取足够的努力来确保这种意外后果得到解决，”法塔夫塔说道。她警告称，全面遏制乞讨内容可能会给在“危机或冲突地区”需要人道主义支持的人带来不利影响，并对某些地区的线上乞讨可能导致政府的压制反应感到担忧。

然而，她表示，必须采取更多行动以“解决组织乞讨和剥削问题”，并敦促TikTok“雇佣调查团队”。“此时，由于组织乞讨的剥削不仅是一个可以预见的风险，而是一个已存在的风险，因此该平台需要对此负责，”她说。这个周末，TikTok表示已采取了坚决行动，包括删除观察者警告的账号。公司表示，它的政策禁止在直播中进行剥削性乞讨，包括“利用儿童或弱势者乞讨”。“任何展示儿童乞讨礼物的直播内容都不允许在TikTok上出现，”发言人说道。

在已掌握剥削性乞讨或儿童剥削证据的情况下，TikTok表示采取“严厉行动”，包括关闭直播并发布永久禁止令。它称，通过“专门团队和技术的主动检测”，每月阻止了超过400万场直播以维持平台安全。主持直播的人必须拥有1000名追随者且年满18岁，尽管儿童可以在成年人陪同下出现在直播中。它表示，佣金和费用的比例各不相同，直播主无法获得礼物的全部价值，而是根据礼物和直播的受欢迎程度及持续时间获得“钻石”。在扣除佣金和费用后，他们通常仅能剩下原始礼物价值的一半，有时甚至只有30%。TikTok并未否认这些数据，但表示约30%的礼物收益用于“应用商店费用和支付提供商成本”。它提供的虚拟礼物超过100种，观众可以购买，价格从一朵玫瑰（1个币，约1便士）到TikTok宇宙（44,999个币，约450英镑）不等。

该公司之前曾因在TikTok Live上从剥削性内容中获利而受到批评，包括直播的性虐待。2022年，BBC发现来自叙利亚难民营的家庭在乞讨。TikTok表示对该发现表示“深切关注”，并正在强化其全球政策。2023年，半岛电视台报道表示，印度尼西亚的孤儿院通过展示孩子们在背景中睡觉的直播来筹集捐款。TikTok表示，它禁止在贬低上下文中乞讨，但该孤儿院的直播并未违反其指导方针。

尽管在TikTok上乞讨存在风险，慈善机构表示，这也有潜在的积极用途。乞讨的TikTok帮助受战争、贫困和疾病影响的人们从陌生人那里获得帮助。在一个案例中，菲律宾的一个家庭成功众筹资金用于分开他们的连体双胞胎。2023年，一名男子因在TikTok Live上表演鸡啄舞而走红。他告诉当地媒体，他已经召集村里其他人参与，他们据报道会获得部分收益，以帮助在稻米供应不足时购买食品。

但在许多情况下，人们并不清楚谁会从中获利。国际反奴隶制组织的倡导总监凯瑟琳·特纳表示，虽然一些儿童和成人乞讨以求生存，但另一些人则可能受到第三方的“身体或心理胁迫”，这些人控制着对他们收入的获取。TikTok要求希望从奖励中获得收益的直播主提供政府签发的身份证明，但对于观众而言，往往不可能得知出现在内容中的人是否自己可以受益。托管直播的账户通常是匿名的。虽然权利组织警告称社交媒体上的实名政策，但它们表示，仍然需要更严格的年龄确认流程和监管系统。

牛津大学犯罪学中心的研究员玛雅·拉哈夫表示，监管直播是资源密集型的，面临巨大挑战。在是否移除内容的问题上，存在着伦理问题。“并不是其他类型的网红也经常利用他们的孩子获利吗？”她说道。但她指出，涉及的第三方或相关者过于年轻或患病无法同意的情况下，人权滥用问题严重。“关键是，什么时候变成了剥削？这是他们需要权衡的平衡。”

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-07发表2025-04-08更新 ByteAILab 6 分钟读完 (大约862个字)

Beyond Identity 任命新领袖以推动战略增长举措

Ligeia Zeruto, Bob Burke 和 Louis Marascio 被任命为 Beyond Identity 执行团队的一员，以通过联邦实践、设计安全的倡议和产品创新加速增长。{ width=60% }

Beyond Identity 是一家领先的安全身份和访问管理 (IAM) 解决方案提供商，致力于消除基于身份的攻击。公司高兴地宣布三位杰出专业人士加入其执行团队，进一步加强公司对技术创新和网络安全领导力的承诺。

Ligeia Zeruto 加入担任联邦、国防与国际扩展负责人
Ligeia Zeruto 加入 Beyond Identity 担任联邦及国防负责人，带来来自公共和私营部门的丰富经验，并在她的领导下成立了公司的联邦实践。此前，Zeruto 在亚马逊网络服务担任过执行职位，包括公共部门的首席助手和全球高级技术伙伴销售经理。此外，她在美国军队的辉煌军事生涯包括作为美国陆军反情报和网络战官员的 23 年服役经历，其中包括在美国网络指挥部、国家安全局和第 75 创新指挥部的任职。

“Ligeia 的任命及其在支持国家网络安全战略发展方面的专业知识，与我们扩大在联邦和国防领域影响力的战略目标相一致，”Beyond Identity 首席执行官兼联合创始人 Jasson Casey 说。“她的见解和经验将在我们执行市场推广计划以满足联邦机构独特需求时发挥重要作用。”

Bob Burke 晋升为首席信息安全官
Bob Burke 被提升为 Beyond Identity 的首席信息安全官，此前他在担任安全与基础设施副总裁期间表现出色。在他的前任工作中，Burke 负责监督基础设施、云操作以及所有产品和业务线的安全。他作为安全从业者和产品架构师的双重角色确保了 Beyond Identity 内部企业系统和 SaaS 产品的可用性、性能、可扩展性和安全性。

“Bob 的晋升为 CISO 体现了我们对维护最高安全标准的承诺，”Casey 发表评论称。“他的领导将确保我们继续保护客户免受快速变化的网络威胁带来的风险。”

Louis Marascio 晋升为首席技术官
Louis Marascio 在多个行业（包括定量交易、IP 电话、数据分析、制造和网络安全）拥有超过 25 年的公司、团队和产品建设经验。在被提升为首席技术官之前，Marascio 担任 Beyond Identity 的高级产品架构师，在实现公司保护客户生计使命方面发挥了重要作用。

“Louis 的丰富背景和创新思维对推进我们的技术能力至关重要，”Casey 说。“作为首席技术官，他的领导将在推动我们的产品开发和技术战略方面发挥关键作用。”

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-07发表2025-04-08更新 ByteAILab 5 分钟读完 (大约805个字)

SAFE被Liminal评为第三方风险管理领域的领导者

被认可的卓越产品能力、AI驱动的自动化和高用户满意度
SAFE，领先的AI驱动的持续网络风险管理公司，今天宣布，它在2025年Liminal网络安全第三方风险管理（TPRM）Link Index™中被评为“领导者”。{ width=60% }

Liminal是一家通过可操作的市场和竞争情报赋能企业的技术公司。该报告在所有供应商中将SAFE在产品能力方面的评分最高，同时在服务交付、战略一致性和AI驱动自动化方面也获得了“卓越”的评价。

“我们很荣幸能被Liminal认可为第三方风险管理领域的领导者，”SAFE的首席执行官Saket Modi表示。“这进一步强化了我们的信念：TPRM的未来是自主的——由Agentic AI主导，不仅仅是协助，而是自主推动行动。它能够轻松扩展，减少手动工作到零，并推动实时决策，推动业务向前发展。”

Liminal Link Index™是一个受人尊敬的行业基准，评估领先网络安全供应商在产品性能、用户满意度和战略执行方面的表现。SAFE被强调为提供由Agentic AI驱动的自主、端到端的第三方风险管理——一个专门的AI代理系统，自动化供应商的入驻、评估、证据收集、监控和执行报告。

“在战略上，SAFE的安全策略与从业人员的需求相一致，专注于自动化、零信任原则和AI驱动的能力，”报告指出。

SAFE在Link Index™报告中的关键亮点包括：

产品能力——在所有领先供应商中得分最高
从业人员满意度——超出领先供应商类别的中位数8%
“优秀”评价——在战略、产品深度和市场存在感方面

报告指出SAFE的：

高效的供应商入驻和自动化的外部风险扫描，在几分钟内完成
“假设”模拟和控制建议，帮助优先处理修复工作
可扩展的、基于使用的定价模型，避免按供应商收费
在数据隐私、准确性和客户支持方面获得的高用户满意度
为满足网络风险和TPRM市场上升需求而快速增长的员工人数

通过SAFE TPRM，组织能够受益于：

100%自动化的风险评估
100倍快速的供应商入驻
100%的风险优先管理

SAFE的自主AI代理在第三方生命周期的每个阶段运作，帮助组织降低风险、满足合规要求，并自信地扩展——无需手动努力或复杂性。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-07发表2025-04-08更新 ByteAILab 6 分钟读完 (大约887个字)

调查：AI投资激增，但早期成果令人失望

新的Coastal报告显示，67%的公司预计将维持或增加AI支出，但只有21%的公司报告有任何经过验证的成果。{ width=60% }

尽管目前结果不尽如人意，商业和技术领袖们继续增加对AI的投资，依据来自领先Salesforce和AI咨询公司Coastal的新研究报告。

该报告调查了120多名来自Salesforce支持组织的高级技术和商业领袖，揭示了当前公司如何面对AI、数据准备和治理等问题。

亮点包括：

67%的组织预计将维持或增加AI支出，但只有21%报告有任何经过验证的成果。
43%的受访者预计治理、伦理和风险将在未来两年内成为他们面临的最大挑战。
64%的公司认为在AI实施和采用方面缺乏清晰的路线图和可衡量的目标。

数据表明，尽管公司不想在AI革命中落后，但他们可能尚未采取所有必要步骤，以充分利用可用的工具和解决方案。

除了调查结果外，报告《AI未能交付——该如何应对》概述了组织在实现AI投资回报（ROAI）方面常见的不足之处，以及公司所需要的结构体系，以在商业中释放人工智能的真实影响。

“Salesforce以创纪录的速度进行创新，其AI产品如Agentforce是颠覆性的。但从我们对这个AI时代的前排座位来看，我们知道，如果企业希望实现真正的AI影响，就必须专注于打好基础。这意味着现代化的基础设施将数据输入系统，重新设计流程，以及在每个计划与可衡量的结果之间建立清晰的联系，”Coastal首席执行官Eric Berridge表示。

随着数字化转型时代的到来并让位于新的“数据与AI现代化时代”，Coastal的报告为组织提供了扩展AI并取得成功的指导，包括有关：

现代化核心基础设施，以获取AI能力的优势
开发统一平台，实现数据在云之间的无缝迁移、建模和激活
从第一天起，结构化、衡量和将AI项目与业务价值挂钩
重新思考如何完成工作，以释放自主自动化的潜力

“拥有清晰数据和AI路线图的公司，实现积极投资回报的可能性是没有路线图公司的2.7倍——然而震惊的是，有64%的公司没有这样的路线图，”Berridge说。“这就是我们每天帮助客户解决的工作。”

要访问完整报告，请点击这里。报告数据由Coastal的未来准备调查提供，该调查由BlueWhale Research于2025年初进行，收集了120多名使用Salesforce的高级商业和技术领导者的反馈。要访问完整的调查方法论，请点击这里。

Salesforce、数据云、Agentforce等均为Salesforce, Inc.的商标。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-07发表2025-04-08更新 ByteAILab 5 分钟读完 (大约768个字)

报告：50%的公司预计人工智能将提升全球沟通

新数据显示，54%的领导者认为翻译是人工智能的未来
根据全球领先的人工智能翻译解决方案提供商Language I/O的最新研究，大多数商业领袖如今将实时翻译视为其最迫切的人工智能需求。{ width=60% }

2025年全球研究显示，54%的企业将翻译技术视为他们的首要人工智能优先事项，因为公司在面对准确性、安全性和日益增长的无缝跨语言沟通需求时感到困扰。
Language I/O与Brandata合作，对来自北美和EMEA（包括美国、德国、英国、南非和加拿大）的一千零八十九名商业领袖进行了调查，以揭示拥有5000名以上员工的企业如何应对这些复杂挑战。关键发现包括：

语言障碍显著干扰客户支持（45%）和员工培训（32%），影响员工留存和运营效率。
34%的企业已经在语言任务中使用人工智能工具，40%预计文本到语音翻译将取得进展，36%期望多语言聊天机器人。
随着人工智能的普及，准确性和文化相关性仍然是35%企业的主要关注点，此外还有成本和安全性。

“这项研究证实了我们在各个行业看到的情况：在今天的全球经济中，语言障碍已经不再可以接受，”Language I/O的创始人兼首席执行官Heather Morgan Shoemaker说。“随着人工智能能力的扩展，商业领袖认识到，实时、准确的翻译是必要的基础设施。我们的技术使公司能够跨越语言障碍，让他们能够把时间集中在最重要的事情上：与全球客户和合作伙伴建立有意义的联系。”
人工智能是翻译的一个重要应用，使得人类对话变得比以往任何时候都更加有意义。尽管如此，近60%的企业预计将迎来一个协作的未来，在这个未来中，人工智能将增强而不是取代人类专业知识，强调了平衡方法的必要性。因此，协同人工智能模型而非纯粹的自动化，将成为成功的多语言战略和客户服务的基石。
PR NewswirePR Newswire帮助传播者识别和接触关键影响者，制作和分发有意义的故事，并衡量他们努力的财务影响。Cision是公共关系和市场传播专业人士的全球领先的媒体软件和服务提供商。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2025-04-07发表2025-04-08更新 ByteAILab 6 分钟读完 (大约909个字)

调查：人工智能投资激增，但早期结果令人失望

根据来自Coastal的一项新报告，67%的公司预计将维持或增加人工智能支出，但只有21%的公司报告有任何经过验证的成果。{ width=60% }

商业和技术领导者在继续增加人工智能投资的同时，尽管结果迄今为止乏善可陈。

这份报告调查了120多位来自Salesforce驱动组织的高级技术和业务领导者，揭示了当今公司在人工智能、数据准备和治理方面的做法。

报告亮点包括：

67%的组织预计将维持或增加人工智能支出，但只有21%报告有任何经过验证的成果。
43%的受访者预计，在未来两年内，治理、伦理和风险将是他们在人工智能方面面临的最大挑战。
64%的公司认为在人工智能实施和采用方面缺乏清晰的路线图和可测量的目标。

数据显示，虽然企业不想在人工智能革命中落后，但他们可能还未采取所有必要步骤来充分利用可用的工具和解决方案。

除了调查结果外，报告《人工智能未能交付——应对方案》还概述了组织在实现人工智能投资回报（ROAI）方面常见的短板，以及公司为从人工智能中释放真正影响而所需的结构系统。

“Salesforce以创纪录的速度进行创新，其人工智能产品如Agentforce具有变革性。但从我们在这一人工智能时代的前排座位来看，我们知道企业必须专注于打好基础，以实现真正的人工智能影响。这意味着现代基础设施能够将数据输入系统，重新设计流程，以及确保每一项工作与可测量成果之间有明确联系，”Coastal首席执行官Eric Berridge表示。

随着数字化转型时代的到来，新的“数据与人工智能现代化时代”也在展开。Coastal的报告为组织提供了扩大人工智能应用的指南，包括：

现代化核心基础设施，以利用人工智能能力
开发统一平台，实现跨云的数据无缝移动、建模和激活
从第一天起就结构化、测量并将人工智能举措与商业价值挂钩
重新思考工作方式，以释放主动自动化

“拥有清晰的数据和人工智能路线图的公司获得正回报的可能性是没有路线图公司的2.7倍——然而令人震惊的是，64%的公司没有这样的路线图，”Berridge说道。“这就是我们每天帮助客户解决的问题。”

要访问完整报告，请点击此处。报告数据来自Coastal的未来准备情况调查，该调查由BlueWhale Research于2025年初进行，并收集了120多位在Salesforce上运营的组织的高级商业和技术领导者的反馈。要访问完整的调查方法，请点击此处。

Salesforce、数据云、Agentforce等是Salesforce, Inc.的商标。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

为什么要寻找反向传播的替代方案？

方法解析

NoProp

实现细节

实验结果

SAFE的自主AI代理在第三方生命周期的每个阶段运作，帮助组织降低风险、满足合规要求，并自信地扩展——无需手动努力或复杂性。

Salesforce、数据云、Agentforce等均为Salesforce, Inc.的商标。

Salesforce、数据云、Agentforce等是Salesforce, Inc.的商标。

链接

分类

最新文章

归档

标签

订阅更新