号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law

Molmo,开源多模态模型正在发力!

虽然大家一直在期待谷歌、OpenAI 等等拥有无限资金储备和顶尖人才的大厂做出新的 Sota 模型。不过,一家默默耕耘的创业公司 Ai2 发布了一款多模态人工智能模型 Molmo。


在下面展示的视频中,我们可以看到 Molmo 就像钢铁侠的「贾维斯」一样万能。想卖自行车,咨询一下 Molmo 的建议,仅靠一张照片,Molmo 就能把自行车的颜色、品牌和二手售价搞清楚,并且帮你写出一句顺口的广告语。视频链接

它也可以从虚拟世界帮你解决现实世界的问题,说一句:「Molmo,帮我买杯星巴克的南瓜拿铁。」剩下的就不用动手了,打开外卖网页、点餐、付款,Molmo 一气呵成。你所要做的,就是坐在家中,静候咖啡送到你的手中。

图片

机器之心也尝试了一下他们在线发布的 Demo 模型。相较于宣传视频,其功能还很有限,所以我们让其执行了图像描述任务,可以看到 Molmo 在细节描述和准确度上的表现确实很不错,它甚至能注意到猫背上的小玩具:「玩具看起来像一只绿色的老鼠,鼻子是粉红色的,尾巴是蓬松的,羽毛色彩缤纷。」

图片

但遗憾的是,Molmo 的汉语输出能力非常有限,即使我们明确要求其输出汉语,它也未能办到:

图片

除了 Demo,从数据来看,Molmo 的表现也足够惊艳。在人类测评和一系列测试集中,Molmo 的得分击败了 Claude 3.5 Sonnet、GPT4V 等一众顶尖模型,甚至可以媲美 GPT4o。

图片

不过,Molmo 的体量更小,却能「以小搏大」,性能超越了比它的参数量大十倍的其他模型。据 Ai2 首席执行官 Ali Farhadi 称,Molmo 的体积小到可以在本地运行,它无需 API、无需订阅、更无需成本高昂的液冷 GPU 集群。

更重要的是 Molmo 完全免费且开源,所有的权重、代码、数据和评估流程都即将公布。

部分模型权重、推理代码和一个基于 Molmo-7B-D 模型的公开演示已经可以使用。

体验链接:https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19

Ai2 又是如何做到「四两拨千金」的呢?答案在 Ai2 公布的技术报告和论文中,这个秘诀就是:数据。

图片

论文链接:https://molmo.allenai.org/paper.pdf

目前,最先进的多模态模型大多是闭源的,即使有一些开源的模型表现不错,但它们通常依赖于专有模型生成的合成数据。因此,如何从零开始构建高性能 VLM,对于开源社区来说,种种基础知识都很难获得。

图片

各大多模态模型的开源程度

如上图所示,Ai2 的研究团队统计了目前 VLM 的开源程度,除了直接看模型的权重、数据和代码是否公开,他们还考虑了模型是否依赖于其他闭源模型。如果一个模型在训练中用了其他专有模型生成的数据,那它就被标记为「蒸馏」,这意味着它无法完全独立再现。

针对「闭源」的瓶颈,Ai2 使用语音描述收集了一个高细节度的图像描述数据集,这个数据集完全由人工标注,并可以公开访问。

该团队认为提升模型性能的诀窍是使用更少但质量更好的数据。面对数十亿张图像,不可能仅靠人力完成筛选、精细标注和去重的工作,因此,他们没有选择 scaling law,而是精心挑选并注释了 60 万张图像。

数据集链接:https://docs.google.com/forms/u/0/d/e/1FAIpQLSdML1MhNNBDsCHpgWG65Oydg2SjZzVasyqlP08nBrWjZp_c7A/formResponse?pli=1

为了让 Molmo 能处理更多任务,Ai2 还引入了一个多样化的数据混合对模型进一步微调,其中就包括一种独特的二维「指向」数据

因为现在市面上的多模态模型的工作原理是把图片、声音、文字等多种模态转换成自然语言的表示,而基于「指向」数据的 Molmo 更进一步,它可以用非语言的方式(如指向物体)进行解答

比如,向 Molmo 提问:「你可以指出这块白板上的哪个模型的训练时间最短吗?」它不仅能用语音准确回答,还能直接用箭头「指向」它是从哪些数据中得到答案的。

图片

Molmo 用红色的波纹标出了自己识别的对象。

要求 Molmo 数图中有多少只狗,它的计数方法是在每只狗的脸上画一个点。如果要求它数狗狗舌头的数量,它会在每只舌头上画一个点。

「指向」让 Molmo 能够在零样本的情况下执行更广泛的任务,同时,无需查看网站的代码,它可以懂得如何浏览页面、提交表单。

这种能力也让 Molmo 更自然地连接现实世界和数字世界,为下一代应用程序提供全新的互动方式。

PixMo:数据质量胜过数量

通常而言,要训练一个大型 VLM,需要数以十亿计的图像 - 文本对数据。而这些数据往往取自网络,因此噪声很高。模型就需要在训练过程中分离信号与噪声。有噪声文本还会导致模型输出出现幻觉。

基于这样的考虑,该团队采用了不同的方法来获取数据。他们将数据质量放在了更重要的位置,结果发现,使用少于 1M 的图像 - 文本对就足以训练出强大的模型 —— 这比许多其它同类方法少了 3 个数量级。

Molmo 系列模型之所以能取得成功,最关键的要素莫过于 PixMo——Molmo 的训练数据。

Pixmo 包含两大类数据:(1) 用于多模式预训练的密集描述数据和 (2) 用于实现各种用户交互的监督式微调数据,包括问答、文档阅读和指向等行为。

该团队表示,在收集这些数据时,主要限制是避免使用已有的 VLM,因为「我们希望从头构建一个高性能 VLM」,而不是蒸馏某个已有的系统(但注意,他们也确实会使用仅语言的 LLM,但并不会把图像输入这些模型)。

在实践中,要让人类来标注大量数据是非常困难的。而且人类编写的图像描述往往仅会提及一些突出的视觉元素,而缺乏细节。如果强制要求最低字数,标注者要么需要花费太长时间,使收集过程成本高昂,要么就会从专有 VLM 复制粘贴响应,这又会违背避免蒸馏模型的目标。

因此,开放研究社区一直在努力,在不依赖专有 VLM 的合成数据的前提下,创建这样的数据集。

该团队提出了一种简单但有效的数据收集方法,可以避免这些问题:让标注者用语音描述图像 60 到 90 秒,而不是要求他们打字。他们让标注者详细描述他们看到的一切,包括空间定位和关系的描述。

从结果上看,该团队发现,通过这种模态切换「技巧」,标注者可以在更短的时间内提供更详细的描述,并且对于每个描述都有对应的录音,可证明未使用 VLM。

总的来说,他们收集了 71.2 万幅图像的详细音频描述,涵盖 50 个高层级主题。

他们的混合微调数据包含了标准的学术数据集以及一些新收集的数据集,这些新数据集也将会公开发布。学术数据集主要用于使模型在基准测试数据上表现良好,而新收集的数据集则能赋予模型大量重要功能,包括在与用户聊天时能够回答关于图像的一般性问题(超出学术基准数据范围)、提升 OCR 相关任务(如读取文档和图表)、精准识别模拟时钟的时间,以及在图像中指向一个或多个视觉元素。

指向功能可为图像中的像素提供自然的解释,从而带来 Molmo 全新且更强大的能力。该团队认为,指向将成为 VLM 和智能体之间重要的交流方式。

例如,一个机器人可以查询具有指向功能的 VLM 以获得路径点或要拾取物体的位置,而一个网页智能体可以查询 VLM 以定位需要点击的用户界面元素。这组系列数据集也分为以下六个:

  • PixMo-Cap:用于预训练 VLM 的数据集,可让其理解图像细节,其中包含 71.2 万张不同图像和大约 130 万个密集图像描述。
  • PixMo-AskModelAnything:其设计目标是让 AI 模型可回答有关图像的不同问题。其中包含 16.2 个问答对,涉及 7.3 万图像。其中问题由人类标注者编写,答案则来自一个语言模型。
  • PixMo-Points:其中的图像描述数据是关于图像中物体的位置。该数据集包含 230 万个问题 - 位置点对,涉及 42.8 万张图像。
  • PixMo-CapQA:包含 21.4 万个问答对,涉及 16.5 万个使用语言模型生成的图像描述。
  • PixMo-Docs:包含 25.5 万张带有大量文本和图表(表格、文档、图表)的图像,还有语言模型生成的相应代码。另有 230 万对基于生成的代码生成的问答。
  • PixMo-Clocks:这是一个合成数据集,其中包含 82.6 万张不同款式的模拟时钟图像,以及有关相应时间的问答。

基准评估和大规模人类偏好排名

为了进行全面的评估,该团队既使用了学术基准评测,也执行了人类评估以根据用户偏好对模型进行排名。

从结果上看,学术基准评测结果与人类评估结果高度一致。唯一的例外是 Qwen VL2,其在学术基准上表现很好,但在人类评估中表现相对较差。

图片

该团队总结得到了一些关键结果,并表示「Small is the new big, less is the new more」:

  • Molmo 系列模型中最高

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑

视频生成领域真是越来越卷且越来越迈向实用性!

在 OpenAI Sora 难产的时候,Meta 首次公开展示了自家的「用于媒体的突破性生成式 AI 研究」:Meta Movie Gen。

Meta 在相应博客中使用了「premiere」一词,也就是初次展示,因此手痒的用户可能还得再等上一段时间。


Meta 表示:「无论是希望在好莱坞大展身手的电影制作人,还是爱好为观众制作视频的创作者,我们相信每个人都应该有机会使用有助于提高创造力的工具。」

根据 Meta 的描述,Movie Gen 的功能包括:文本生成视频和音频、编辑已有视频、图片生视频。并且人类评估表明,Movie Gen 在这些任务上的表现均优于行业内类似模型。

具体的效果如何,我们先来看几个示例。

可以看到,小女孩在奔跑的过程中衣服的褶皱就已经吊打很多视频生成应用了。
图片

prompt:一个女孩正在海滩上奔跑,手里拿着一只风筝。她穿着牛仔短裤和黄色 T 恤,阳光洒在她身上。

在转头、正视前方、微笑的几个动作中,人物面部依然可以保持稳定状态,克服了形变。怪不得 Meta 在博客中还谈到,这是能够用来分享日常生活的可贵技术。
图片

prompt:一名女子正坐在南瓜田的草地上。她围着围巾,手里拿着一个杯子。背景中是一排排南瓜。

生成动物对 Movie Gen 来说也是小菜一碟。动物的毛发、动作都十分逼真。仔细看这只猴子的尾巴,在遮挡后依然能够遵循遮挡前的运动轨迹。背景生成结果也十分贴合 prompt。水面的波动、倒映都栩栩如生。不过水下折射的生成效果看起来还有些进步空间。
图片

prompt:一只红脸白毛的猴子正在天然温泉中沐浴。猴子在玩水面上的一艘微型帆船,这艘帆船由木头制成,配有白色的帆和小舵。温泉周围环绕着郁郁葱葱的绿植,有岩石和树木点缀其间。

视频时间长一些,Movie Gen 也能有稳定的表现。人物大幅度动作的展现也比较逼真。但每一帧定格下来,还会有些瑕疵。不过这是视频生成一贯的难题,Meta 或许会在未来进行改进。
图片

prompt:镜头位于一名男子的身后。男子赤裸上身,腰间系着绿色布料,赤脚站立。他的双手各持一个燃烧的物体,做出大幅度的圆周动作。背景是一片平静的海面,火舞营造出迷人的氛围。

Sora 刚刚问世时,往往还需要 Elevenlabs 这样的音频生成应用来辅助。而 Movie Gen 显然更加便捷,除了视频生成,配备相应的音乐、音效也是拿手好戏。

面对一整个视频的场景,合适的背景音乐能够贯穿全程。不仅如此,音效的适配度也很高。这个瀑布倾泻的水声就十分逼真。
图片

prompt:雨水倾泻在悬崖和人身上,有背景音乐。

更让人惊讶的是,音效还能够精准地与视频内容匹配。它能够通过视频中的动作节点来把握音效出现的时机,让画面和声音相辅相成,给我们呈现出完整的生成效果。
图片

论文名称:MovieGen: A Cast of Media Foundation Models
论文链接:https://ai.meta.com/static-resource/movie-gen-research-paper
更多演示:https://ai.meta.com/research/movie-gen/

Meta 在博客中简单回顾了自己的视频生成之旅。他们的第一波生成式 AI 研究始于 Make-A-Scene 系列模型,这些模型可以生成图像、音频、视频和 3D 动画。

随着扩散模型的出现,他们又基于 Llama 基础模型做出了第二波研究,成功实现了更高质量的图像和视频生成以及图像编辑。

Movie Gen 则是 Meta 的第三波研究。他们将以上所有模态都组合到了一起,并能以前所未有的方式为用户提供进一步的细粒度控制。

下面详细介绍 Movie Gen 的各项能力。

视频生成

给定文本提示词,Movie Gen 会使用一个针对文生图和文生视频任务优化过的联合模型来创建高质量和高清晰度的图像和视频。这个 30B 参数的 Transformer 模型有能力生成长度最多 16 秒帧率为 16 FPS 的视频。Meta 表示还发现这些模型可以推理物体运动、主客体交互和相机运动,并且它们还能学习各种概念的合理运动 —— 这也使它们成为了同类中的 SOTA 模型。

具体流程如下图所示,他们先通过一个时间自动编码器模型(TAE)训练了一个时空压缩的隐空间,然后再基于此训练了一个生成模型。
图片

模型架构上,他们采用了 Transformer,整体位于 Llama 3 的设计空间中。下表展示了其 30B 参数基础模型的各个超参数。值得注意的是,这里的 30B 参数指的是 Transformer 本身的参数量,并不包含文本嵌入模型、TAE 等。

为了训练这个模型,Meta 使用了多达 6144 台 H100 GPU,每一台的热设计功耗为 700W,并且都配备了 80GB 的 HBM3。

训练流程上,他们采用了一种多阶段训练方法,该方法分为三个阶段:

在文生图(T2I)任务上进行初始训练,之后再在文生图和文生视频(T2V)任务上进行联合训练;
逐步从低分辨率 256 像素的数据扩展成 768 像素的高分辨率数据;
在计算和时间限制上,使用改进过的数据集和已优化的训练方法进行持续训练。

之后自然也会执行微调。

而在推理阶段,Meta 的一个创新思路是首先使用 Llama 3 对用户输入的提示词进行重写,将其扩展成更加详细的版本。实践表明该方法确实有助于提升生成结果的质量。此外,Meta 还在提升推理效率方面引入了一些新思路。

效果上,下表展示了 Movie Gen Video 模型与之前相关研究的胜率情况。注意这里的数值是 Movie Gen 的获胜百分比减去落败百分比,因此可知 Movie Gen 的整体表现胜过之前的模型。
图片

个性化视频

基于上述基础模型,Meta 还开发出了个性化视频功能。用户只需提供人物图像输入和对应的文本提示词,就能生成包含该人物以及文本描述的细节的视频。Meta 表示 Movie Gen 生成的个性化视频在保留人类身份和运动方面做到了 SOTA。

下图展示了个性化 Movie Gen Video 模型(PT2V)的架构和推理流程。
图片

具体来说,首先使用 Movie Gen Video 模型的权重对该模型进行初始化,然后添加额外的可学习参数来基于参考图像实现条件化编辑。

训练过程先是进行预训练(分为身份注入、长视频生成、提升自然度三个阶段),然后执行监督式微调。

结果上看,在经过微调之后,PT2V 模型在身份和人脸一致性上的表现都相当卓越。
图片

精确的视频编辑

还是基于同样的基础模型,Meta 也做出了视频编辑功能,并且可以做到非常精确的编辑 —— 可仅操作相关像素!具体来说,给定一段视频和文本提示词,模型可以生成符合要求的经过修改的输出,其中包括一些非常高阶的编辑功能,比如添加、移除和替换元素,修改背景和风格等全局要素。

如果后面实际效果真如 Meta 描述那么好,那么这项功能可能会成为一大利器。

为了做到这一点,Meta 团队同样采用了一种多阶段方法:首先执行单帧编辑,然后进行多帧编辑,之后再整体编辑视频。
图片

为此,他们对前述的视频生成模型进行了一番修改。首先,通过向图块嵌入工具添加额外的输入通道而实现了对输入视频的调节,从而可沿通道维度将隐含的视频输入与有噪声的输出隐视频连接起来,并将连接后的隐视频提供给模型。

此外,按照 Emu Edit 的做法,他们还加入了对特定编辑任务(例如添加对象、更改背景等)的支持。具体来说,该模型会对每个任务学习一个任务嵌入向量。对于给定的任务,模型对相应的任务嵌入应用线性变换,产生四个嵌入,这些嵌入与文本编码器的隐藏表示连接在一起。我们还对任务嵌入应用了第二个线性变换,并将得到的向量添加到时间步嵌入中。另外,为了完全保留模型的视频生成功能,他们将所有新添加的权重设置为零,并基于预训练的文生视频模型初始化剩余的权重。

该方法的效果非常显著,在两个数据集上的人类和自动评估结果基本都优于其它对比方法。顺带一提,Movie Gen Edit Bench 是 Meta 提出的一个新基准,用于评估「下一代视频编辑模型的视频编辑能力」。
图片

音频生成

此外,他们还训练了一个 13B 参数的音频生成模型 Movie Gen Audio。该模型可以基于视频和可选的文本提示词生成长达 45 秒的高质量高保真音频,包括环境声音、音效(Foley)和背景音乐 —— 所有这些都与视频内容同步。
图片

下面是 Movie Gen Audio 的模型示意图,可以看到其采用了基于流匹配(flow-matching 生成模型和扩散 Transformer(DiT)的模型架构。此外,还添加了一些条件化模块来实现对模型的控制。

此外,他们还提出了一种音频扩展技术,可以为任意长度的视频生成连贯的音频。下面是该技术的示意图。其目标是一次生成 30 秒长度的音频,然后利用该扩展延展至任意长度。
图片

总体而言,他们在音频质量、视频到音频对齐和文本到音频对齐方面实现了 SOTA。
图片

Meta 在架构、训练目标、数据处理方法、评估协议和推理优化等多个技术方面做出了创新突破。下图展示了 Movie Gen

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

如何用生成式 AI 定义我们的未来?看看微软怎么说

编辑 | 紫罗
人工智能(AI)当下及未来的进步,意味着它在解决先前被视为棘手难题的能力上实现了阶段性的转变。鉴于这一巨大的技术飞跃,现在是我们必须定义未来轨迹的时候了。


随着公司继续创新人工智能系统并将其集成到当前产品中,我们有责任问自己:我们想要构建的未来是什么?作为一个社会,我们必须采取立场并定义我们想要的人与人工智能系统之间的关系。我们仍处于人工智能革命的早期阶段,因此现在将我们的轨迹设定在一条认真负责的道路上比以后纠正我们的路线更容易。我们可以有意识地设计、构建和使用人工智能系统,使其成为社会中的一种平衡力量,或者我们可以无意识地使用人工智能,在这种情况下,人工智能可能会成为加剧不平等的力量,或者两者兼而有之。社会有权决定我们朝着哪个结果前进。

一种潜在的平衡力
在生成式人工智能中,大型语言模型 (LLM) 是近期取得许多进展的原因。最近的一项研究表明,LLM 上所做的大部分工作都是知识工作,即任何涉及处理或使用信息的工作。最近还有一系列实验论文表明,人工智能…

技术获取不平等
每当出现生成式人工智能规模的技术创新时,首先要了解谁可以使用该创新,这一点很重要,因为只有接触过人工智能的人才能利用它来获得生产力和经济效益。Pew 研究中心最近的一项调查显示,了解 ChatGPT 的美国人更有可能拥有更高的家庭收入和更…

对劳动力的影响
人工智能还可以深刻影响任务、工作和职业。任何时候,都有一组机器可以解决的问题。任何时候,都有一些问题是机器可以解决的。任何超出这个范围的问题都需要人类来解决,至少部分需要人类来解决。当出现技术创新(如生成式人工智能)时,机器可以解…

生成式人工智能背后的人力劳动
在这种情况下,尤其重要的是要考虑到那些拥有权力或自主权,来决定他们与人工智能系统的关系的人之间存在不平等。例如,许多 LLM 用户没有意识到他们使用的人工智能系统部分是由人类训练的。LLM (尤其是早期版本) 可能会输出不正确、不具信息性或在某…

技术开发中的不平等
重要的是不仅要考虑谁有权访问这些模型以及谁提供数据来训练它们,还要考虑谁可以构建这些模型,以确保每个人在设计中都有发言权。生成式人工智能的使用正在全球范围内发生,但开发 LLM 需要价值数亿美元的资源,例如 GPU 和电力。此外,这些模型使…

朝着正确的方向前进
我们只能改进我们衡量的东西。全球社会的所有部门,包括工人、非政府组织、政府和科技公司,都需要基础设施来衡量社会在人工智能方面是否走在正确的轨道上。我们应该建立一个全球仪表板,来衡量谁受到了人工智能的影响以及如何影响。这样做将使我们能够监控我们与人工智能…


。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

2023年英国发明专利申请:平板板条棺材和机器狗

英国发明家去年想出了一只可以清扫的机器狗、一款平板板条棺材以及一种介于饼干和蛋糕之间的食物。


卫报对知识产权局(IPO)列出的专利申请进行分析发现,2023年已经公布了5955件涉及至少一位英国发明家的专利申请。其中包括一款由伦敦31岁发明家亚历克斯·梅(Alex May)发明的躺式电脑桌。这款设备包括一个向下的计算机显示器,可以从桌子下方看到,如果需要还可以作为坐立式桌子。自少年时期就患有慢性背部问题的梅,在寻找更舒适的使用计算机方式后想出了这款桌子。他说: “当我第一次寻找时,我惊讶地发现并没有什么简单的产品可以满足我的需求,但加轮子到手提箱上花了几十年时间。” 2022年,当他感染长期新冠后,这个发明变得更加有用。“我认为很多患有不同疾病的人都可以从这张桌子中受益,任何需要躺着比坐着或站着更加舒适的情况都可以。”他说。

Alex May using his lying-down computer table. Photograph: Alex May

“对于其他身体本来健康的人来说,也有人体工程学上的好处。我们都在变得熟悉因使用计算机和手机而引起的姿势问题,比如慢性下背痛和‘科技脖子’。这对我来说改变了生活,我希望它也能造福其他许多人。”梅正在申请更新型号的专利,并为该产品建立一家小型电子商务公司。

其他发明包括由斯托尔布里奇的大卫·豪(David How)发明的黄麻和竹制平板板条棺材。 这种环保且易于组装的产品生产于孟加拉国,通过他的公平贸易公司 Oasis Coffins。该产品在五月获得专利。

苏福克郡布兰登的安娜·库姆(Anna Coombe)也获得了一项有关结合面团和面糊的创新烘焙方法和产品的专利。她的Cookie Cake “使用户可以同时体验不同的口感”。这个发明是在与女儿一起烘焙时发生了愉快的意外时产生的,当时一些纸杯蛋糕溢出来,顶部看起来像饼干。“她问我们是否能做加饼干和饼干的蛋糕,”库姆说。

“我不确定,但说我会尝试。花了几个月的时间制作食谱,计算比例,实验不同的烘焙技术、配料和口味。我受到我那个有着惊人创意的自闭症女儿的启发。”

“初始反应‘太棒了’后,安娜现在在线销售她的蛋糕,还在当地百货商店销售。她正寻找与其他企业的试验,并考虑规模生产。”

大多数专利申请都是针对高度技术或科学性的发明,但其他更不那么小众的例子包括一个易于组装的胶合板奶牛,以帮助您像牛仔一样练习套索技巧,智能守门员手套记录守门员表现的数据,将琴弦纵向排列以节省空间的竖立三角钢琴,用于制造类似皮革的来自蘑菇的材料,使用雷达确定完美唤醒时间的午睡计时器,由土豆制成的奶酪,适合左右脚的鞋以及一台振动鼻子来排出鼻涕的机器。

数据显示,2023年,负责一半英国专利申请的318家公司。捷豹路虎以182项位列榜首,其次是戴森,有151项申请,其中一项是用于吸尘的机器狗。这种四条腿的机器人可以爬上爬下楼梯,这是之前吸尘器机器人无法做到的。本文于2024年10月5日进行了修改,更正了一张图片标题中对Sarah Nicolls名字的拼写错误。

原文链接



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

IQVIA宣布推出IQVIA AI助手,由IQVIA医疗级AI驱动

IQVIA(纽交所:IQV),全球领先的临床研究服务提供商、商业见解和医疗智能解决方案提供商,今日推出IQVIA AI助手,这是一项由生成式人工智能技术驱动的创新,能显著提升生命科学客户获取及时且强大见解的能力。图片{ width=60% }


IQVIA AI助手是一种用户友好的对话式文本界面,提供即时且直观的分析见解。客户首次可以简单地提出关于业务的复杂问题,并在瞬间而非数小时或数天内获得全面可靠的答案。IQVIA AI助手提供的见解包括品牌和领地表现、竞争情报、处方驱动因素等。
IQVIA AI助手建立在IQVIA医疗级AI™的基础之上,这是IQVIA在过去十多年中一直在投资的可信赖的人工智能基础。IQVIA医疗级AI™将无与伦比的高质量医疗数据与广泛的隐私保障结合在一起;精心调整、经过验证、适用于生命科学的模型由科学、医疗和人工智能专家设计;并通过质量控制基准由专家进行评估。
“IQVIA AI助手为我们的生命科学和医疗客户提供所需的精确性、速度和信任。通过这项量身打造的人工智能技术,我们履行了加速创新、打造更健康世界的使命。”IQVIA数字产品和解决方案高级副总裁Bernd Haas表示。
IQVIA正将其AI助手整合到包括IQVIA Orchestrated Analytics、ChannelDynamics®Verbatim、Market Prognosis和临床数据分析解决方案在内的一系列解决方案中。对于所有这些解决方案,AI助手的添加提供了独特的便捷性,使客户能够近乎实时获取见解,而这些见解以前需要专业领域专家数小时甚至数天才能提供。在未来,将有更多的解决方案整合IQVIA AI助手,作为向更多客户提供这种新创新能力的策略的一部分,从而加快推动医疗行业的进步。
了解更多信息,请访问 https://www.iqvia.com/AIAssistant。
探索AITechPark,获取AI、物联网、网络安全、AI技术新闻以及行业专家的深入见解的最新进展。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Onward Robotics领导人荣获享有声誉的供应链女性奖

Molly Deuson 和 Catherine Jones 荣获 Onward Robotics 领导人称号,因其通过创新的自动化解决方案推动履行业务进步
Onward Robotics,领先的先进自动化技术和移动机器人提供商,今天宣布,公司的两位杰出领导者 — Catherine Jones 和 Molly Deuson — 荣获 2024 年度备受尊敬的 Women in Supply Chain Award。图片{ width=60% }


作为公司商业部门的高级领导者,Jones 和 Deuson 因部署 Onward Robotics 革命性的 Meet Me™ 自动化平台而受到表彰,该平台为仓储、配送和电子商务运营提供高效准确的订单履行。

在 350 多位提名者中脱颖而出,Onward Robotics 领导人收到了值得注意的赞誉:解决方案设计总监 Molly Deuson 被评为“新星”,她的成就、努力和愿景塑造了供应链网络,而产品经理 Catherine “CJ” Jones 赢得了“先驱”奖,继续开辟物流领域未来女性的道路。

“Molly 和 CJ 是 Onward Robotics 大胆推动履行业务前进的杰出典范,” CEO Lance VandenBrook 说道。“我们很幸运能有她们出色的领导和深厚的行业专业知识加入我们的团队,我们为看到她们被认可为顶级供应链专业人士感到无比自豪。”

作为 Onward Robotics 领先产品经理,Catherine Jones 利用自己在供应链和仓储自动化领域 15 年的专业经验,定义公司的产品战略和路线图。CJ 热衷于部署解决真实市场需求的复杂技术,同时强调易用性,她以合作和以人为本的领导风格而著称。

获得新星奖的 Molly Deuson 领导着一支解决方案设计师、数据分析师和仿真工程师团队,负责向客户推荐利用 Onward Robotics 的创新 Lumabot™ AMRs 和 Pyxis™ 技术来改善运营效率,减少浪费。Molly 的团队、同事和客户赞赏她富有同情心的方式和娴熟的变革管理风格,这些经验积累自多年为大型仓储、配送和第三方物流服务提供商设计运营。

Onward Robotics 的创新自动化技术将在两个即将举行的行业活动中展出:A3 的 Autonomous Mobile Robots 和 Logistics Conference(展位号 229)将于 2024 年 10 月 8-10 日在田纳西州孟菲斯举行,以及在 2024 年 10 月 22-23 日在佛罗里达州迈阿密海滩举办的 IntraLogisteX USA(展位号 210)。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

EQT完成收购Perficient

EQT高兴地宣布,BPEA私人股本基金 VIII(“EQT亚洲”)已成功完成对领先全球数字咨询公司Perficient, Inc.(纳斯达克代码:PRFT)(“Perficient”或“公司”)的收购。图片{ width=60% }


Perficient致力于改变全球最大企业和最大品牌的数字咨询领域。

随着交易的完成,Perficient的普通股在2024年10月2日市场开盘前停止交易,公司已不再在纳斯达克证券交易所上市,将作为一家私人持有公司继续运营。

收购后,Perficient将继续专注于执行其长期增长策略,包括扩大其高效的全球人才队伍,加强与客户的关系,并投资于其下一代数字产品和能力。Perficient的领导团队和股东继续致力于帮助其财富500强客户提供超越客户期望、超越竞争对手并改变业务的数字解决方案。

Perficient首席执行官汤姆·霍根(Tom Hogan)表示:“今天,Perficient开始了一个充满激动人心的新篇章 - 专注于执行我们的长期全球增长战略。 25多年来,我们与许多全球最大品牌建立了长期信赖的伙伴关系,如果没有我们的7000名策略师、设计师、技术人员和工程师队伍,这是不可能实现的。EQT进一步加强了我们专注于创新和扩张,增加我们在全球的人才,并与我们的客户共同并为他们打造一个更强大的未来的能力。”

EQT私募投资亚洲咨询团队合伙人、EQT私募投资印度负责人Hari Gopalakrishnan表示:“随着技术的迅速发展,企业需要一个值得信赖的合作伙伴来引领未来,避免中断,并在快节奏的全球市场竞争中脱颖而出。 Perficient国际团队的才华横溢的专业人员、深厚的行业领域知识和数字能力在帮助企业加速其最重要的数字转型项目方面处于一个很好的位置。 我们很高兴与Perficient合作,迈向全球发展的下一个阶段。”

BofA Securities担任Perficient的主要财务顾问,Wells Fargo担任交易的财务顾问。 Kirkland & Ellis LLP担任Perficient的法律顾问。 J.P.摩根和TD证券担任EQT的财务顾问,Simpson Thacher & Bartlett LLP担任法律顾问。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Billables AI宣布获得390万美元的种子轮融资

Built for legal and professional service providers, Billables AI makes billing more automated and accurate
Billables AI,一家专为专业服务提供商打造的AI平台,通过其旗舰AI驱动的记时解决方案简化运营,宣布已获得由Wing VC领投的390万美元种子轮融资,参与投资方包括F7、SignalFire、Darkmode、校友风险投资公司以及来自Google、斯坦福、SambaNova等一流AI领军人物和行业资深人士的天使投资者。图片{ width=60% }


这笔资金将用于投资于先进机器学习,进一步个性化时间报告并最终打造更多帮助所有专业服务提供商的生产力工具。
Billables AI最初专注于法律行业,通过自动化日常运营任务,为专业服务提供商提供更多必要的时间来专注于真正重要的工作。该公司使法律专业人员能够发现增量计费时间,并减少计费的痛点。像Zigler Law Group、Kronenberger Rosenfeld和Rogers Joseph O’Donnell等早期采用者已经看到,与他们以前的计费方法相比,使用Billables AI可以准确捕获15-30%更多的计费时间。此外,用户报告称在编写描述等繁琐任务上所花费的时间减少了90%。
“尽管许多AI应用程序都集中于自动化核心法律任务,但我们认为在解决专业人员不愿意做的工作(也不获得报酬的工作)—例如计时和计费,还有更多的价值,”Billables AI的联合创始人兼首席执行官Arvind Sujeeth表示。“通过消除繁琐的行政开销,法律团队正在捕获更多的计费小时,并花费更少的时间在非计费任务上。我们很高兴将这些好处带给其他领域,其中存在类似挑战的领域,包括机构和顾问。”
通过与Microsoft 365、Google、Zoom、Adobe和其他业务软件的集成,Billables AI可以私密地捕获用户在不同工作流程中的活动。当工作进行时,Billables AI会自动生成一个完整的计费条目,智能地过滤和分组活动,将其分配给正确的客户和事项,并包括详细的描述性说明。随着时间的推移,这些条目会根据每位律师的独特风格和偏好进行个性化。该公司采用最佳的安全实践来确保律师随时控制他们的数据。
“Billables AI正在解决专业服务领域的明显需求,”Wing VC合伙人Tanay Jaipuria表示。“他们正在通过将AI应用于记时和计费来解决这些公司每天面临的基本运营挑战之一,这是这些公司面临的最大行政负担之一。这将改变专业人士跟踪和管理他们最有价值的资产—时间的方式。”
Billables AI刚于今年6月推出。该公司由Arvind Sujeeth和Nancy Jeng创立,后来加入了Laura Maddox担任创始工程副总裁。团队在人工智能、B2B SaaS产品开发和营销方面拥有丰富背景。Sujeeth曾在SambaNova Systems开发企业AI平台,Jeng在Pinterest担任全球产品营销负责人,Maddox在Mya Systems构建对话式AI。
了解有关Billables AI的更多信息,请访问billables.ai。
探索AITechPark,了解人工智能、物联网、网络安全、AITech新闻以及来自行业专家的深刻更新!



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI 应用创业者自述:我们是怎么从大厂夹缝里抢流量的

做了那么多AI应用,谁来用?第一波用户从哪来?如何持续不断地获得用户反馈?

在各种AI应用层出不穷的今天,开发者和创业公司也在愁这事。

毕竟,像Kimi、豆包这类可以铺天盖地打投流战的产品,只是有钱的少数。


而没钱的大多数呢?不出自财大气粗的大厂,没有巨头的流量生态“喂养”,甚至在寻求融资的过程中被反复质疑,只能硬着头皮自己找出路。

这其中,甚至不少产品早在开发之初,就已经尝试尽可能地避开巨头的射程范围,专注于自己的小赛道了。但当他们真正进入现实世界,为自己的产品寻找最初的流量时,却发现,他们再一次掉入了互联网巨头们制定游戏规则的流量世界里。

在线上流量格局固化的背景下,付费流量占大头,免费流量又少又难拿。于是,有人被动寄希望…

起于SEO搜索,长于KOL种草,大于生态裂变

歌歌AI写歌 COO 王枢沛,10万月活,2023年3月上线

流量只有免费和付费两种,对于AI创业团队来说,最关键的是能不能拿到免费流量。

从我们的产品…


警惕“产品越好用,用户越不愿意裂变”

蛙蛙写作负责人,波形智能联合创始人万磊 ,30万用户,2024年2月份上线

蛙蛙写作是一款用AI写小说、剧本等长文本的产品,上线八个月,用户大概有30万了。

我越来越清晰地看到这款产品随着用户增长,想在后期精准上量,还得靠广告投放。群体本身不愿意裂变分享,是个很有趣的现象。

目前,在投放这一环,因为我们的产品是web端的,所以主要投的是百度搜索流量…


结尾

歌歌AI和蛙蛙写作,分别属于AIGC娱乐和AIGC效率两类创业产品,他们同样从SEO起步,而后一个走向了公域投放,一个走向了私域裂变,在度过了早期的增长之后,都在进一步扩大规模的路上,遇到了流量投放的大山。

甚至不止是已经走了很远的他们,更多的创业开发者们也遇到了类似的流量增长问题。

原本在冷启动环节,开发者们都颇为佛系,且因此有了很多出乎意料的的出圈方式。有的产品靠产品打市场,受到APP Store的编辑推荐,从而斩获第一批用户,慢慢地…

“我有时候会想,像微信产品的增长里,像如何让大家知道红包功能,如何习惯小程序的存在,都有很天才的增长方案。那AI应用的增长功能是什么呢?”万磊说到。

但这个问题,暂时还没有答案。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Accenture和英伟达引领企业进入人工智能时代

New Accenture NVIDIA Business Group launched with 30,000 professionals receiving training globally to help clients reinvent processes and scale enterprise AI adoption with AI agentsAccenture AI Refinery platform helping companies jump-start their custom agentic AI journeys using the full NVIDIA AI stackNetwork of Accenture AI Refinery Engineering Hubs serving 57,000 Accenture AI practitioners to open in Europe, Asia and North America, supporting large-scale operations, agentic architecture and foundation model development with NVIDIA AIDeployment of autonomous agents built in AI Refinery achieves early outcomes in Accenture’s marketing function
Accenture (NYSE: ACN) and NVIDIA today announced an expanded partnership, including Accenture’s formation of a new NVIDIA Business Group, to help the world’s enterprises rapidly scale their AI adoption.
With generative AI demand driving $3 billion in Accenture bookings in its recently-closed fiscal year, the new group will help clients lay the foundation for agentic AI functionality using Accenture’s AI Refinery™️, which uses the full NVIDIA AI stack—including NVIDIA AI Foundry, NVIDIA AI Enterprise and NVIDIA Omniverse—to advance areas such as process reinvention, AI-powered simulation and sovereign AI.
Accenture AI Refinery will be available on all public and private cloud platforms and will integrate seamlessly with other Accenture Business Groups to accelerate AI across the SaaS and Cloud AI ecosystem.
“We are breaking significant new ground with our partnership with NVIDIA and enabling our clients to be at the forefront of using generative AI as a catalyst for reinvention,” said Julie Sweet, Chair and CEO, Accenture. “Accenture AI Refinery will create opportunities for companies to reimagine their processes and operations, discover new ways of working, and scale AI solutions across the enterprise to help drive continuous change and create value.”
“AI will supercharge enterprises to scale innovation at greater speed,” said Jensen Huang, founder and CEO, NVIDIA. “NVIDIA’s platform, Accenture’s AI Refinery and our combined expertise will help businesses and nations accelerate this transformation to drive unprecedented productivity and growth.”
Accenture NVIDIA Business Group Scales Agentic AI for EnterprisesThe new Accenture NVIDIA Business Group will accelerate momentum with generative AI and help clients scale agentic AI systems—the next frontier of gen AI—to drive new levels of productivity and growth. This significant investment will be supported by over 30,000 professionals receiving training globally to help clients reinvent processes and scale enterprise AI adoption.
Agentic AI systems represent a leap forward for generative AI. Instead of a human typing in a prompt or automating pre-existing business steps, agentic AI systems can act on the intent of the user, create new workflows and take appropriate actions based on their environment that can reinvent entire processes or functions.
Accenture and NVIDIA are already helping clients adopt and scale agentic AI systems. For example, Indosat Group announced the first sovereign AI in Indonesia that enables businesses to securely deploy AI while ensuring data governance and adhering to regulations. It is collaborating with Accenture to build industry-specific solutions on top of Indosat’s data center, which includes NVIDIA AI software and accelerated computing, to support local enterprises. With an initial focus on the financial services sector, the new solutions, powered by the AI Refinery platform, will help Indonesian banks harness AI to drive profitability, operational efficiency and sustainable growth in a highly competitive market.
Accenture will also debut a new NVIDIA NIM Agent Blueprint for virtual facility robot fleet simulation, which integrates NVIDIA Omniverse, Isaac and Metropolis software, to enable industrial companies to build autonomous, robot-operated software-defined factories and facilities.
Accenture will use these new capabilities at Eclipse Automation, an Accenture-owned manufacturing automation company, to deliver as much as 50% faster designs and 30% reduction in cycle time on behalf of its clients.
Network of AI Engineering HubsAs part of its Center for Advanced AI, Accenture is introducing a network of hubs with deep engineering skills and the technical capacity for using agentic AI systems to transform large-scale operations. These hubs will focus on the selection, fine-tuning and large-scale inferencing of foundation models, all of which pose significant accuracy, cost, latency and compliance challenges when development is scaled. Building on existing hubs in Mountain View, Calif., and Bangalore, Accenture is adding AI Refinery Engineering Hubs in Singapore, Tokyo, Malaga and London.
Accenture Embraces Agentic AIIn addition to its use of agentic AI at Eclipse Automation, Accenture’s marketing function is integrating the AI Refinery platform with autonomous agents to help create and run smarter campaigns faster. This will result in a 25-35% reduction in manual steps, 6% cost savings and is expected to achieve a 25-55% increase in speed to market。图片{ width=60% }




感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB