5 年 160 亿估值,硅谷「企业 AI」领头羊怎么做到的?

大模型引发的 AI 大战持续了两年多之后,现在所有创业团队和投资人都在问的一个问题是——适用于大模型真正的场景有哪些?或者,更重要的是,到底怎么才能获得货真价实的客户和营收?
当普通消费者依然为对话式聊天助手而感到兴奋时,AI 公司们早已经在寻找 AI 的落地场景。例如,企业 SaaS,这个千亿美元级别赛道上挤满了 OpenAI、Anthropic、微软等 AI 新贵和科技巨头。


就在这样拥挤的赛道中,一家名为 Glean 的公司,凭借企业内部 AI 搜索产品拿下了索尼电子、Databricks 等行业巨头。
最近,这家刚刚成立 5 年的公司,在 D 轮融资中拿到了 Kleiner Perkins 和光速创投的 2 亿美元巨款,公司估值暴涨至 22 亿美元(约 160 亿人民币),成为企业 AI 赛道当之无愧的领头羊。
Glean 是怎么做到的?它的 企业 AI 搜索产品,又有什么不同凡响之处?
01
集中式 AI 搜索平台
Glean 可以看做一个 AI 企业搜索和知识管理的平台,主要功能包括:AI 搜索、知识管理、工作主页。
AI 搜索是 Glean 最核心的功能,与传统搜索相比,它的优势在于跨应用和个性化。
Glean 打造了一个深度集成的工作空间,为企业员工提供统一的界面,访问企业所有的应用程序和服务,快速搜索定位和整合零散的信息,如会议记录、支持票据、项目档案等,极大提高了查找信息的速度。
例如,用户可以在 Glean 的平台上搜索到 Slack 对话信息、Google 文档内容和 Confluence 中的信息等。
不仅如此,用户还可以在 Glean 上执行与之连接的 SaaS 应用的轻量级功能,例如在 Glean 上直接启动会议、创建 Jira 文档等等。
在企业内部集成数据的基础上,Glean 不仅整合了可实现「语义理解」的矢量搜索和关键词搜索技术,还利用 LLM 推出了生成式 AI 的搜索功能,并推出了 AI 助手。
Glean 的 AI 助手主要有三个功能:
1、AI 答案
Glean 的 AI 可以根据每位用户的具体需求、偏好和访问权限,提供定制化的搜索结果。例如不同职位、不同地理位置的员工搜索自己的 OKR 指标时,Glean 会给到每个人不同的结果。Glean 还会利用员工的活动(如点击搜索结果)来提升搜索的相关性。
2、专家检测
当检索不到信息时,Glean 还能将员工与能够帮助回答问题或完成任务的人联系起来。
员工可以通过点击「people」选项,寻找到与搜索结果相关的内部「主题专家」。例如,当用户想要搜索「员工数据保留政策」的时候,该用户可以用过「people」选项查找到工程安全部的相关负责人。
3、上下文推荐
用户选中文档等某个内容后,输入快捷键 Cmd-J / Ctrl-J 就可以查看这一内容相关的补充内容和上下文。
例如,当用户在查看「供应商安全调查问卷」文档时,就可以输入快捷键查看「销售安全文档」、「常见安全问题汇总」等链接。

完整内容请查看原文链接:原文链接

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

130亿美元!OpenAI 或再入局!

文章来源:半导体行业观察
原标题:”OpenAI的自研芯片,再传新进展”

图片

来源:内容由半导体行业观察(ID:icbank)综合自theinfornation等。

周四,据《Information》报道称,博通公司已讨论为 OpenAI 制造一款人工智能芯片,这可能使其进一步进入英伟达公司的领域。


此后,博通公司股价上涨近 3%。

据新闻媒体报道,ChatGPT 聊天机器人的制造商 OpenAI 向博通提出了这个想法,这是该初创公司与芯片设计师进行更广泛讨论的一部分。OpenAI 的努力还包括聘请曾在谷歌 Tensor 处理器上工作过的前谷歌员工。

报告发布后,博通在纽约交易中上涨 2.9%,至 160.53 美元。受该公司蓬勃发展的人工智能设备销售提振,该公司股价今年已上涨 44%。

博通和 OpenAI 的代表没有立即回应置评请求。

尽管英伟达是人工智能支出的最大受益者,但博通也在市场上迅速取得进展。它向数据中心运营商出售一系列组件,这些运营商正在迅速扩大其设施以适应人工智能服务。博通首席执行官 Hock Tan 表示,到 2024 财年,博通的人工智能销售额将超过 110 亿美元。

与此同时,彭博社今年早些时候报道称,OpenAI 首席执行官萨姆·奥特曼一直在努力从全球投资者那里为芯片企业筹集数十亿美元的资金,计划利用这些资金建立一个生产半导体的工厂网络。

金融时报表示,OpenAI 一直在与包括博通在内的半导体设计公司就开发新芯片进行洽谈,以期减轻对英伟达的依赖并加强其供应链。

此次谈判是该公司联合创始人兼首席执行官萨姆·奥特曼 (Sam Altman) 牵头的努力的一部分,旨在加强运行日益强大的人工智能模型所需的零部件和基础设施的供应。

“人工智能的限制因素是容量:芯片容量、能源容量、计算容量。[OpenAI] 不会袖手旁观,让别人在前线开发这些,”一位了解OpenAI计划的人士表示。

Altman已与芯片制造商、微软等合作伙伴、政府机构和金融支持者进行合作,努力提高产能,并保持公司在该技术领域大规模繁荣的中心地位,这一繁荣是由这家旧金山公司于 2022 年底发布的 ChatGPT 聊天机器人引发的。

据一位了解OpenAI 与博通之间谈判情况的人士透露,谈判尚处于早期阶段,OpenAI 已经“与整个行业进行了接触”。

OpenAI 在一份回应中表示:“OpenAI 正在与行业和政府利益相关者进行持续对话,以增加对基础设施的访问,确保人工智能的好处能够广泛普及。”“这包括与顶级芯片设计师、制造商和数据中心的实体开发商合作。”

博通没有回应置评请求。

强大的半导体是顶级 AI 公司最热门的商品之一。OpenAI、微软和主要竞争对手 Anthropic 和谷歌尤其依赖 Nvidia 的尖端图形处理单元来训练和运行他们的模型。

OpenAI 短期内不太可能与 Nvidia 的技术实力相媲美,但该公司一直在探索各种方式,以便在追求通用人工智能(可以在一系列认知任务中超越人类的人工智能)的过程中变得更加自力更生。

据知情人士透露,即使得到微软 130 亿美元的支持,这家初创公司仍需要外部资金支持或商业合作才能实现其计划。

“可以公平地说,做这些事需要大量资金,”该人士表示。

参考链接:
https://finance.yahoo.com/news/broadcom-gains-report-discussing-chip-201050180.html



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

130亿美元!OpenAI 或再入局!

文章来源:半导体行业观察

原标题:《OpenAI的自研芯片,再传新进展》

图片来源:由GPTNB生成

来源:内容由半导体行业观察(ID:icbank)综合自theinfornation等。

周四,据《Information》报道称,博通公司已讨论为 OpenAI 制造一款人工智能芯片,这可能使其进一步进入英伟达公司的领域。


此后,博通公司股价上涨近 3%。
据新闻媒体报道,ChatGPT 聊天机器人的制造商 OpenAI 向博通提出了这个想法,这是该初创公司与芯片设计师进行更广泛讨论的一部分。OpenAI 的努力还包括聘请曾在谷歌 Tensor 处理器上工作过的前谷歌员工。
报告发布后,博通在纽约交易中上涨 2.9%,至 160.53 美元。受该公司蓬勃发展的人工智能设备销售提振,该公司股价今年已上涨 44%。
博通和 OpenAI 的代表没有立即回应置评请求。
尽管英伟达是人工智能支出的最大受益者,但博通也在市场上迅速取得进展。它向数据中心运营商出售一系列组件,这些运营商正在迅速扩大其设施以适应人工智能服务。博通首席执行官 Hock Tan 表示,到 2024 财年,博通的人工智能销售额将超过 110 亿美元。
与此同时,彭博社今年早些时候报道称,OpenAI 首席执行官萨姆·奥特曼一直在努力从全球投资者那里为芯片企业筹集数十亿美元的资金,计划利用这些资金建立一个生产半导体的工厂网络。
金融时报表示,OpenAI 一直在与包括博通在内的半导体设计公司就开发新芯片进行洽谈,以期减轻对英伟达的依赖并加强其供应链。
此次谈判是该公司联合创始人兼首席执行官萨姆·奥特曼 (Sam Altman) 牵头的努力的一部分,旨在加强运行日益强大的人工智能模型所需的零部件和基础设施的供应。
“人工智能的限制因素是容量:芯片容量、能源容量、计算容量。[OpenAI] 不会袖手旁观,让别人在前线开发这些,”一位了解OpenAI计划的人士表示。
Altman已与芯片制造商、微软等合作伙伴、政府机构和金融支持者进行合作,努力提高产能,并保持公司在该技术领域大规模繁荣的中心地位,这一繁荣是由这家旧金山公司于 2022 年底发布的 ChatGPT 聊天机器人引发的。
据一位了解OpenAI 与博通之间谈判情况的人士透露,谈判尚处于早期阶段,OpenAI 已经“与整个行业进行了接触”。
OpenAI 在一份回应中表示:“OpenAI 正在与行业和政府利益相关者进行持续对话,以增加对基础设施的访问,确保人工智能的好处能够广泛普及。”“这包括与顶级芯片设计师、制造商和数据中心的实体开发商合作。”
博通没有回应置评请求。
强大的半导体是顶级 AI 公司最热门的商品之一。OpenAI、微软和主要竞争对手 Anthropic 和谷歌尤其依赖 Nvidia 的尖端图形处理单元来训练和运行他们的模型。
OpenAI 短期内不太可能与 Nvidia 的技术实力相媲美,但该公司一直在探索各种方式,以便在追求通用人工智能(可以在一系列认知任务中超越人类的人工智能)的过程中变得更加自力更生。
据知情人士透露,即使得到微软 130 亿美元的支持,这家初创公司仍需要外部资金支持或商业合作才能实现其计划。
“可以公平地说,做这些事需要大量资金,”该人士表示。

参考链接
https://finance.yahoo.com/news/broadcom-gains-report-discussing-chip-201050180.html



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com
数据是大语言模型(LLMs)成功的基石,但并非所有数据都有益于模型学习。直觉上,高质量的样本在教授 LLM 上预期会有更好的效率。因此,现有方法通常专注于基于质量的数据选择。然而,这些方法中的大多数独立地评估不同的数据样本,忽略了样本之间复杂的组合效应。如图 1 所示,即使每个样本质量完美,由于它们的互信息冗余或不一致性,它们的组合可能仍然次优。尽管基于质量的子集由所有三个优质样本组成,但它们编码的知识实际上是冗余和冲突的。相比之下,另一个由几个相对较低质量但多样化的样本组成的数据子集在教授 LLM 方面可能传达更多信息。因此,基于质量的数据选择并未完全符合最大化 LLM 知识掌握的目标。

本文旨在揭示 LLM 性能与数据选择之间的内在关系。受 LLM 信息压缩本质的启发,我们发现了一条 entropy law,它将 LLM 性能与数据压缩率和前几步模型训练的损失加以联系,分别反映了数据集的信息冗余程度和 LLM 对数据集中固有知识的掌握程度。通过理论推导和实证评估,我们发现模型性能与训练数据的压缩率呈负相关,而这通常会产生较低的训练损失。基于 entropy law 的发现,我们提出了一种非常高效且通用的数据选择方法用于训练 LLM,名为 ZIP,其旨在优先选择低压缩率的数据子集。ZIP 分多阶段、贪心地选择多样化的数据,最终获得一个具有良好多样性的数据子集。

团队:中科大认知智能全国重点实验室陈恩红团队,华为诺亚方舟实验室
论文链接: https://arxiv.org/pdf/2407.06645
代码链接: https://github.com/USTC-StarTeam/ZIP

Entropy law
我们对数据压缩与 LLM 性能之间的关系进行理论分析。直觉上,训练数据的正确性和多样性会影响最终模型的性能。同时,如果数据存在严重的内在冲突…

ZIP:高度轻量化的数据选择算法
在 entropy law 的指导下,我们提出了 ZIP 这一数据选择方法,通过数据压缩率来选择数据样本,旨在在有限的训练数据预算下最大化有效信息量。出于效率考量…

实验结果
1.ZIP 选择算法对于不同 LLM、在不同 LLM 对齐阶段的有效性
对比不同的 SFT 数据选择算法,基于 ZIP 选择数据所训练得到的模型性能上展现出优势,并且在效率上也占优…

2.Entropy law 的实验验证
基于 SFT 数据选择实验,我们基于模型效果、数据压缩率以及模型在前几步训练的损失,分别拟合了多条关系曲线…

3.Entropy law 的实际应用
我们提供了一个 entropy law 在真实场景中指导 LLM 训练数据增量更新的应用。在该任务场景中,训练数据量保持相对稳定…


。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI成像新标准,仅1%原始数据可达最佳性能,通用医学基础模型登Nature子刊

编辑 | 白菜叶

经过大规模预训练的基础模型已在非医学领域取得了巨大成功。然而,训练这些模型通常需要大量全面的数据集,这与生物医学成像中常见的较小且更专业的数据集形成鲜明对比。


德国弗劳恩霍夫数字医学研究所(Fraunhofer Institute for Digital Medicine MEVIS)的研究人员提出了一种多任务学习策略,将训练任务数量与内存需求分离开来。

他们在多任务数据库(包括断层扫描、显微镜和 X 射线图像)上训练了一个通用生物医学预训练模型 (UMedPT),并采用了各种标记策略,例如分类、分割和物体检测。UMedPT 基础模型的表现优于 ImageNet 预训练和之前的 STOA 模型。

在外部独立验证中,使用 UMedPT 提取的成像特征被证明为跨中心可转移性树立了新标准。

该研究以「Overcoming data scarcity in biomedical imaging with a foundational multi-task model」为题,于 2024 年 7 月 19 日发布在《Nature Computational Science》。

深度学习由于其学习和提取有用图像表示的能力,正在逐步革新生物医学图像分析。

一般的方法是通过在大规模自然图像数据集(如 ImageNet 或 LAION)上预训练模型,再针对具体任务进行微调或直接使用预训练特征。但是微调需要更多计算资源。

同时,生物医学成像领域需要大量标注数据进行有效的深度学习预训练,但这类数据往往比较稀缺。

多任务学习(MTL)通过同时训练一个模型来解决多个任务,提供了数据稀缺的解决方案。它利用生物医学成像中许多小型和中型数据集,预训练适用于所有任务的图像表示,适用于数据稀缺的领域。

MTL 已被应用于多种方式的生物医学图像分析,包括从不同任务的多个小型和中型数据集训练,以及在单个图像上使用多种标签类型,证明了共享特征可以提高任务性能。

在最新的研究中,为了将具有不同标签类型的多个数据集结合起来进行大规模预训练,MEVIS 研究所的研究人员引入了一种多任务训练策略和相应的模型架构,专门通过学习跨不同模态、疾病和标签类型的多功能表示来解决生物医学成像中的数据稀缺问题。

为了应对大规模多任务学习中遇到的内存限制,该方法采用了基于梯度累积的训练循环,其扩展几乎不受训练任务数量的限制。

在此基础上,研究人员使用 17 个任务及其原始注释训练了一个名为 UMedPT 的全监督生物医学成像基础模型。

下图展示了该团队的神经网络的架构,它由共享块组成,包括编码器、分割解码器和定位解码器,以及特定于任务的头。共享块经过训练可适用于所有预训练任务,…

图示:研究概述。(来源:论文)

为了应对大规模多任务学习中遇到的内存限制,该方法采用了基于梯度累积的训练循环,其扩展几乎不受训练任务数量的限制。

在此基础上,研究人员使用 17 个任务及其原始注释训练了一个名为 UMedPT 的全监督生物医学成像基础模型。

下图展示了该团队的神经网络的架构,它由共享块组成,包括编码器、分割解码器和定位解码器,以及特定于任务的头。共享块经过训练可适用于所有预训练任务,有助于提取通用特征,而特定任务的主管则处理特定于标签的损失计算和预测。

设定任务包括三种监督标签类型:物体检测、分割和分类。例如,分类任务可以对二元生物标记进行建模,分割任务可以提取空间信息,物体检测任务可用于根据细胞数量训练生物标记。

图示:UMedPT 的架构。(来源:论文)

UMedPT 在域内和域外任务中始终匹配或超越预训练的 ImageNet 网络,同时在直接应用图像表示(冻结)和微调设置时,使用较少的训练数据保持强劲的性能。

图示:域内任务的结果。(来源:论文)

对于与预训练数据库相关的分类任务,UMedPT 仅使用 1% 的原始训练数据,就能够在所有配置上达到 ImageNet 基线的最佳性能。与使用微调的模型相比,该模型使用冻结编码器实现了更高的性能。

图示:域外任务的结果(来源:论文)

对于领域外的任务,即使应用了微调,UMedPT 也能够仅使用 50% 或更少的数据来匹配 ImageNet 的性能。

另外,研究人员将 UMedPT 的性能与文献中报告的结果进行了比较。使用冻结编码器配置时,UMedPT 在大多数任务中都超过了外部参考结果。在此设置下,它还超越了 MedMNIST 数据库 16 中的平均曲线下面积 (AUC)。

值得注意的是,UMedPT 的冻结应用未超越参考结果的任务属于领域外(乳腺癌分类 BC-Bach-WSI 和 CNS 肿瘤诊断 CNS-MRI)。通过微调,使用 UMedPT 进行预训练在所有任务中均超过了外部参考结果。

图示:UMedPT 在不同成像领域的任务上达到最新性能所需的数据量。(来源:论文)

作为数据稀缺领域未来发展的基础,UMedPT 开辟了深度学习在收集大量数据特别具有挑战性的医学领域的应用前景,例如罕见疾病和儿科影像。

论文链接:https://www.nature.com/articles/s43588-024-00662-z

相关内容:https://www.nature.com/articles/s43588-024-00658-9



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

快准备好你的 GPU!

Llama 3.1 终于现身了,不过出处却不是 Meta 官方。

今日,Reddit 上新版 Llama 大模型泄露的消息遭到了疯传,除了基础模型,还包括 8B、70B 和最大参数的 405B 的基准测试结果。


图片

下图为 Llama 3.1 各版本与 OpenAI GPT-4o、Llama 3 8B/70B 的比较结果。可以看到,即使是 70B 的版本,也在多项基准上超过了 GPT-4o。

图片
图源:https://x.com/mattshumer_/status/1815444612414087294

显然,3.1 版本的 8B 和 70B 模型是由 405B 蒸馏得来的,因此相比上一代有着明显的性能提升。

有网友表示,这是首次开源模型超越了 GPT4o 和 Claude Sonnet 3.5 等闭源模型,在多个 benchmark 上达到 SOTA。

图片

与此同时,Llama 3.1 的模型卡流出,细节也泄露了(从模型卡中标注的日期看出基于 7 月 23 日发布)。

有人总结了以下几个亮点:

  • 模型使用了公开来源的 15T+ tokens 进行训练,预训练数据截止日期为 2023 年 12 月;
  • 微调数据包括公开可用的指令微调数据集(与 Llama 3 不同)和 1500 万个合成样本;
  • 模型支持多语言,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。

图片
图源:https://x.com/iScienceLuvr/status/1815519917715730702

虽然泄露的 Github 链接目前 404 了,但有网友给出了下载链接(不过为了安全,建议还是等今晚的官方渠道公布):

图片

不过这毕竟是个千亿级大模型,下载之前请准备好足够的硬盘空间:

图片

以下是 Llama 3.1 模型卡中的重要内容:

模型基本信息

Meta Llama 3.1 多语言大型语言模型 (LLM) 集合是一组经过预训练和指令微调的生成模型,大小分别为 8B、70B 和 405B(文本输入 / 文本输出)。Llama 3.1 指令微调的纯文本模型(8B、70B、405B)针对多语言对话用例进行了优化,在常见的行业基准上优于许多可用的开源和闭源聊天模型。

模型架构:Llama 3.1 是优化了的 Transformer 架构自回归语言模型。微调后的版本使用 SFT 和 RLHF 来对齐可用性与安全偏好。

支持语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

从模型卡信息可以推断,Llama 3.1 系列模型的上下文长度为 128k。所有模型版本都使用分组查询注意力(GQA)来提高推理可扩展性。

图片
图片
图片

预期用途

预期用例。Llama 3.1 旨在用于多语言的商业应用及研究。指令调整的纯文本模型适用于类助理聊天,而预训练模型可以适应各种自然语言生成任务。

Llama 3.1 模型集还支持利用其模型输出来改进其他模型(包括合成数据生成和蒸馏)的能力。Llama 3.1 社区许可协议允许这些用例。

Llama 3.1 在比 8 种受支持语言更广泛的语言集合上进行训练。开发人员可以针对 8 种受支持语言以外的语言对 Llama 3.1 模型进行微调,前提是遵守 Llama 3.1 社区许可协议和可接受使用策略,并且在这种情况下负责确保以安全和负责任的方式使用其他语言的 Llama 3.1。

软硬件基础设施

首先是训练要素,Llama 3.1 使用自定义训练库、Meta 定制的 GPU 集群和生产基础设施进行预训练,还在生产基础设施上进行了微调、注释和评估。

其次是训练能耗,Llama 3.1 训练在 H100-80GB(TDP 为 700W)类型硬件上累计使用了 39.3 M GPU 小时的计算。这里训练时间是训练每个模型所需的总 GPU 时间,功耗是每个 GPU 设备的峰值功率容量,根据用电效率进行了调整。

训练温室气体排放。Llama 3.1 训练期间基于地域基准的温室气体总排放量预估为 11,390 吨二氧化碳当量。自 2020 年以来,Meta 在全球运营中一直保持净零温室气体排放,并将其 100% 的电力使用与可再生能源相匹配,因此训练期间基于市场基准的温室气体总排放量为 0 吨二氧化碳当量。

用于确定训练能源使用和温室气体排放的方法可以在以下论文中找到。由于 Meta 公开发布了这些模型,因此其他人不需要承担训练能源使用和温室气体排放。

论文地址:https://arxiv.org/pdf/2204.05149

训练数据
概述:Llama 3.1 使用来自公开来源的约 15 万亿个 token 数据进行了预训练。微调数据包括公开可用的指令数据集,以及超过 2500 万个综合生成的示例。

数据新鲜度:预训练数据的截止日期为 2023 年 12 月。

Benchmark 评分
在这一部分,Meta 报告了 Llama 3.1 模型在标注 benchmark 上的评分结果。所有的评估,Meta 都是使用内部的评估库。

安全风险考量

Llama 研究团队致力于为研究界提供宝贵的资源来研究安全微调的稳健性,并为开发人员提供适用于各种应用的安全且强大的现成模型,以减少部署安全人工智能系统的开发人员的工作量。

研究团队采用多方面数据收集方法,将供应商的人工生成数据与合成数据相结合,以减轻潜在的安全风险。研究团队开发了许多基于大型语言模型 (LLM) 的分类器,以深思熟虑地选择高质量的 prompt 和响应,从而增强数据质量控制。

值得一提的是,Llama 3.1 非常重视模型拒绝良性 prompt 以及拒绝语气。研究团队在安全数据策略中引入了边界 prompt 和对抗性 prompt,并修改了安全数据响应以遵循语气指南。

Llama 3.1 模型并非设计为单独部署,而是应作为整个人工智能系统的一部分进行部署,并根据需要提供额外的「安全护栏」。开发人员在构建智能体系统时应部署系统安全措施。

请注意,该版本引入了新功能,包括更长的上下文窗口、多语言输入和输出,以及开发人员与第三方工具的可能集成。使用这些新功能进行构建时,除了需要考虑一般适用于所有生成式人工智能用例的最佳实践外,还需要特别注意以下问题:

工具使用:与标准软件开发一样,开发人员负责将 LLM 与他们所选择的工具和服务集成。他们应为自己的使用案例制定明确的政策,并评估所使用的第三方服务的完整性,以了解使用此功能时的安全和安保限制。

多语言:Lama 3.1 除英语外还支持 7 种语言:法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。Llama 可能可以输出其他语言的文本,但这些文本可能不符合安全性和帮助性性能阈值。

Llama 3.1 的核心价值观是开放、包容和乐于助人。它旨在服务于每个人,并适用于各种使用情况。因此,Llama 3.1 的设计宗旨是让不同背景、经历和观点的人都能使用。Llama 3.1 以用户及其需求为本,没有插入不必要的评判或规范,同时也反映了这样一种认识,即即使在某些情况下看似有问题的内容,在其他情况下也能达到有价值的目的。Llama 3.1 尊重所有用户的尊严和自主权,尤其是尊重为创新和进步提供动力的自由思想和表达价值观。

但 Llama 3.1 是一项新技术,与任何新技术一样,其使用也存在风险。迄今为止进行的测试尚未涵盖也不可能涵盖所有情况。因此,与所有 LLM 一样,Llama 3.1 的潜在输出无法事先预测,在某些情况下,该模型可能会对用户提示做出不准确、有偏差或其他令人反感的反应。因此,在部署 Llama 3.1 模型的任何应用之前,开发人员应针对模型的具体应用进行安全测试和微调。

模型卡来源:https://pastebin.com/9jGkYbXY
参考信息:https://x.com/op7418/status/1815340034717069728
https://x.com/iScienceLuvr/status/1815519917715730702
https://x.com/mattshumer_/status/1815444612414087294



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能,你需要这种提示范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

本文作者来自浙江大学、上海人工智能实验室、香港中文大学、悉尼大学和牛津大学。作者列表:吴逸璇,王逸舟,唐诗翔,吴文灏,贺通,Wanli Ouyang,Philip Torr,Jian Wu。其中,共同第一作者吴逸璇是浙江大学博士生,王逸舟是上海人工智能实验室科研助理。通讯作者唐诗翔是香港中文大学博士后研究员。

多模态大模型(Multimodal Large Language Models,MLLMs)在不同的任务中表现出了令人印象深刻的能力,尽管如此,这些模型在检测任务中的潜力仍被低估。在复杂的目标检测任务中需要精确坐标时,MLLMs 带有的幻觉又让它常常错过目标物体或给出不准确的边界框。为了让 MLLMs 赋能检测,现有的工作不仅需要收集大量高质量的指令数据集,还需要对开源模型进行微调。费时费力的同时,也无法利用闭源模型更强大的视觉理解能力。为此,浙江大学联合上海人工智能实验室和牛津大学提出了 DetToolChain,一种释放多模态大语言模型检测能力的新提示范式。不需要训练就能让多模态大模型学会精确检测。相关研究已经被 ECCV 2024 收录。

为了解决 MLLM 在检测任务上的问题,DetToolChain 从三个点出发:(1)针对检测设计视觉提示(visual prompts),比传统的文字提示(textual prompts)更直接有效的让 MLLM 理解位置信息,(2)把精细的检测任务拆解成小而简单的任务,(3)利用 chain-of-thought 逐步优化检测结果,也尽可能的避免多模态大模型的幻觉。

与上述的 insights 对应,DetToolChain 包含两个关键设计:(1)一套全面的视觉处理提示(visual processing prompts),直接在图像中绘制,可以显著缩小视觉信息和文本信息之间的差距。(2)一套全面的检测推理提示 (detection reasoning prompts),增强对检测目标的空间理解,并通过样本自适应的检测工具链逐步确定最终的目标精确位置。

通过将 DetToolChain 与 MLLM 结合,如 GPT-4V 和 Gemini,可以在无需指令调优的情况下支持各种检测任务,包括开放词汇检测、描述目标检测、指称表达理解和定向目标检测。

论文标题:DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM
论文链接:https://arxiv.org/abs/2403.12488

什么是 DetToolChain?

如图 1 所示,对于给定的查询图像,MLLM 被指示进行以下步骤:

I. Formatting:将任务的原始输入格式转化为适当的指令模板,作为 MLLM 的输入;
II. Think:将特定的复杂检测任务分解为更简单的子任务,并从检测提示工具包中选择有效的提示(prompts);
III. Execute:按顺序迭代执行特定的提示(prompts);
IV. Respond:运用 MLLM 其自身的推理能力来监督整个检测过程并返回最终响应(final answer)。

检测提示工具包:Visual Processing Prompts

如图 2 所示,(1)Regional Amplifier 旨在增强 MLLMs 对感兴趣区域(ROI)的可见性,包括将原始图像裁剪成不同部分子区域,重点关注目标物体所在子区域;此外,放大功能则使得可以对图像中特定子区域进行细粒度观察。

(2)Spatial Measurement Standard 通过在原始图像上叠加带有线性刻度的尺子和指南针,为目标检测提供更明确的参考,如图 2 (2) 所示。辅助尺子和指南针使 MLLMs 能够利用叠加在图像上的平移和旋转参考输出准确的坐标和角度。本质上,这一辅助线简化了检测任务,使 MLLMs 能够读取物体的坐标,而不是直接预测它们。

(3)Scene Image Parser 标记预测的物体位置或关系,利用空间和上下文信息实现对图像的空间关系理解。Scene Image Parser 可以分为两类:首先,针对单个目标物体,我们用质心、凸包和带标签名称及框索引的边界框标记预测的物体。这些标记以不同格式表示物体位置信息,使 MLLM 能够检测不同形状和背景的多样物体,特别是形状不规则或被大量遮挡的物体。其次,针对多目标,我们通过场景图标记器(scene graph marker)连接不同物体的中心,以突出图像中物体之间的关系。基于场景图,MLLM 可以利用其上下文推理能力来优化预测的边界框并避免幻觉。

检测提示工具包:Detection Reasoning Prompts

为了提高预测框的可靠性,我们进行了检测推理提示(如表 1 所示),以检查预测结果并诊断可能存在的潜在问题。首先,我们提出了 Problem Insight Guider,突出困难问题并为查询图像提供有效的检测建议和相似例子。例如,针对图 3,Problem Insight Guider 将该查询定义为小物体检测的问题,并建议通过放大冲浪板区域来解决它。其次,为了利用 MLLMs 固有的空间和上下文能力,我们设计了 Spatial Relationship Explorer 和 Contextual Object Predictor,以确保检测结果符合常识。冲浪板可能与海洋共现(上下文知识),而冲浪者的脚附近应该有一个冲浪板(空间知识)。此外,我们应用 Self-Verification Promoter 来增强多轮响应的一致性。为了进一步提升 MLLMs 的推理能力,我们采用了广泛应用的 prompting 方法,例如 debating 和 self-debugging 等。详细描述请见原文。

实验:免训练也能超越微调方法

如表 2 所示,我们在 open vocabulary detection(OVD)上评估了我们的方法,测试了在 COCO OVD benchmark 中 17 个新类、48 个基础类和所有类的 AP50 结果。结果显示,使用我们的 DetToolChain,GPT-4V 和 Gemini 的性能均显著提升。

为了展示我们的方法在指称表达理解上的有效性,我们将我们的方法与其他零样本方法在 RefCOCO、RefCOCO + 和 RefCOCOg 数据集上进行了比较(表 5)。在 RefCOCO 上,DetToolChain 使得 GPT-4V 基线在 val、test-A 和 test-B 上的性能分别提升了 44.53%、46.11% 和 24.85%,展示了 DetToolChain 在 zero-shot 条件下优越的指称表达理解和定位性能。


。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

强过「黄金标准」,快3,500倍,成本低10万倍,物理建模融合AI,谷歌天气模型登Nature

编辑 | KX

地球正以前所未有的方式变暖,但气温升高对我们的未来意味着什么尚不完全清楚。全球哪些地区将面临长期干旱?大型热带风暴将使哪些沿海地区的洪灾更加频繁?为了回答这些问题,科学家需要能够准确预测地球气候。


现在,Google Research 研究团队提出一种将传统的基于物理建模与 ML 相结合的新方法——NeuralGCM,可以准确高效地模拟地球大气层。比现有模型更快、计算成本更低、更准确。

NeuralGCM 可以生成 2-15 天的天气预报,比目前基于物理的「黄金标准」模型更准确。在 1 至 10 天预报方面与机器学习模型相媲美,在 1 至 15 天预报方面与欧洲中期天气预报中心的集合预报相媲美。

所得到的模型非常快速且准确,在相似或更高准确度下,计算效率比当前最先进的模型高出 3 到 5 个数量级。

相关研究以「Neural general circulation models for weather and climate」为题,于 7 月 22 日发布在《Nature》上。

论文链接:https://www.nature.com/articles/s41586-024-07744-y

NeuralGCM 架构

NeuralGCM 将基于物理的大气循环模型与用于小规模过程的神经网络相结合。

NeuralGCM 的两个关键组成部分是:一个可微分的动力学 core,用于求解离散化的动力学控制方程;以及一个使用神经网络参数化物理过程的学习物理模块。

动力学 core 模拟在重力和科里奥利力(Coriolis Force)作用下大尺度流体运动和热力学过程。学习物理模块利用神经网络预测未解决过程对模拟场的影响,如云的形成、辐射传输、降水和亚网格尺度动力学。

NeuralGCM 转变气候建模

与传统模型一样,NeuralGCM 将地球大气层划分为立方体,并对空气和水分运动等大规模过程进行物理计算。但它不是依靠科学家制定的参数化来模拟云形成等小规模方面,而是使用神经网络从现有天气数据中学习这些事件的物理特性。

NeuralGCM 的一项关键创新是,研究人员在 JAX 中从头开始重写了大规模过程的数值求解器。这使其能够使用基于梯度的优化在多个时间步骤上「在线」调整耦合系统的行为。

相比之下,之前使用 ML 增强气候模型的尝试在数值稳定性方面遇到了很大困难,因为它们使用了「离线」训练,忽略了随着时间的推移而积累的小规模和大规模过程之间的关键反馈。在 JAX 中编写整个模型的另一个好…

视频链接:https://mp.weixin.qq.com/s/niZ_CpF1cI-2_dCzqdUanQ

NeuralGCM 预测了 2020 年全球热带气旋的路径。预测的风暴与 ECMWF 再分析 v5(ERA5)数据集中显示的当年实际气旋的数量和强度相匹配。(来源:Google Research)

开源、快速、高效的模型

NeuralGCM 比传统的 GCM 节省了几个数量级的计算量,计算成本也更低。

NeuralGCM 的 1.4° 模型比 X-SHiELD 快 3,500 倍以上,这意味着如果研究人员使用 X-SHiELD 模拟一年的大气,需要 20 天,而使用 NeuralGCM 只需 8 分钟。

虽然科学家只需要一台带有单个 TPU 的计算机即可运行 NeuralGCM,但他们需要请求访问具有 13,000 个 CPU 的超级计算机才能运行 X-SHiELD。

总体而言,使用 NeuralGCM 进行气候模拟的计算成本比使用 X-SHiELD 低 100,000 倍,速度的提高相当于高性能计算 25 年的进步。

视频链接:https://mp.weixin.qq.com/s/niZ_CpF1cI-2_dCzqdUanQ

NeuralGCM 可以比最先进的物理模型更快地模拟大气,同时以相当的精度生成预测。(来源:Google Research)

研究人员已将 NeuralGCM 的源代码和模型权重在 GitHub 上公开,供非商业使用。

开源地址:https://github.com/google-research/neuralgcm

此外,由于 NeuralGCM 可以在笔记本电脑上运行,而不需要超级计算机,研究人员希望更多的气候研究人员可以在他们的工作中使用这种最先进的模型。

未来方向

NeuralGCM 目前仅模拟地球大气层。研究人员希望最终将地球气候系统的其他方面(例如海洋和碳循环)纳入模型。这样,NeuralGCM 将在更长的时间尺度上进行预测,而不仅仅是预测几天和几周的天气,而是在气候时间尺度上进行预测。

NeuralGCM 提出了一种构建气候模型的新方法,这种方法可能比现有模型更快、计算成本更低、更准确。

基于物理定律和经验关系的模型在科学中无处不在。研究人员相信 NeuralGCM 的可微分混合建模方法有潜力将模拟技术转化为广泛的应用,例如材料发现、蛋白质折叠和多物理工程设计。

参考内容:

https://research.google/blog/fast-accurate-climate-modeling-with-neuralgcm/

https://x.com/GoogleAI/status/1815419503230287969

https://x.com/shoyer/status/1815453653710631271

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

小米投资的具身智能机器人公司和焊接巨头官宣战略合作

近期,小米集团投资的首个具身智能企业“小雨智造”,与行业巨头松下的合资公司唐山松下达成重大战略合作,旨在共同开发先进的大模型智能焊接机器人。

7月18日,唐山松下产业机器人有限公司(下称“唐山松下”)与北京小雨智造科技有限公司(下称“小雨智造”)的战略合作签约仪式在唐山松下总部圆满完成。


松下产业机器有限公司总经理桥山祐一郎、执行副总经理柳铮,小雨智造创始人兼CEO乔忠良、联合创始人兼副总裁李川等领导共同出席了签约仪式,双方均对本次合作寄予厚望并充满信心。本次签约,双方聚焦于智能焊接机器人品类,就产品定义、技术创新、标杆客户打造等进行全方位战略合作,利用大模型技术共同拓展智能焊接机器人市场,为用户打造易用、高效的智能焊接机器人产品。

现场签约图

与行业巨头合作,拓展智能焊接市场

据了解,小雨智造是一家大模型智能科技公司,由原小米集团核心创始团队成员乔忠良于2023年创立。公司聚焦于打造工业领域的大模型智能机器人平台,核心技术是打造“一脑多形”的具身智能机器人,即用一个高泛化能力的智能体核心,控制多个场景下、不同形态的机器人本体,此次“一脑多形”将应用在智能焊接机器人上。

作为日本松下在亚洲设立的电焊机机器人研发中心和制造基地,唐山松下现正以领先的技术和卓越品质助力中国经济发展。迄今为止,有超过100万台电焊机、近5万套焊接机器人活跃在工业领域。目前,唐山松下的焊机年销量已达10万台,连续20余年稳居中国第一。如今,小雨智造大模型智能机器人技术的融入将助力唐山松下领跑智能焊接新时代。

唐山松下拥有CNAS国家认可的实验室,其S-AWP弧焊专用机器人系统在汽车零部件和新能源电池盒等高端制造领域中占据重要地位。全国50家代理店和6家技术应用中心,构建了完善的销售与服务网络,具有60多年焊接设备开发制造经验,其焊接技术水平一直处于行业领先地位。随着人工智能等新一代智能技术的引入,传统焊接行业无疑将焕发新的产业活力,此次唐山松下与小雨智造战略合作将有机会重构智能焊接行业。

背靠小米,大佬背书

小雨智造的创始团队均为业内顶尖人才。

据了解,创始人乔忠良是小米的初创成员之一,作为MIUI研发负责人,他负责过MIUI 9到MIUI 12等产品;联合创始人王文林,曾任职小米软件系统平台部总经理,主导了“小米大脑”和IoT系统的开发。团队其他成员来自于华为、字节、微软等知名大厂,可谓是豪华配置。公司的远景目标,是打造一个大模型生态平台,携手各行业龙头企业,共同提升行业开发效率,加速工业制造的智能化升级。

实际上,在焊接这一传统制造业领域,小雨智造早有动作。此前,某重工龙头企业与小雨智造签订了百台焊接机器人战略采购协议,首批产品的联合运营已经启动。这次与唐山松下的合作,标志着小雨智造再次携手行业巨头在工业领域的又一重磅落地。

这家新兴企业在工业大模型智能机器人领域的“一脑多形”创新理念迅速崭露头角,资本界对小雨智造的追捧更是热情高涨,公司轻松完成了亿元种子轮融资,投资者包括小米集团、机器人领域专家王田苗和北京智源人工智能研究院。这不仅让小雨智造成为了小米集团对外投资的第一家具身智能领域公司,也体现了小米生态链对于未来智能制造趋势的精准把握。

“小米系”产业版图再扩张

小米在智能制造领域的深耕有目共睹,自2017年起布局智能制造之后,小米智能工厂几经升级迭代。仅2024年内,便落成两座小米智能工厂并启动生产。

7月,位于北京昌平的新一代小米手机智能工厂正式启用,该工厂获得了“国家级智能制造标杆企业”认证,拥有11条手机产线和汽车电子零部件产线,年产能1000万台旗舰手机。据介绍,该工厂是国内智能化和数字化程度最高的手机工厂之一,拥有包含贴片、板测、组装、整机测试、成品包装全工艺段,是第二代手机高自动化率智能产线。

此前3月,北京亦庄小米汽车超级工厂也正式揭幕,4月便举办了小米SU7首批交付仪式。雷军当时透露,小米汽车工厂的目标是6月单月交付一万辆,全年交付10万辆。

在机器人技术领域,小米也不忘利用自己的技术优势,释放影响力。2021年,小米成立机器人实验室,推出了全尺寸人形仿生机器人CyberOne和仿生四足机器狗Cyberdog。2023年,小米将这一业务剥离,成立”北京小米机器人技术有限公司”,并获得亦庄国投的战略投资。

小雨智造作为小米在智能制造领域布局的一环,此次投资不仅进一步壮大了“小米系”的阵容,更体现了小米在洞察市场趋势、进行前瞻战略布局方面的敏锐洞察力和卓越决策力,小雨智造有望为小米产业链的未来增添更多的可能性。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

芯片暴跌,全怪特朗普

据路透社报道,周三,华尔街半导体指数市值蒸发逾 5000 亿美元,创下 2020 年以来最糟糕的一个交易日。之所以芯片会出现暴跌,部分归因于此前的报道称,美国正在考虑加强对中国先进半导体技术的出口限制。


与此同时,美国共和党总统候选人唐纳德·特朗普表示,台湾作为芯片生产中心应当向美国支付保护费。因为根据他的观点,台湾抢走了美国的芯片业务,此举加剧了芯片类股的抛售。路透社表示,近年来,美国政府对美国半导体制造业采取了更具保护性的立场…(内容过长,省略)

美国政府的半导体法案与补贴旨在振兴国内半导体产业,减少对外国厂商的依赖,但特朗普的言论令人对这些补贴的有效性与未来产生怀疑,引发市场动荡。

在芯片公司大跌之际,唯有英特尔和格芯这些美国本土晶圆制造商收货利好。数据宣示,英特尔公司和格罗方德公司周三上涨,不受芯片公司普遍抛售的影响,因为投资者猜测这两家公司可能受益于拜登或特朗普政府的新政策。英特尔股价一度上涨 8.2%,Globalfoundries 股价上涨 14%。Dakota Wealth Management 高级投资组合经理罗伯特·帕夫利克 (Robert Pavlik) 表示:“特朗普的言论让英特尔受益,英特尔在美国确实拥有制造能力,因此它将是受益者。”…(内容过长,省略)

在这波动荡中,费城半导体的 30 个成分股中,除了 5 个股票以外,其余均下跌。

参考链接
- Reuters
- Bloomberg
- FT
- CNBC
- Bloomberg
- The Register
- NY Times

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB