GPTNB · AI资讯与技术分享站

2024-09-15发表2025-03-21更新 ByteAILab 5 分钟读完 (大约815个字)

inVia Robotics荣获2024年“顶尖供应链奖”

Recognized for Transforming Scholastic Canada’s Fulfillment with Intelligent Automation
inVia Robotics荣获2024年“顶尖供应链项目”奖，表彰其通过智能自动化技术改造Scholastic Canada的履约操作。{ width=60% }

该奖由Supply & Demand Chain Executive和Food Logistics颁发，旨在表彰优化和精简供应链操作的创新项目。inVia的最佳人工智能驱动软件和机器人解决方案因其显著提升效率、降低成本并增强Scholastic Canada的可扩展性而获选。

面临订单模式的变化和需要管理更广泛的库存，Scholastic Canada在与多家供应商评估合作之后选择了与inVia Robotics合作，以现代化其履约操作。inVia的方法首先利用Twin IQ智能自动化建模和优化工作流程，随后实施了由AI驱动的仓库执行系统（WES）软件inVia Logic来编排任务。订单从Scholastic的WMS流向inVia Logic，后者根据最后期限和可用资源规划和优先处理任务。自主移动机器人（AMR）随后检索产品并将其交付给inVia PickerWall，使得员工能够高效无延迟地选取商品。

自部署inVia的自动化技术以来，Scholastic Canada的拣选速率提高了300%，劳动成本降低了70%，并在繁忙季节消除了周末班次，同时减少了加班并提高了员工留任率。

“随着我们进入电子商务和在线订购领域，客户开始从更大的SKU池中下单。我们的拣选区域不断增长，行走时间增加，拖慢了订单履约速度。我们需要一种解决方案来减少行走，使我们能够更有效地拣选订单，”Scholastic Canada的配送运营副总裁Chad MacGillivray表示。“我们与很多供应商进行了讨论，最终选择了与inVia合作。他们的机器人即服务解决方案，包括优化工作流程的软件和自动化任务的机器人，使我们能够将拣选速率提高三倍，同时以最少的资本投资解决劳动力短缺问题。”

“过去的12个月见证了供应链和物流领域的公司升级、增强、采用和调整以实现整条链路上更高效的运作。公司实施了其他公司的软件和技术以更智能地协同工作。他们的合作伙伴关系培育了韧性，并将重点放在旨在使供应链空间更安全和更高效的项目上，”Supply & Demand Chain Executive和Food Logistics的主编Marina Mayer如是说，“现在是时候庆祝这些项目了！”

注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要输出为Makedown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-15发表2025-03-21更新 ByteAILab 3 分钟读完 (大约450个字)

SentinelOne为两项解决方案获得FedRAMP高级授权

Status in government’s most rigorous security compliance framework validates strength of company’s industry-leading AI-powered security platform and commitment to empowering federal agencies with innovations that enhance cyberdefenses and keep critical infrastructure and information safe
SentinelOne® (NYSE: S), a global leader in AI-powered security, today announced that the SentinelOne Singularity™ Platform and Singularity Data Lake have achieved Federal Risk and Authorization Management Program (FedRAMP®) authorization at the High Impact Level from the FedRAMP Program Management Office. The authorization validates the strength of SentinelOne’s AI-powered solutions in providing industry-leading protection against cyber attacks to US Federal, Public Sector, Defense Industrial Base (DIB) and Critical Infrastructure entities.
The FedRAMP High Authorization certifies that SentinelOne has undergone and passed an extensive and rigorous third-party security assessment, demonstrating our compliance with NIST SP 800-53 security controls to protect the government’s most sensitive, unclassified data. This authorization reinforces SentinelOne’s ability to help the US Federal government secure their most sensitive and critical information assets. The SentinelOne Singularity Platform and Singularity Data Lake, delivered as cloud-native SaaS offerings, enable public sector entities to meet stringent security and compliance mandates including Executive Order (EO) 14028 and Office of Management and Budget (OMB) M-21-31.
With SentinelOne’s FedRAMP High Authorization, more federal entities subject to stricter compliance requirements can now purchase the Singularity Platform and Singularity Data Lake and leverage the offerings to quickly protect, detect, and respond to threats in real time across attack surfaces including endpoint and cloud. Using the solution, security teams can:

Aggregate all security data and orchestrate investigatory and response actions through integration with many trusted security vendors in a single, unified console.
Align with M-21-31 by providing cost-effective storage of 12 months hot and 18 months cold across EDR telemetry as well third-party data sources.
Receive AI-driven context across threats to bring high–fidelity alerts to analysts and reduce mean time to detect and respond.

“SentinelOne’s authorization at the FedRAMP High Impact Level is a significant milestone in our journey to secure the nation’s most critical assets,” said Michael Loefflad, Senior Director, Federal Sales Engineering, SentinelOne. “With our enhanced status, government agencies can arm themselves with world-class protection and visibility and confidently defend against the increasing number of attacks they face through one, autonomous, easy-to-maintain platform.。{ width=60% }

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-15发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1204个字)

CSA、Astrix安全：非人身份安全调查报告

新数据显示，五分之一的组织遭遇与非人身份安全有关的安全事件；仅15%的组织对其安全能力保持信心
云安全联盟（CSA）是全球领先的致力于定义标准、认证和最佳实践以帮助确保安全云计算环境的组织，Astrix Security 是企业信赖的非人身份安全解决方案，在今天宣布了一项独创的研究，揭示了目前非人身份（NHI）安全的现状。{ width=60% }

《非人身份安全调查报告》的调查涵盖了800多名专家的意见，以及来自财富500强公司的200多万个监控的NHIs的数据，揭示了一个重大的安全差距：组织在保护非人身份方面远不如保护人类同行。最常见的挑战包括服务账户管理和NHI发现。尽管调查还显示，越来越多的组织意识到投资于NHI安全的重要性，已有4分之1的组织投资于这些能力，另有60%计划在未来十二个月内投资。

云安全联盟和Astrix希望进一步深入探讨组织如何看待和处理NHI安全，旨在揭示在保护API密钥、OAuth令牌等方面的具体差距和痛点。报告揭示了一些关键发现：
NHI攻击激增，防御滞后：近五分之一的组织曾遭遇与NHIs有关的安全事件。NHIs相关攻击最常见的原因是：缺乏凭证轮换（45%）；监控和日志记录不足（37%）；过度授权的账户/身份（37%）。对比保护人类身份，对于保护NHIs，组织的安全方法信心不足：只有10个组织中有1.5个组织对自己保护NHIs的能力非常有信心，而对于保护人类身份，这个比例近四分之一。保护NHIs与保护人类身份相比的信心不足可能是因为其环境中NHIs的数量非常庞大，通常比人类身份多20到1。零散的方法导致安全事件：这些工具并非专门旨在解决NHI安全挑战；例如：58%使用身份和访问管理（IAM）系统；54%使用特权访问管理（PAM）；40%使用API安全措施；38%采用零信任/最小权限策略；36%使用密码管理工具。因此，导致NHI安全事件的三个最常见原因包括缺乏凭证轮换（45%）、监控和日志记录不足（37%）以及过度授权的账户或身份（37%）。在与NHIs相关的基本安全实践上遇到困难：组织面临的主要挑战包括审计和监控（25%）；访问和权限（25%）；NHIs的发现（24%）；以及政策强化（21%）。另一个重要关注点是在OAuth应用程序连接的第三方供应商中获得可见性的困难，有38%的组织报告称他们对第三方供应商没有或低可见性，另有47%仅具有部分可见性。

Astrix Security 公司的首席执行官兼联合创始人Alon Jackson表示：“随着组织越来越认识到强大的NHI安全的重要性，投资规模的激增反映了对保护我们的数字基础设施采取积极立场的态度。关键现在是确保这些投资流入正确的工具，特别是隐患仍然存在。NHIs呈现出与人类身份不同的独特挑战，使得它们的安全性复杂而严峻。解决NHI安全问题需要不断完善、适应性策略，并统一努力应对不断演变的威胁。”

要获取完整的报告，请点击这里下载：https://cloudsecurityalliance.org/artifacts/state-of-non-human-identity-security-survey-report。
Yeoh 将在9月18日在纽约世贸中心举行的首届非人身份安全大会上提供对调查结果的深入分析。要注册参加这个专注于NHI安全领域前沿趋势和策略的动态半天会议，请访问https://www.nhi-security.com/.。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要输出为Makedown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-15发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1250个字)

Tines宣布Workbench正式推出

新的创新工具赋能安全团队有效降低安全和隐私风险
Tines，智能安全工作流领军者，今天宣布其全新创新人工智能聊天界面Workbench正式推出。{ width=60% }

该产品使安全团队能够安全地利用大型语言模型（LLMs）与专有数据交互，并动态编排关键任务流程。使用自然语言，Tines Workbench使用户可以查询、收集和分析信息，跨应用程序实时采取行动，确定下一步操作。

2024年，利用安全人工智能和自动化的公司相比没有使用这些技术的公司，报告的数据泄露成本平均节省了222万美元，但其全面潜力尚未得到实现，因为这些技术受其了解的限制。作为企业可用的工具，Tines Workbench帮助安全团队更加高效运作，降低风险，加快价值实现速度，并更快地达成目标。通过在受控环境中将人工智能能力无缝集成到技术堆栈中的关键工作流，Workbench能够消除人员、流程和技术之间的障碍，使组织内更广泛的层次能够安全地利用数据、降低风险并优化盈利能力。

Tines的联合创始人兼首席执行官Eoin Hinchy表示：“人工智能有巨大的潜力革新关键团队应对最紧迫挑战的方式。目前的解决方案缺乏安全团队所需的深度和灵活性，限制了它们在现实场景中的有效性。Workbench是多年密集开发的成果，无缝融合了Tines在连接性、自定义工作流以及企业级安全方面的优势，以及LLMs在总结和自然语言处理等领域的强大能力。我们相信它将为我们的客户和用户带来卓越价值。”

建立在Tines核心平台架构之上的Tines Workbench是供应商中立的，并利用现成的和定制工作流的能力，为客户正在使用的AI语言模型提供可靠的背景信息，结合了熟悉的功能，如确认、审计日志和基于角色的访问控制（RBAC）。用户完全掌控，引导自治行动同时接收引用数据来源的响应，以促进更自信的决策过程。

平均安全团队依赖76种不同的工具，Tines Workbench与检索增强生成（RAG）和传统的特定供应商机载副驾驶相比显著，后者通过对数据的片段式访问造成行动障碍。相反，Tines的Workbench使安全团队能够协作、获取背景信息并从单一界面中果断采取行动，无需专业知识或基础架构即可无缝集成到现有系统和工作流程中。

IDC Research的安全与信任产品副总裁Chris Kissel表示：“企业数据整合和访问是一个尚未解决且令人望而却步的挑战。传统安全团队缺乏兼容的工具，可以帮助他们有效地摄取、存储和分析所有企业数据。Tines Workbench解决了这一市场需求，允许安全团队优化运营并安全地在现有情况下集成人工智能技术。”

Tines Workbench内置了防止幻觉的监护栏，减少误导性答案的可能性。它还能理解复杂的查询并清晰简洁地解释复杂主题，确保AI生成的见解与组织的专有背景相关且有根据。

参与Tines Workbench阿尔法计划的客户正在从各种用例中获益，包括丰富用户和资产信息，调查EDR警报，分析和阻止IP、域和URL，进行欺诈分析，以及进行实时响应和法医调查。

Tines的合作伙伴对Workbench的变革效果同样充满热情。
Elastic安全产品管理副总裁Mike Nichols表示：“我们与Tines的长期合作通过弹性的深度检测能力和Tines的强大自动化能力为我们的共同客户带来了巨大价值。我们很高兴看到Workbench将如何继续为我们的共同客户提供服务，通过集成的人工智能界面节省时间，自动化安全工作流，并迅速应对威胁。”

---
感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：[GPTNB](https://gptnb.com)。

2024-09-15发表2025-03-21更新 ByteAILab 3 分钟读完 (大约465个字)

Arm宣布任命Young Sohn加入其董事会

Young Sohn将为Arm董事会带来多样的半导体经验。{ width=60% }

Arm（纳斯达克股票代码：ARM）今天宣布任命新董事会成员Young Sohn。Young Sohn是HARMAN董事会主席，三星电子高级顾问，Cadence董事会成员，以及Walden Catalyst创始管理合伙人。在半导体行业，Young Sohn拥有深厚的经验，涵盖业务发展、投资策略和可持续性，他将与Arm携手，继续在关键市场推动增长，并为人工智能时代提供基础计算平台。

Arm首席执行官Rene Haas表示：“Young带来的丰富经验将为Arm无比珍贵，因为我们继续多元化业务，并努力解决人工智能时代的真实而复杂的计算挑战。Young在一系列世界重要半导体公司的长期领导职位上，拥有出色的履历，我期待与他紧密合作，共同定义计算的未来。”

Young Sohn表示：“曾经在Arm董事会任职的经历，使我对那些依赖Arm技术的世界有着独特的视角。”他继续说道：“Arm的计算平台将对未来的创新至关重要，特别是在人工智能领域，我期待成为推动计算未来的团队的一部分。”

此外，Tony Fadell将继续支持Arm，我们正式任命他为公司的战略顾问，使我们能够直接受益于他广泛的行业知识和经验。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-15发表2025-03-21更新 ByteAILab 9 分钟读完 (大约1332个字)

Tines宣布Workbench的一般可用性

新型创新工具赋予安全团队有效减轻安全和隐私风险的能力
Tines，智能、安全工作流领导者，今日宣布其新的创新AI聊天界面Workbench的一般可用性。{ width=60% }

该产品使安全团队能够安全地利用大型语言模型(LLMs)与专有数据进行交互，并动态编排关键任务流程。使用自然语言，Tines Workbench使用户能够查询、收集和分析信息，实时处理跨应用程序的数据，并确定下一步操作。

2024年，利用安全AI和自动化的公司，据称较不使用这些技术的公司节省了平均222万美元的数据泄露成本，但其全面潜力尚未被实现，因为技术受限于所知。面向企业的Tines Workbench帮助安全团队更有效地运作，减少风险，加快投资回报时间，并更快地实现目标。Workbench通过在受控环境中在技术堆栈中大规模无缝集成AI功能与关键任务工作流，实现了这一目标。这款新产品与Tines的核心使命保持一致，即使其平台专为消除组织内外人员、流程和技术之间的障碍而构建，使组织内更多层次的人员能够安全地利用数据，降低风险，优化盈利能力。

“Tines的联合创始人兼首席执行官Eoin Hinchy表示:“人们实际面临的挑战，AI有巨大潜力改变着如何解决任务关键团队的最紧迫挑战”。目前的解决方案缺乏安全团队所需的深度和灵活性，限制了它们在实际场景中的有效性。Workbench是多年密集开发的结果，无缝地融合了Tines在连接性、自定义工作流程和企业级安全方面的优势与LLMs在摘要和自然语言处理等领域的实力。我们相信它将为我们的客户和用户带来卓越的价值。”

建立在Tines的核心平台架构之上，Tines Workbench是供应商无关的，利用现成的和自定义工作流的力量为客户使用的AI语言模型提供可靠的上下文，结合了熟悉的功能，如确认、审计日志和基于角色的访问控制（RBAC）。用户保持完全控制，引导自主操作，同时收到引用数据来源的响应，以促进更自信的决策。

由平均安全团队依赖76种不同工具的情况来看，Tines Workbench与检索增强生成（RAG）和传统的特定厂商副驾驶相比显著，后者通过对数据的分段访问创建行动障碍。相反，Tines的Workbench使安全团队能够从一个界面协作、获取上下文并做出果断的决定，与现有系统和工作流无缝集成，无需专门的知识或基础设施。

IDC研究的副总裁Security & Trust Products Chris Kissel表示：“企业数据整合和访问是一个尚未解决且令人望而生畏的挑战。传统的安全团队缺乏兼容的工具，使他们无法有效地摄取、存储和分析所有企业数据。Tines Workbench解决了这一市场需求，允许安全团队简化操作，并在当前安全地集成AI技术。”

Tines Workbench包括内置的安全措施，以避免幻觉，并减少误导性答案的可能性。它还能理解复杂查询并清晰简洁地解释复杂主题，确保AI生成的见解与组织的专有背景相关且扎根。

参与Tines Workbench阿尔法计划的客户正在从各种用例中获得价值，包括丰富用户和资产信息，调查EDR警报，分析和阻止IP、域和URL，执行欺诈分析，以及运行实时响应和法医调查。

Tines的合作伙伴对Workbench的变革效果同样充满热情。
“我们与Tines的长期合作给我们共同的客户带来了巨大价值，通过Elastic深层次检测能力与Tines强大的自动化能力相结合，”Elastic安全产品管理副总裁Mike Nichols表示。“我们期待看到Workbench如何继续为我们共同的客户服务，通过集成AI技术、通过一个集成的AI界面自动化安全工作流程并快速应对威胁，为他们节省时间。”

注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要输出为Markdown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-15发表2025-03-21更新 ByteAILab 6 分钟读完 (大约962个字)

太能写了！体验完夸克CueMe智能助手，其他AI写作工具可以弃了

文章来源：智东西
原文链接：https://mp.weixin.qq.com/s/-LYKGOKiAsjWI1WSMht_yg

图片来源：由GPTNB生成

缺乏灵感、表达不清、深度不够？很多写作者缺少的是一个强大好用的AI写作助手。
9月12日，夸克的全新智能对话助手CueMe，正式亮相了。

据了解，夸克CueMe的一大特色是AI写作能力突出，不仅支持全体裁写作，并且不同体裁、不同篇幅都能生成高质量内容。这会是一个解放写作者的法宝吗？
怀着这样的好奇，智东西小编昨天一大早打开电脑访问了cueme.cn网站，把工作中可能涉及的写作任务，从采访提纲到深度报告，从口播文案到小红书种草文，通通交给CueMe试了一遍。第一感受是“太能写了”！
夸克CueMe网页版首页
不瞒大家说，小编近一年了试了很多个AI写作工具，接近“用麻了”的状态，但没有一款能满足我的所有需求，反倒“废话制造机”、“谣言怪”无数，很多工具都快被我弃了。
但夸克CueMe带来了全新的体验。通过两天的深度体验，我最大的感觉是它做到了功能完整和使用靠谱。具体来说，它有五个心动点吸引了我：体裁丰富、内容准确、文本流畅、字数可控和超长文本。
当下，各大科技巨头和AI独角兽推出的大模型应用层出不穷，行业正从“卷模型”走向“卷体验”，也开始初步涌现出一些爆款应用。
长期以来，夸克App稳居苹果App Store免费应用前列，而全新的CueMe能否成为新爆款？我们来体验看一看.

01. CueMe五个心动点
其他AI写作工具快被我弃了

据了解，夸克CueMe基于夸克大模型自主研发，可支持上千种不同体裁的写作需求，用户可选择生成符合其个性化需求的内容，支持生成最长2万字内容，具有内容结构合理、逻辑清晰等特点.
大致了解了夸克CueMe的产品定位，我们把重头戏放到上手体验上.
以CueMe网页版为例，小编试用后发现，CueMe至少拥有体裁丰富、内容准确、文本流畅、字数可控、超长文本五个打动我的心动点.
1、第一题：从通知、报告到微小说，多体裁挑战
夸克CueMe能胜任各种体裁，大多数内容所得即可用.
由于测试这题的时候正值中秋节放假前，于是我请夸克CueMe帮我写了一则放假通知。提示词：写一个今年中秋节的放假通知，写清楚放假时间，放上简单祝福语。CueMe准确给出了放假时间这一最核心信息，措辞也很得体.
暑期刚结束，不少实习生也有写实习报告的需要，于是我输入了写一份在《智东西》实习的报告需求.
如下图所示，夸克CueMe紧紧围绕…
…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-15发表2025-03-21更新 ByteAILab 4 分钟读完 (大约532个字)

实测 | GPT-o1：学会了思考，也学会了偷懒

文章来源：AI科技评论

原文链接：https://mp.weixin.qq.com/s/gZY1tLetXXvvzvW_NyZttw

图片来源：由GPTNB生成

我可能是全网第一个花钱向 GPT-o1 提问，人在深圳靠一条网线横跨太平洋到美国硅谷让 OpenAI 最强大模型 GPT-o1 模型思考 38 秒之后、宕机了半小时选择拒绝回答问题并收了我2.5块（一瓶肥宅快乐水）的韭菜……

（因为这个模型只支持订阅使用并且一个月只回复120条内容，plus会员订阅费1个月20美刀，约等于1.25软妹币1条回答……）

OpenAI 今天凌晨突击更新 GPT-o1，早上起来全网都在开香槟，大意就是突破了LLM极限，新模型能力在生物、物理比肩甚至超越人类博士生。另一个特性就是 o1 模型会用更长的时间思考以此来尽可能完善的回答问题。

针对上面提到的两个特性，小编找了几个需要强综合逻辑思考能力并包含物理、生物、数学能力的题目来测试GPT-o1 的能力到底如何。以下是题目设置：

数学题测试

数学题图片

「人力显卡」所有人类都用笔算/心算产生的算力能否推翻英伟达的统治？

…

综合物理题测试

物理题图片

「人力地震」地球上所有人在同一个地方同时起跳落地，地球会发生什么？

…

生物题

「不孕不育会遗传不？」如果一个人体内所有的DNA在一瞬间消失了，会发生什么？

…

原文链接

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-15发表2025-03-21更新 ByteAILab 12 分钟读完 (大约1869个字)

OpenAI o1模型推理能力大幅提升的背后：重复采样如何提升AI推理能力

今天OpenAI对外发布了o1模型，最大的特点便是推理能力大大增强，推理速度大大变慢。传统大模型都在比拼降低响应延迟的时候，OpenAI竟然做了一个“超慢”模型。

为什么会这样？
答案就在下面这张图里，它解释了o1的推理工作原理，也回答了它为啥变慢。

o1模型的特点是在回答前进行思考，并不直接给出推理结果，响应用户之前会产生长串的内部思维链，生成不同的方法，进行验证尝试，有成功的，也有失败的，但不会展示给用户，就像是打草稿一样，直到得出答案，最后再丢弃草稿，以保持回答简洁，上下文干净。这样的好处是既能进行复杂推理，又能保持对话的连贯和效率。也正是如此，为了区分内部推理使用的token与输入输出token，引入了推理token的概念，也就是“草稿”token，值得注意的是，这一token量可能会大大高于输入输出token数，进而带来很高的使用成本。

测试时计算
这里先不谈创新的大规模强化学习算法在模型训练时对性能的提升因素，而聚焦在另一个提升模型性能的因素上，这就是测试时计算。恰好，前几天在这篇文章《OpenAI前研究科学家开源面向未来的提示工程库 ell，重新定义提示工程》里提到了测试时计算的概念（他也来自openAI！可见他们不仅首先提出了训练时的缩放定律（scaling laws），也很早就洞察到推理时缩放定律），其诀窍便是”别人问问题，别急着回答，先在心里打草稿，想好了再回答“，虽然回答速度慢了，但是准确率高了。这一过程中一个很重要的内容便是重复采样。

咱们今天介绍这一领域的代表论文《Large Language Monkeys: Scaling Inference Compute with Repeated Sampling》，该研究揭示了重复采样（repeated sampling）能够显著提升AI模型的推理能力，特别是在编程和数学等领域。

重复采样：让AI多试几次
重复采样的核心思想很简单：不要局限于模型的单次输出，而是让它生成多个答案，然后从中选择最佳结果。这种方法类似于人类在解决复杂问题时的”头脑风暴”过程，通过多次尝试来提高找到正确解决方案的概率。

研究发现，随着采样次数的增加，模型解决问题的覆盖率（coverage）呈现出显著的增长。例如，在CodeContests编程竞赛数据集上，Gemma-2B模型的覆盖率从单次尝试的0.02%飙升至10,000次尝试的7.1%，增长了惊人的300多倍！

更令人兴奋的是，这种提升效果在多个任务和模型上都得到了验证。从数学问题到形式化证明，再到实际的软件工程任务，重复采样都展现出了强大的效果。

小模型也能办大事
重复采样的一个重要应用是amplify（放大）较小模型的能力。在SWE-bench Lite（一个真实世界的GitHub问题数据集）上，DeepSeek-Coder-V2-Instruct模型单次尝试的成功率仅为15.9%。然而，当我们允许它尝试250次时，成功率飙升至56%，远超当前单次尝试的最高水平43%（由更强大的GPT-4和Claude 3.5 Sonnet模型混合实现）。

这一发现具有重要意义：它表明，我们可以通过增加推理计算量来”放大”较弱模型的能力，甚至超越更强大但只有一次尝试机会的模型。这为AI应用提供了一种新的优化思路，特别是在资源受限或需要控制成本的场景下。

推理计算的”摩尔定律”？
研究中一个有趣的发现是，覆盖率的增长似乎遵循一种类似于摩尔定律的规律。在许多情况下，log(覆盖率)与采样次数的关系近似于幂律分布。这意味着，我们可能正在见证一种新的”推理计算的缩放定律”的诞生，类似于训练计算量与模型性能之间已经被广泛研究的关系。

这一发现不仅具有理论意义，还为实践提供了指导。它暗示着我们可以通过预测来估算需要多少次采样才能达到特定的性能水平，从而更好地平衡计算资源和期望结果。

成本效益的新视角
重复采样还为AI应用的成本效益提供了新的思考角度。研究发现，在某些任务中，使用较小的模型进行多次采样可能比使用大型模型进行单次尝试更具成本效益。例如，在SWE-bench Lite任务中，使用DeepSeek模型进行5次采样不仅解决的问题更多，而且成本还比使用GPT-4或Claude 3.5 Sonnet进行单次尝试低3倍以上。

这一发现对于AI服务提供商和用户都具有重要启示。它提示我们，在评估AI解决方案时，不应仅仅关注模型的大小或单次性能，还应考虑通过重复采样来优化成本和效果的平衡。

尽管重复采样展现出了巨大潜力，但研究也指出了一些挑战。最突出的是在缺乏自动验证工具的领域（如某些数学问题），如何从大量生成的样本中准确识别正确答案仍是一个待解决的问题。现有的方法，如多数投票或奖励模型评分，在样本数量超过一定规模后效果提升不明显，这表明我们还需要更先进的验证技术。

小结
“Large Language Monkeys”研究以及OpenAI o1模型的能力佐证，将会掀起AI推理增强模型性能的新思路探索热潮，可以预见将会出现越来越多智能的采样策略，更为高效的验证筛选技术等。

从某种角度讲，就像有人说“o1是工程化的产物”，在执着于模型性能本身提升的同时，通过一些看似简单的技巧，也能够对模型性能带来巨大提升，这也为我们思考AI系统的设计和优化提供了新的视角。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-15发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1180个字)

相柳AI热度破亿，长视频平台押宝用户端AIGC

文章来源：娱乐资本论
原文链接：https://mp.weixin.qq.com/s/VwpB1qIBmF4OGdf7mCYZDg

图片来源：由GPTNB生成

最近小娱跟剧集AI对话玩得不亦乐乎，在小红书搜“相柳AI”出现6000+帖子，“论AI相柳的100个玩法”“教你如何攻克相柳AI”都有上千的点赞和讨论量，热度一直延续至《长相思2》完结近两个月之后。

**长视频平台在AI领域的布局已久，但联合剧综推出AI角色对话功能还不到半年。

**
…

左滑看剧情过半后的回答
…

从制作端到用户端，AIGC应用走向短链路？

“AI搜片”满足的是用户在观看前的搜索体验，为用户推荐更个性化的片单。而AI角色对话则是满足用户的情感需求，优化观剧中和观剧后的体验。

据娱乐资本论了解，目前长视频平台用户对AI角色有以下几类需求：

一类是希望和角色进行基于剧情世界观的交流，比如询问角色对于剧中其他角色的情感态度，和反派角色激辩吵架；一类是希望和角色进行“跨次元”的交流，比如对喜爱的角色表达爱意和祝福，倾诉日常烦恼，获取情绪价值。这两类需求，主要由角色对话功能满足，用户在剧集断更期或者完播后，会依然感觉到角色的陪伴，获得安心感。
第三类需求更像是互动小说，年轻用户希望和喜爱的角色展开一段特定的剧情，有1V1恋爱的剧情，也有和剧中“小队”共赴冒险的剧情，目前可以由小剧场功能来满足，比起和角色随心所欲的聊天，小剧场提供的是更为集中、激烈的经典情绪体验。
最后一类，在消费过一些悬疑推理剧目后，用户希望自己也能参与到推理的过程中。
…

演员新作热播时，其过往作品的AI角色人气也会受带动随之提升

演员新作热播时，其过往作品的AI角色人气也会受带动随之提升。比如《四方馆》热播期间，主角檀健次在《猎罪图鉴》中饰演的“沈翊”就新进入了人气榜单TOP5。8月7日《苍兰诀》开播两周年之际，男主角“东方青苍”的人气值也在当日登顶，优质IP与AI 角色互动共同形成了长尾效应。

娱乐资本论发现，长视频平台开发AI角色时更注重“贴脸”，基于剧情本身出发，角色在设定好的“世界观”下进行对话，优化用户的追剧体验，让用户与角色IP进行一对一的情感交流，共创开发专属番外，延续IP的生命力。

从社交平台上的用户晒出的对话截图和反馈来看，用户会对比角色AI是否拥有更像真人的声音，以及是否能按照用户意愿，生成合乎心意的答案，比如攻略冷面相柳，让其爱上自己（而非女主小夭）。比起角色ooc（不符合个性），用户更在意自己的对话内容是否足够隐私。

“AI技术与内容产业结合，以提供更丰富、个性化的用户体验，确实是现在的一种大趋势”腾讯元宝团队负责人总结道。

在注重制作端的虚拟拍摄、AIGC应用之外，这些轻量化的AIGC产品为长视频平台的用户运营与宣发环节提供了更多可能，大模型+大IP的结合还有更多想象空间，随着大模型能力的快速迭代，期待长视频平台开发出更多创新玩法。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要输出为Makedown源文件格式内容。

数学题测试

综合物理题测试

生物题

原文链接

在注重制作端的虚拟拍摄、AIGC应用之外，这些轻量化的AIGC产品为长视频平台的用户运营与宣发环节提供了更多可能，大模型+大IP的结合还有更多想象空间，随着大模型能力的快速迭代，期待长视频平台开发出更多创新玩法。

链接

分类

最新文章

归档

标签

订阅更新