GPTNB · AI资讯与技术分享站

2024-06-23发表2025-03-21更新 ByteAILab 6 分钟读完 (大约906个字)

美国公共部门实体现在可以利用领先的网络安全技术，实现向云端过渡
Broadcom公司（纳斯达克股票代码：AVGO）今天宣布，其Symantec Cloud Secure Web Gateway（SWG）解决方案已获得联邦风险和授权管理计划（FedRAMP®）授权，进一步扩大了Broadcom面向美国部门的授权解决方案组合。{ width=60% }

Symantec Cloud SWG为采用安全服务边缘（SSE）架构的美国联邦机构提供全面的云托管安全性。该解决方案使美国联邦机构能够以经济实惠的方式将安全服务从本地数据中心迁移到云原生服务，而无需牺牲安全性或设计新的策略和工作流程。
这项获得FedRAMP授权的服务可作为Symantec Gov Cloud - Web Protection的一部分提供，以提供一种灵活的部署选项的解决方案。许多联邦机构在向云端迁移的过程中仍然需要支持本地安全环境。Gov Cloud -Web Protection独特地提供了云托管的安全性，同时也支持Symantec网络安全解决方案的完整许可。客户可以选择在本地部署安全组件或使用云端。Gov Cloud -Web Protection包括领先市场的Symantec Secure Web Gateway、反向代理、深度内容检查、管理中心和云报告、智能服务用于应用程序可见性和控制，以及全流量解密。
Symantec Gov Cloud -Web保护的关键好处
保护用户、设备和数据免受所有位置（远程、分支机构和总部）已知和未知威胁的侵害。部署在构建在顶级云服务提供商之上的云原生、高度扩展和性能密集基础设施。这是提供YouTube、Google搜索和其他世界级服务的相同骨干。通过支持云端、本地或混合部署的简单用户许可、简化和简化采购、配置、培训和管理。为安全接入服务边缘（SASE）提供坚实基础，为任何用户、任何设备、任何位置提供安全且快速的网络访问。
“许多美国联邦机构依赖于Symantec安全解决方案来保护关键数据、资源和数千用户，”Broadcom企业安全集团副总裁兼总经理Rob Greer表示。“现在Symantec的Cloud SWG解决方案已经获得FedRAMP授权地位，这些机构知道他们的安全需求已得到满足，并且可以按照自己的步伐过渡到云端。我们对这一成就感到兴奋，这显示了我们确保联邦机构安全并满足最高保护标准的承诺。”
“获得FedRAMP认证是与将基础设施迁移到云端的美国联邦机构建立信任的关键步骤，”IDC安全与信任集团副总裁Frank Dickson表示。“这种严格的认证不仅确保云端解决方案的安全性和合规性，还为安全解决方案供应商提供了更好地满足联邦空间严格需求的机会。”

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-23发表2025-03-21更新 ByteAILab 3 分钟读完 (大约498个字)

Firefly Neuroscience任命Samer Kaba博士为首席医疗官

Firefly扩大了领导团队，即将完成与WaveDancer的合并
Firefly Neuroscience, Inc.（以下简称“Firefly”或“公司”）是一家开拓性的人工智能（AI）驱动公司，致力于开发创新的神经科学解决方案，以改善患有精神疾病和神经疾病的患者的预后。{ width=60% }

今天宣布任命Samer Kaba, M.D.为首席医疗官，在即将完成与WaveDancer, Inc.（纳斯达克股票代码：WAVD）计划合并之际扩大了其领导团队。
Firefly首席执行官Jon Olsen表示：“我们非常高兴欢迎Samer加入我们的管理团队。” “他在神经科学药物开发领域的可靠记录将在推进我们通过BNA™平台促进大脑健康的使命中发挥重要作用。他的领导和战略见解将在我们不断努力为患者提供更好的大脑健康预后的过程中非常宝贵。”
在加入Firefly之前，卡巴博士在制药行业担任多个领导职位，并担任多家生物技术公司的首席医疗官，领导了多种药物产品的开发。除了在药物开发、医务和监管科学方面的丰富经验外，Kaba博士在管理患有神经疾病患者方面拥有超过20年的经验。卡巴博士是一个董事会认证的神经科学家，在纽约州立大学水牛城分校接受了神经免疫学（多发性硬化症）的额外培训，并在德克萨斯大学MD安德森癌症中心接受了神经肿瘤学的培训。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-23发表2025-03-21更新 ByteAILab 13 分钟读完 (大约1985个字)

用技术望远镜看国内大模型：文心闪耀双榜领跑

中国大模型应用，正在进入“可观测期”。

《中国大模型中标项目监测报告（2024年5月）》中显示，截至5月，中国大模型的相关中标金额已经超过2023年全部中标项目的披露金额。

在大模型全面落地四处开花的同时，大模型正摆脱“不可观测”状态，过去由于大量大模型应用在B端，信息相对封闭，对于产业来说，他们很难清晰获知大模型技术水平、擅长领域、落地能力，无形中增加了智慧化转型的决策成本。

随着大模型技术评测体系的逐渐成熟，我们仿佛拥有了天文望远镜，可以在群星闪耀中，找到那颗最耀眼的星。

最近，国际权威机构IDC发布了《中国大模型市场主流产品评估，2024》，智源研究院打造的FlagEval天秤大模型评测平台也发布了最新一期模型评测排行榜单，两项评测中百度文心大模型实现了双榜夺魁。

“望远镜”背后技术评价机制

我们可以简单看看，这两架“天文望远镜”分别采用了哪些评价机制。

IDC的评估分为基础能力和应用能力，其中基础方面涉及问答、推理、创作、数学、代码等能力，应用方面既考验toC通用场景，也考验金融、零售、法律等toB细分场景。

尽管有GPT-4这样的有力对手，文心一言仍然在七大维度全面领先。

智源研究院打造的FlagEval天秤大模型测评平台发布于2023年，面向视频、语音、多模态等多个领域，在FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。

在闭源对话模型榜单中，文心大模型4.0以89.72的综合评分排名第一，OpenAI的GPT-4o等位列其后。

可见不论是从全领域能力角度进行评估，还是考察至关重要的大语言水平，文心一言毫无疑问都是中文大模型的榜首，是星海中光芒最耀眼的一颗。

技术之光

抬头仰望星空时，我们看到的，其实是星星几年，甚至几十几百年以前留下的掠影。

同样，想要让大模型从“不可观测”变为“可观测”，除了对当下的技术能力进行评测，我们也要回溯光芒的源头，也就是大模型的技术内核。

从文心大模型来看，这种技术之光可以分为两个层面：

第一层，是技术投入的“原生光芒”。

百度对于深度学习的探索挖掘，包括对AI技术的应用，已经有十数年之久。在大模型热还未被掀起的2019年，百度就打造了第一代文心大模型体系，从而才有了建立在文心大模型之上的文心一言。

如今经过数次迭代，文心大模型在理解、生成、逻辑、记忆四大能力让其他厂商难以望其项背。IDC报告中就显示，在数学类和代码类等考验模型逻辑、推理等能力的评测中，百度文心大模型体现出了强大的体系化思维、逻辑思维和抽象思维能力。

能力迭代背后，是文心大模型有条不紊的全面技术布局。

比如通过文心飞桨的联合调优，通过高效算力和自研框架来提升大模型的训练效率，增加技术的迭代速度。

又比如面对近年来爆火的智能体Agent技术，文心大模型第一时间推出了文心智能体平台。在基础模型能力上叠加思考增强训练，以基础模型+思考模型的形式，让大模型更接近于人类的学习、理解和执行模式。

像百度自己，就通过这种模式打造了代码智能体和智能代码助手Comate，目前Comate生成代码整体采纳率已达46%，新增代码中生成比例已达27%。IDC的报告中我们也能发现，在代码类所有6个细分维度中，百度均入围优势厂商。

对于技术研发的深埋与前瞻，让这颗星体源源不断的释放着创新之火，点亮宇宙的一隅。

第二层，是产业协作的“折射光芒”。

文心大模型能力的来源，除了自身的研发投入，还有广泛的产业实践。

截至目前，文心一言累计用户规模已达2亿，日均调用量也达到了2亿。这一数字在同类生成式AI产品中一骑绝尘。

在toB领域，百度一方面将文心大模型全面落地于自身业务中，如搜索、地图、信息流。同时百度智能云还推出了千帆大模型平台，打造一站式企业级大模型开发平台。不久前，文心大模型还对外免费开放了ERNIE Speed、ERNIE Lite两款主力模型。

在不断对外开放的过程中，文心大模型的调用量呈几何式增长，合作伙伴与案例也越来越多。从国家电网、南方电网、中国航天这样的国之重器，到金融保险领域的浦发银行、泰康保险，再到终端领域的荣耀、三星，媒体领域汽车之家……在不断与合作伙伴共建行业大模型的过程中，文心大模型已经实现了中国最为广泛的产业落地规模。

在广泛的产业合作中，文心大模型得以被真实应用场景滋养，不断从中发掘细节需求，进而针对性地提升技术能力。

举例来说，在大量的实践中百度得以发掘，大模型落地过程中，效果、效率和成本都是重要考量。因此，推出了多模型推理技术来提升推理效率，以降低落地成本。

有对周围产业伙伴光芒的“折射”，我们观测到的星光可以更加立体。文心大模型的成就不仅仅来自机构评测的认可，更来自一个个坚实的落地案例。

大模型星光如何照耀产业星球

当我们望见星光时，它正在向轨道更远处运行着，从大模型元年，走入了大模型落地元年。

《中国大模型中标项目监测报告（2024年5月）》中显示，今年5月份大模型中标项目数量创下了新高。毫无疑问，随着大模型“不可观测性”逐渐褪去，产业对于大模型的需求，正在进入井喷状态。需求暴涨的情况下，大模…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-23发表2025-03-21更新 ByteAILab 3 分钟读完 (大约494个字)

「中杯」Claude 3.5突然上线，竟比GPT-4o还强！全新Artifacts改写模型交互

文章来源：新智元
编辑：好困乔杨

【导读】Anthropic曾许下要超越OpenAI的发家愿望，没想到竟然这么快就实现了。他们刚刚发布的Claude 3.5 Sonnet模型不仅成本更低、速度更快，而且在基准测试上的表现「弯道超车」GPT-4o。

继今年3月发布Claude 3之后，Anthropic在半年时间里又上新了！
就在今天，Claude 3.5 Sonnet发布，作为即将推出的Claude 3.5模型家族的「排头兵」，而且已经面向全球开启免费试用。

具体来说， Claude 3.5 Sonnet支持200K token的上下文窗口，而在多项评测中超过了OpenAI最强的GPT-4o，以及自家的Claude 3 Opus。

与此同时，Claude 3.5 Sonnet还保持着中等规模的模型所具有的速度和成本优势。

其中，在费用方面，Claude 3.5 Sonnet处理每百万输入token仅需3美元，每百万输出token则为15美元。（与前代相同）

用户可以在Claude.ai和Claude iOS应用程序上免费体验，如果订阅了Claude Pro和团队计划，则可以享受更高的速率；此外，还可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用

生成2倍速，成本仅1/5
Claude 3.5 Sonnet虽然在零样本MATH和MMLU评测中小幅落后GPT-4o，但在研究生级推理（GPQA）、本科级知识（MMLU）和编码能力（HumanEval）上，毋庸置疑地刷新了SOTA——
…

(以下省略，完整内容请查阅原文链接)

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-23发表2025-03-21更新 ByteAILab 18 分钟读完 (大约2638个字)

「中杯」Claude 3.5突然上线，竟比GPT-4o还强！全新Artifacts改写模型交互

文章来源：新智元
编辑：好困乔杨

【导读】
Anthropic曾许下要超越OpenAI的发家愿望，没想到竟然这么快就实现了。他们刚刚发布的Claude 3.5 Sonnet模型不仅成本更低、速度更快，而且在基准测试上的表现「弯道超车」GPT-4o。

具体来说， Claude 3.5 Sonnet支持200K token的上下文窗口，而在多项评测中超过了OpenAI最强的GPT-4o，以及自家的Claude 3 Opus。

与此同时，Claude 3.5 Sonnet还保持着中等规模的模型所具有的速度和成本优势。

其中，在费用方面，Claude 3.5 Sonnet处理每百万输入token仅需3美元，每百万输出token则为15美元。（与前代相同）

生成2倍速，成本仅1/5
Claude 3.5 Sonnet虽然在零样本MATH和MMLU评测中小幅落后GPT-4o，但在研究生级推理（GPQA）、本科级知识（MMLU）和编码能力（HumanEval）上，毋庸置疑地刷新了SOTA——
不仅大幅领先自家的前代老大哥Claude 3 Opus，而且还完成了对谷歌Gemini 1.5 Pro和Meta 4000亿参数的Llama（早期…

视觉能力超越GPT-4o
在视觉方面，Claude 3.5 Sonnet也是Anthropic迄今为止推出的最强大模型，不仅明显优于Claude 3 Opus和Gemini 1.5 Pro，而且在大部分测试中也都超过了GPT-4o。

这些改进在需要视觉推理的任务中尤为明显，例如解释图表和图形。

基准测试中体现的这种强大视觉能力如何落实到现实应用中呢？下面这个demo给你答案。

像GPT-4o、Gemini这些模型虽然理解图像和视频的能力很强，但一般只能生成文字的描述内容，在这方面我们人类显然更擅长，能比模型做得更快更好…

还能通过编码制造交互式图表，代码直接可运行，数据也丝毫不差。

不仅仅是代码，根据图片信息生成的网页也是图文并茂、界面精美。原本需要一晚上才能搞定的工作量，Claude帮你5分钟内赶上DDL。

领域专家最为钟爱
在附带的报告中，Anthropic还补充了一些其他测试的结果。

报告地址：https://cdn.sanity.io/files/4zrzovbb/website/fed9cc193a14b84131812372d8d5857f8f304c52.pdf
表4展示了Claude 3.5 Sonnet在「拒绝请求」时的表现。

这里，团队使用的而是Wildchat和XSTest数据集进行测试，从而衡量模型在面对无害提示时避免不必要的拒绝，同时在面对有害内容时保持适当的谨慎。

可以看到，Claude 3.5 Sonnet在这两个维度上都优于Opus：它的错误拒绝更少，正确拒绝更多。

表5、图1和图2展示了Claude 3.5 Sonnet在「大海捞针」任务中的表现。

可以看到，Claude 3.5 Sonnet和Claude 3 Opus的性能几乎不相上下，但在平均召回率方面Claude 3.5 Sonnet还是要略胜一筹。

此外，从下表中能更清晰地看到，Claude 3.5 Sonnet在所有文本长度和200K长上下文之间，召回率居然没有出现明显滑落，这是包括Opus在内的所有前代模型的突破。

在基于人类反馈的评估方面，团队把从Claude 2.1开始的所有模型都拉了出来。

其中，人类评审需要与模型进行对话，并根据任务特定的指令对其进行评估。

图3展示了与Claude 3 Opus基线相比的「胜率」（win rate）。

可以看到， Claude 3.5 Sonnet不仅在编码、文档、创意写作和视觉等核心能力上有着显著的改进，而且领域专家们也更加喜欢——在法律领域的胜率高达82%，在金融领域为73%，在哲学领域为73%。

Artifacts：让团队实现无缝协作
除了模型的更新之外，Anthropic还Claude.ai上推出了一项全新功能——Artifacts，扩展了用户与Claude互动的方式。

具体来说，当用户要求Claude生成代码片段、文本文档或网站设计等内容时，只需要一键点击，这些Artifacts会出现在对话旁边的专用窗口中。

这样就创建了一个动态工作空间，用户可以实时查看、编辑并基于Claude的创作进行构建，将AI生成的内容无缝集成到他们的项目和工作流程中。

这个功能的添加，大大增强了Claude在复杂项目中的可用性。

比如想要创建一个交互式的游戏界面，你很难在一次对话中描述清楚所有的功能与需求。即使描述清楚了，以生成模型目前的能力，未必也能一次得到满…

再把所有这些SVG图像放在同一个HTML网页中。

最后，规定好角色名称和游戏规则，只需要告诉Claude让这个游戏变得「可玩」，不用操心任何代码细节，一个简单的网页游戏就制作完成了。

Artifacts的推出，标志着Claude从对话式AI向协作工作环境的转变。

当然，这还只是一个开始。

不久的将来，团队——最终是整个组织——将能够在一个共享空间中安全地集中他们的知识、文档和正在进行的工作，Claude将作为按需的队友提供服务。

我是Claude 3.5 Sonnet模型的早期测试者，我对输出的一致反应是「超神」，模型现在已向所有人开放。
Claude 3.5 Sonnet在关键评估上优于竞争模型，速度是Claude 3 Opus的两倍，但成本只有五分之一，能胜任自主编码和视觉处理等复杂任务，而且可以管理长文档，确保 RAG、搜索/检索以及比较多个…

Ethan Mollick表示，Anthropic新推出的「Artifacts」用起来有点类似于简化版的代码解释器。

大局观
那么Claude 3.5 Sonnet在Anthropic和整个AI生态系统中有什么重要意义呢？
首先是性能方面，由于当前模型架构的固化以及训练所需的巨大计算量，在没有重大研究突破的情况下，我们很难看到从GPT-3到GPT-4那样的飞跃。
比如，谷歌（Gemini 1.5 Pro）和OpenAI（GPT-4o）发布的旗舰产品，在基准测试和性能方面都只有小幅的提升。

其次，随着生成式AI厂商将注意力转向数据策划和许可，而不是新的可扩展架构，投资者似乎对生成式AI的投资回报周期比预期更长感到担忧。
不过，Anthropic因为处在对抗OpenAI的关键位置上，因此在一定程度上不会受到这种压力的影响。

但值得注意的是，Anthropic到2024年底的预计收入只有不到10亿美元，仅仅是OpenAI的「零头」。

第三，尽管客户群在不断增长，包括Bridgewater、Brave、Slack和DuckDuckGo等家喻户晓的品牌，但它仍然缺乏一定的企业知名度。正如最近与普华永道合作向企业转售生成式AI产品的是OpenAI，而不是Anthropic。

对此，Anthropic正在采取一种战略性且成熟的方法来开扩市场——将更多的研发投入到像Claude 3.5 Sonnet这样的产品上，从而在市场价格下提供稍好的性能。

可以看到，Claude 3.5 Sonnet的定价与Claude 3 Sonnet相同：每百万个输入模型的token收费3美元，每百万个模型生成的token收费15美元。

最后，Claude 3.5 Sonnet虽然没有解决大模型的「幻觉」问题，但它可能足够有吸引力，让开发者和企业转向Anthropic的平台。而这才是Anthropic…

总体来说，Anthropic似乎已经意识到，围绕模型构建一个生态系统，而不仅仅是孤立的模型，是保持客户的关键，因为模型之间的能力差距正在缩小。

最后，让我们拭目以待吧。

参考资料：
- https://www.anthropic.com/news/claude-3-5-sonnet
- https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-23发表2025-03-21更新 ByteAILab 5 分钟读完 (大约785个字)

用技术望远镜看国内大模型：文心闪耀双榜领跑

中国大模型应用，正在进入“可观测期”。
《中国大模型中标项目监测报告（2024年5月）》中显示，截至5月，中国大模型的相关中标金额已经超过2023年全部中标项目的披露金额。

在大模型全面落地四处开花的同时，大模型正摆脱“不可观测”状态，过去由于大量大模型应用在B端，信息相对封闭，对于产业来说，他们很难清晰获知大模型技术水平、擅长领域、落地能力，无形中增加了智慧化转型的决策成本。
随着大模型技术评测体系的逐渐成熟，我们仿佛拥有了天文望远镜，可以在群星闪耀中，找到那颗最耀眼的星。

最近，国际权威机构IDC发布了《中国大模型市场主流产品评估，2024》，智源研究院打造的FlagEval天秤大模型评测平台也发布了最新一期模型评测排行榜单，两项评测中百度文心大模型实现了双榜夺魁。
“望远镜”背后技术评价机制
我们可以简单看看，这两架“天文望远镜”分别采用了哪些评价机制。
IDC的评估分为基础能力和应用能力，其中基础方面涉及问答、推理、创作、数学、代码等能力，应用方面既考验toC通用场景，也考验金融、零售、法律等toB细分场景。
尽管有GPT-4这样的有力对手，文心一言仍然在七大维度全面领先。
智源研究院打造的FlagEval天秤大模型测评平台发布于2023年，面向视频、语音、多模态等多个领域，在FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。

在闭源对话模型榜单中，文心大模型4.0以89.72的综合评分排名第一，OpenAI的GPT-4o等位列其后。

可见不论是从全领域能力角度进行评估，还是考察至关重要的大语言水平，文心一言毫无疑问都是中文大模型的榜首，是星海中光芒最耀眼的一颗。
技术之光
抬头仰望星空时，我们看到的，其实是星星几年，甚至几十几百年以前留下的掠影。
同样，想要让大模型从“不可观测”变为“可观测”，除了对当下的技术能力进行评测，我们…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-23发表2025-03-21更新 ByteAILab 24 分钟读完 (大约3543个字)

智能体逼近大爆发？李彦宏再谈AI应用

随着大模型技术的迅猛发展，如今基础大模型的市场格局，已经趋于稳定。然而，这并不意味着创新的脚步会因此停滞。

相反，各类企业和开发者正积极投身于应用层面的创新浪潮中，不断挖掘和拓展大模型的潜力。
哪些大模型应用，可以为创新者带来实实在在的价值呢？
近日，百度创始人、董事长兼首席执行官李彦宏在“亚布力成长计划－走进百度”活动上，分享了自己的观点。他提出：“智能体是AI时代的网站，将形成数百万量级的庞大生态。”
所谓实践出真知，这一判断源自百度自身的实践。百度已经将智能体应用到移动生态的各个场景。目前来看，智能体对现有业务的改造已经初见成效。
在更广阔的各行各业中，智能体同样来到了应用爆发的节点吗？
智能体，旋即大爆发
李彦宏认为，智能体是AI时代的网站，将会有几百万，甚至更大量的智能体出现形成庞大生态。因此，他本人非常看好智能体Agent这一AIGC技术应用方向。
按照这一判断，我们当前正处于智能体大爆发的前夜。
可能很多读者会好奇，为什么是智能体先大量出现？有哪些前置条件为其爆发铺平了道路？
模型能力越来越强、降低开发门槛。智能体背后依赖大模型的能力会越来越强，过去解决不了的问题，现在可以解决。李彦宏将今天的智能体类比为互联网时代的网站，当时网站做出来的路径是通过浏览器看到源代码，稍微改改就能再做出1个以及更多网站。现在，基于大模型作为能力底座，智能体开发的过程也会像网站一般简单。
智能体是“多边形战士”，能力会不断完善。智能体不仅能对话，还具有反思和规划能力。如果人反馈不对，它会自己思考哪里出问题了，还能够对分配的任务进行自主规划、思考调用什么工具能够实现最终目标。
李彦宏认为，未来智能体还将具备协作能力。他举例道：“有些复杂的任务，可以通过多个智能体来完成，就像公司里有CEO，还有财务、技术、销售主管，他们协作起来，能完成一个非常复杂的任务。”他认为，如果多个智能体能协作来完成复杂任务，这将会对智能体生态的发展形成极大推动。
因此也可以预判，智能体自身的能力也会不断进化，随着它能力维度逐步完善，用户体验效果也会更好，进而促进更多人使用。
企业级智能体应用潜力大。李彦宏表示，如果仅仅是针对理解、生成、逻辑和记忆等大模型基础能力做改进或集成，则价值不大，但在各个不同场景中，发挥特有的数据优势，就能逐渐积累出自身的竞争优势。未来，这些数百万规模量级的智能体将在千行百业里产生。各行各业、各个领域都会依据自己具体的场景，根据自己特有的经验、规则、数据，基于大模型能力创造出这些智能体来。
伴随着过去一年大模型的应用渐入深水区，激发智能体应用增长的上述前提条件正在酝酿成熟，行业也逐渐形成一个共识——智能体是最有希望接近AGI的应用方向。而且“具备超级能干”特质的智能体更适合企业级场景，这也令它有望率先探索出大模型商业化落地的模式。
种种利好因素叠加之下，可以预测，随着AIGC应用创新如火如荼地开展，智能体大爆发时刻，即将到来。
百度智能体打好了样
李彦宏对智能体的判断，其实已经先一步落在了百度的多个动作中。
4月16日Create2024百度AI开发者大会上，李彦宏曾表示，“AI正在掀起一场创造力革命，未来开发应用就像拍个短视频一样简单，人人都是开发者，人人都是创造者。”与此同时，百度推出了文心智能体平台（AgentBuilder），基于文心大模型能力，让企业和开发者都可以低门槛打造智能体。文心智能体平台将开发门槛极致下放，提供自定义插件来实现指定功能，还支持自然语言交互，最简单地，一句话就能开发智能体，可以说做到了“人人可开发”。
值得注意的是，智能体是百度搜索变身更智能的AI搜索的重要一环。百度认为，搜索是智能体落地的最好“试验田”，百度搜索所具备的庞大用户、超级流量和智能推荐三大优势，孕育着丰富的应用场景，也是天然的流量分发池。
于内，已有很多智能体正基于百度搜索为用户提供内容和服务。比如你日常创作或PPT制作需要配图，可以使用「百度AI图片助手」，实现「一句话P图」，人人都能当设计师。如果你是即将高考的考生，还可以使用「Ai志愿助手」智能体，通过多轮对话和智能推荐，获得志愿填报建议。
于外，百度也正在为广泛的企业和开发者应用智能体铺垫探索之路。目前，文心智能体平台已有16万多名开发者和超5万家企业入驻，覆盖了100多个应用场景。既有文案专家、读书专家、企业培训执行专员这样由个人开发的小而美的智能体，也有OPPO、新加坡旅游局这类企业、机构开发的智能体。例如，知名家居品牌索菲亚创建的智能体，不仅能回答用户的装修诉求，还能主动与用户确认具体需求、推荐线下门店，实现有效线索成本下降30%。
不止于创建，对于企业和开发者做出的智能体应用，百度还依托搜索生态为其提供分发和变现的支持。
在分发方面，百度搜索上线了“AI助手”频道，打造一个智能体分发的天然场域。“AI助手”不仅能精准解读用户意图，将最匹配的智能体推送到用户面前，还汇聚了大量面向各场景的专业智能体，用户可以随时调用，解决个性化问题，让智能体真正跑起来。除百度站内形式，文心智能体平台也支持智能体通过API、SDK等模板化接入形式，打通独立APP、微信小程序和站点等百度域外场景，让智能体分发场域最大化，尽可能多地获取成长动力，让开发者免去做出来的应用无人问津的担忧。
在变现方面，背靠百度生态且依托文心大模型，文心智能体平台为开发者提供各种变现路径。在产品端，百度搜索内分发、调度机制不断成熟完备，B端产品可支持开发者自主经营调优。在运营端，百度搜索不断扩大适配场景，跑通开发者收益模式。
以成人教育领域为例，当用户搜索2025年考研报考条件，百度「知了爱学」智能体可主动引导用户表达培训需求，结合学习阶段、报考专业等信息，主动筛选符合用户需求的最佳答案，更精准撮合供需。目前知了爱学智能体已与中公教育、新东方烹饪学校、达内教育等1.5万家教育机构合作，服务超过3500万用户。
文心智能体平台的目标是“人人可开发、人人能分发、人人可获益”，目前其正在逐步跑通从开发、到分发、再到变现的路径。李彦宏曾提出的每一个商家、每一个客户，都能在百度拥有专属的智能体，正在加速变成现实。
可以看到，百度对智能体的布局是全方位、加速度的，百度希望凭借文心大模型生态和百度搜索的基本盘，尽快让数百万量级的智能体涌现出来，而且率先跑通智能体的商业化模式。更进一步的意义是，先以智能体这一重点方向切入，加速大模型应用落地脚步。
李彦宏的AI进化论：不断实践让百度在AI时代领先一步
今天，智能体是下一个最有潜力的AIGC应用方向几乎已成为工业界和学术界的共识。某种程度上也再次印证了李彦宏对于大模型应用趋势判断的前瞻性。
百度布局智能体已经有一段时间，李彦宏可能更早嗅到了这一趋势，而又果断将这一早期技术在百度推进实践应用，这位AI领袖似乎总能更早将产业洞见带给世界和开发者。
每当时代巨变来临，一家公司能否不错过时代列车，与这家公司的掌舵者的技术信仰和创新基因密不可分。今年5月，李彦宏曾在一次内部颁奖活动中讲话中谈及自己对于技术信仰以及对创新的理解，他表示，百度一直坚信技术可以改变世界，会一直沿着这条路走下去。他坦言创新并不容易，“十个创新，可能九个最后都是以失败告终的，但我们不会放弃，我们会去做第11个、第12个……我相信终有一天，我们会向世界证明，技术是有价值的”。
百度自2013年开始布局AI领域，十年耕耘不辍，持续投入了近1700亿，一路培植AI这一颗信仰的种子长成了中国AI的参天大树。
而对于创新的不断追求也让百度在大模型这一轮最新的AI浪潮中成为先锋者，在全球大厂中率先推出了大语言模型文心一言。即便已是强大的“卷基础模型”派的代表，李彦宏很早便在业内定调“卷”应用的大方向，认为应用才是大模型的真正价值所在。
一年前，李彦宏率先喊话，百度要做第一个把全部产品重做一遍的公司，不是整合，不是接入，是重做，重构。去年10月的百度世界2023，百度一口气发布了10余款AI原生应用，包括搜索、如流、地图、网盘、文库等。最新的应用重构成绩单显示，百度文库已重构为“一站式AI内容获取和创作平台”，累计 AI 用户数超 1.4亿，在5月份发布的“AI产品榜”，百度文库AI功能访问量位居中国第一，而作为从0-1打造的AI原生应用，文心一言 APP用户目前突破2亿。
这一年多来，李彦宏多次呼吁大家“卷”应用。落到百度的行动上，百度通过提供不断进化的基础大模型的能力，针对行业推出轻量级模型全家桶，降低模型价格，推出文心智能体平台、千帆ModelBuider、千帆APPBuilder等三大大模型开发工具，来支持企业和开发者更好的“卷”应用。
今天，李彦宏再次对“卷”应用的下一步做出了预判。从他的AI进化论中，我们可以看到一个经历了从深度学习到大模型等多个AI技术发展周期的技术型公司和他的掌舵者，如何一步步从 “实践出真知”，从实践中找到和准确预测未来的技术走向。我想，

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-23发表2025-03-21更新 ByteAILab 6 分钟读完 (大约947个字)

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

它来了，它来了，它带着 Claude 3.5 Sonnet 走来了！
蛰伏三个月，就在昨晚，OpenAI 的「劲敌」Anthropic 上新了，推出新一代模型 ——
Claude 3.5 Sonnet！

这款大模型有啥独到之处？
首先，它更能把握住细微差别、幽默和复杂指令，并且书写语气更自然、亲切。
它还是Anthropic最强的视觉模型，擅长解释图表、图形或者从不完美的图像中转录文本等任务。

此外，它在推理、阅读理解、数学、科学和编码等多项评估基准中表现不凡。
总之，按官方介绍，Claude 3.5 Sonnet 是迄今为止最智能的模型，在多个方面吊打 GPT-4o。

话说到这份上，那我们就不客气了，直接让 Claude 3.5 Sonnet 和 GPT-4o 对决，孰优孰劣实力说话。

第一局：心眼子练习
日常生活中，总会遇到一些尴尬的场面。
例如，饭局上，你帮领导盛饭，领导接过后，说：“盛这么多，喂猪呢？” 这种情况下，高情商者会如何应对？
我们把这个问题丢给这两个大模型。

Claude 3.5 Sonnet：

GPT-4o：

它们是懂拍马屁的。
Claude 3.5 一口气给了 5 个示例，不过第 2 句「我眼神不好使，把您当成我们单位的顶梁柱了」，这是拍马蹄子…
GPT-4o 就更懂「人情世故」了，「看您身材保持得这么好，我可得向您请教减肥秘籍」，这马屁拍的是恰到好处。

值得一提的是，Claude 3.5 Sonnet 还上线了一个新功能 —— 提示词再编辑功能。

用户可直接在原始提示词上进行编辑修改，而不用一遍遍复制粘贴。

第二局：根据菜肴生成菜谱
我们上传了一张「西红柿炒鸡蛋」的图片，分别让这两大模型介绍一下制作流程。

Claude 3.5 Sonnet：

GPT-4o：

它们对于这道经典的中国菜颇有心得，从配料到步骤一应俱全，最有意思的是，它俩懂得中国人做菜的精髓「少许」，也都强调加点糖平衡酸度。

论做菜，两个大模型不相上下。

第三局：做数学题
官方给出的评估表中，GPT-4o 的数学得分要略高于 Claude 3.5 Sonnet 。其中，GPT-4o 是 76.6%，而 Claude 3.5 Sonnet 是 71.1%…

我们从 2024 年新高考 I 卷中摘录了两…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-23发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1254个字)

自动识别最佳分子，降低合成成本，MIT开发分子设计决策算法框架

编辑 | 紫罗

AI 在简化药物发现方面的应用正在爆炸式增长。从数十亿种候选分子中筛选出可能具有开发新药所需特性的分子。

需要考虑的变量太多了，从材料价格到出错的风险，即使科学家使用 AI，权衡合成最佳候选分子的成本也不是一件容易的事。

在此，MIT 研究人员开发了一个定量决策算法框架 SPARROW，来自动识别最佳分子候选物，从而最大限度地降低合成成本，同时最大限度地提高候选物具有所需特性的可能性。该算法还确定了合成这些分子所需的材料和实验步骤。

SPARROW 考虑了一次合成一批分子的成本，因为多个候选分子通常可以从一些相同的化合物中衍生出来。此外，这种统一的方法可以从在线存储库和广泛使用的 AI 工具中获取有关分子设计、性质预测和合成规划的关键信息。

除了帮助制药公司更有效地发现新药外，SPARROW 还可以用于发明新的农用化学品或发现有机电子产品的专用材料等。

相关研究以《An algorithmic framework for synthetic cost-aware decision making in molecular design》为题，于 6 月 19 日发布在《Nature Computational Science》上。

论文链接：https://www.nature.com/articles/s43588-024-00639-y

「化合物的选择是一门艺术，有时它是一门非常成功的艺术。但鉴于我们拥有所有这些模型和预测工具，它们能提供关于分子可能如何表现以及如何合成的信息，我们应该使用这些信息来指导我们做出的决策。」论文通讯作者、MIT 化学工程系助理教授 Connor Coley 说。

定量决策算法框架 SPARROW

「合成规划和基于奖励的路线优化工作流程」（Synthesis Planning And Rewards-based Route Optimization Workflow，SPARROW），是一种用于驱动设计周期的算法决策框架。

图示：SPARROW 概述及其在分子设计周期中的作用。（来源：论文）

该研究建立在早期的问题公式的基础上，用于同时选择多个分子的合成路线，以及产品和工艺系统设计的集成。与传统的筛选方法不同，SPARROW 使用一个多目标优化标准，平衡成本与效用，从候选分子库中对分子及其假设的合成路线进行优先排序。

SPARROW 生成由候选目标分子和合成路线组成的反应网络。通过解决基于图的优化问题，可以筛选出一组分子和合成路线，以最佳地平衡累积合成成本和效用。在此背景下，效用衡量评估分子属性的价值。

效用的适当衡量标准将因应用和设计的不同阶段而异。它可能包含分子属性预测、这些预测中的不确定性或新数据点改善结构-属性关系的潜力。必须向 SPARROW 提供一个候选库，并提供相应的奖励，以表明与每个候选分子相关的效用。

图示：SPARROW 的问题表述。（来源：论文）

选择一个分子所获得的奖励还取决于所选合成该分子的反应步骤是否成功。如果候选分子合成路线中的某个反应步骤失败，则无法获得任何信息。研究人员通过最大化选择一个候选分子的预期奖励来形式化这一点，该预期奖励可以用其奖励乘以成功合成该分子的概率来表示。

平衡成本和效用，SPARROW 的目标可以形式化为所有选定目标的预期奖励除以使用选定路线合成所有选定目标的成本。

复杂的成本考量

从某种意义上说，科学家是否应该合成和测试某种分子，归结为合成成本与实验价值的问题。然而，确定成本或价值本身就是一个难题。

SPARROW 通过考虑合成分子…（此部分内容省略，仅展示部分内容）

参考内容：https://news.mit.edu/2024/smarter-way-streamline-drug-discovery-0617

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-23发表2025-03-21更新 ByteAILab 12 分钟读完 (大约1796个字)

涵盖文本、定位和分割任务，智源、港中文联合提出首个多功能3D医学多模态大模型

作者 | 香港中文大学白帆
编辑 | ScienceAI

近日，香港中文大学和智源联合提出的 M3D 系列工作，包括 M3D-Data, M3D-LaMed 和 M3D-Bench，从数据集、模型和测评全方面推动 3D 医学图像分析的发展。

（1）M3D-Data 是目前最大的 3D 医学图像数据集，包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对)，M3D-Seg（150K 3D Mask），M3D-RefSeg (3K 推理分割)共四个子数据集。

（2）M3D-LaMed 是目前最多功能的 3D 医学多模态大模型，能够解决文本（疾病诊断、图像检索、视觉问答、报告生成等），定位（目标检测、视觉定位等）和分割（语义分割、指代分割、推理分割等）三类医学分析任务。

（3）M3D-Bench 能够全面和自动评估 8 种任务，涵盖文本、定位和分割三个方面，并提供人工校验后的测试数据。

我们最早于 2024 年 4 月发布了数据集、模型和代码。

近期，我们提供了更小和更强的 M3D-LaMed-Phi-3-4B 模型，并增加了线上 demo 供大家体验！

最新进展请关注 GitHub 库的更新，如果有任何疑问和建议可以及时联系，欢迎大家讨论和支持我们的工作。

论文链接：https://arxiv.org/abs/2404.00578
代码：https://github.com/BAAI-DCAI/M3D
模型：https://huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
数据集：https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
线上 Demo：https://baai.rpailab.xyz/

我们能为医学图像相关研究者提供什么？

M3D-Data, 最大的 3D 医学多模态数据集；
M3D-Seg，整合了几乎所有开源 3D 医学分割数据集，共计 25 个；
M3D-LaMed, 支持文本、定位和分割的最多功能的 3D 医学多模态大模型，提供了简洁清晰的代码框架，研究者可以轻易魔改每个模块的设置；
M3D-CLIP，基于 M3D-Cap 3D 图文对，我们训练了一个图文对比学习的 M3D-CLIP 模型，共提供其中的视觉预训练权重 3DViT；
M3D-Bench，全面和清晰的测评方案和代码。

本文涉及的所有资源全部开放，希望能帮助研究者共同推进 3D 医学图像分析的发展。

数据集

M3D-Data 共包括4个子数据集，分别为M3D-Cap（图文对）, M3D-VQA（视觉问答对）, M3D-RefSeg（推理分割）和 M3D-Seg（整合 25 个 3D 分割数据集）。

模型

M3D-LaMed 模型结构如下图所示。
（a）3D 图像编码器通过跨模态对比学习损失由图文数据进行预训练，可直接应用于图文检索任务。
（b）在 M3D-LaMed 模型中，3D 医学图像被输入到预先训练的 3D 图像编码器和高效的 3D 空间池化感知器中，并将视觉 token 插入 LLM，输出的 [SEG] 作为 prompt 驱动分割模块。

实验

图文检索
在 3D 图文检索中，模型旨在根据相似性从数据集中匹配图像和文本，通常涉及两个任务：文本到图像检索 (TR) 和图像到文本检索 (IR)。

报告生成
在报告生成中，该模型根据从 3D 医学图像中提取的信息生成文本报告。

封闭式视觉问答
在封闭式视觉问答中，需要为模型提供封闭的答案候选，例如 A,B,C,D，要求模型从候选中选出正确答案。

开放式视觉问答
在开放式视觉问答中，模型生成开放式的答案，不存在任何答案提示和候选。

定位
定位任务在视觉语言任务中至关重要，尤其是涉及输入和输出框的任务。在输出框的任务，如指代表达理解 (REC) ，旨在根据指代表达在图像中定位目标对象。相比之下，在输入框的任务，如指代表达生成 (REG) ，要求模型根据图像和位置框生成特定区域的描述。

分割
分割任务在 3D 医学图像分析中至关重要，因为它具有识别和定位功能。为了解决各种文本提示，分割分为语义分割和指代表达分割。对于语义分割，该模型根据语义标签生成分割掩码。指代表达分割需要根据自然语言表达描述进行目标分割，需要模型具有一定的理解和推理的能力。

分布外 (OOD) 问题的案例研究
我们在 OOD 对话中测试了 M3D-LaMed 模型，这意味着所有问题都与我们的训练数据不相关。我们发现 M3D-LaMed 具有很强的泛化能力，可以对 OOD 问题产生合理的答案，而不是胡言乱语。在每组对话中，左侧的头像和问题来自用户，右侧的头像和答案来自 M3D-LaMed。

我们最新训练的更小的 M3D-LaMed-Phi-3-4B 模型具有更好的表现，欢迎大家使用！GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face

报告生成测评结果

封闭式 VQA 测评结果

在 TotalSegmentator 上测评的语义分割 Dice 结果

总结

我们 M3D 系列研究促进了使用 MLLM 进行 3D 医学图像分析。具体来说，我们构建了一个大规模 3D 多模态医学数据集 M3D-Data，其中包含 120K 3D 图像文本对和 662K 指令响应对，专为 3D 医学任务量身定制。此外，我们提出了 M3D-LaMed，这是一个通用模型，可处理图像文本检索、报告生成、视觉问答、定位和分割。此外，我们引入了一个综合基准 M3D-Bench，它是为八个任务精心设计的。

我们的方法为 MLLM 理解 3D 医学场景的视觉和语言奠定了坚实的基础。我们的数据、代码和模型将促进未来研究中对 3D 医学 MLLM 的进一步探索和应用。希望我们的工作能够为领域研究者带来帮助，欢迎大家使用和讨论。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

(以下省略，完整内容请查阅原文链接)

参考资料：
- https://www.anthropic.com/news/claude-3-5-sonnet
- https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class

我们从 2024 年新高考 I 卷中摘录了两…

参考内容：https://news.mit.edu/2024/smarter-way-streamline-drug-discovery-0617

我们的方法为 MLLM 理解 3D 医学场景的视觉和语言奠定了坚实的基础。我们的数据、代码和模型将促进未来研究中对 3D 医学 MLLM 的进一步探索和应用。希望我们的工作能够为领域研究者带来帮助，欢迎大家使用和讨论。

链接

分类

最新文章

归档

标签

订阅更新

(以下省略，完整内容请查阅原文链接)

参考资料：- https://www.anthropic.com/news/claude-3-5-sonnet- https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class

我们从 2024 年新高考 I 卷中摘录了两…

参考内容：https://news.mit.edu/2024/smarter-way-streamline-drug-discovery-0617

我们的方法为 MLLM 理解 3D 医学场景的视觉和语言奠定了坚实的基础。我们的数据、代码和模型将促进未来研究中对 3D 医学 MLLM 的进一步探索和应用。希望我们的工作能够为领域研究者带来帮助，欢迎大家使用和讨论。

链接

分类

最新文章

归档

标签

订阅更新

参考资料：
- https://www.anthropic.com/news/claude-3-5-sonnet
- https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class