GPTNB · AI资讯与技术分享站

2024-09-25发表2025-03-21更新 ByteAILab 4 分钟读完 (大约649个字)

causaLens在伦敦举办Causal AI Conference发布AI Agents平台

今天，基于伦敦的AI创业公司和因果AI先锋causaLens在Causal AI Conference上推出了其突破性的AI Agent平台。{ width=60% }

causaLens的新AI Agents根植于因果AI和先进的定量推理，承诺通过提供无与伦比的能力来回答复杂的业务问题并推荐最佳行动，从而从根本上推进业务决策。这种创新技术将赋予广泛的用户群体，从业务利益相关者到分析师和数据科学家，使他们能够以无与伦比的速度、准确性和信任度解决关键业务问题。

causaLens的智能AI独特地结合了大型语言模型（LLM）的力量与因果推理和先进的定量分析。这种创新方法填补了当前AI解决方案中的一个关键空白。虽然LLM在自然语言处理方面表现出色，但它们无法有效地推理关于定量数据和现实业务动态的问题。causaLens最近宣布与Google Cloud建立合作伙伴关系，将causaLens的因果推理专业知识与Google Cloud的高级计算服务和Gemini模型集成，在增强LLM推理复杂定量数据的能力方面发挥作用。

causaLens的联合创始人兼首席执行官Darko Matovski表示：“AI Agents代表了AI驱动企业决策的范式转变。利用LLM的力量与我们自己的因果AI和定量推理技术，我们创造了可以推理复杂业务现实并推荐最佳行动的智能体。”

“我们正在进入一个新时代，在这个时代，每个企业都可以构建和部署自己的AI驱动决策智能体，从而改变他们在日益数据驱动的世界中的运作方式和竞争方式。而象伦敦皇家学会这样一个促进科学发现和创新的地方更是这个变革的绝佳场所，它已经促进了360多年的科学发现和创新，”Darko Matovski补充道。

注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要输出为Makedown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-25发表2025-03-21更新 ByteAILab 16 分钟读完 (大约2471个字)

工具齐发，AI点燃短剧“二战”？

文章来源：白鲸出海

图片来源：由GPTNB生成

产量有限，一方面是因为海外短剧的制作成本颇高，不仅直接拉高了入局门槛，也让参与的平台方更倾向于“谨慎下单”；另一方面，则是受职场文化差异、人才储备少等因素影响，海外短剧产出周期通常更长。过往，从业者大多期待随着供应链完善、市场教育程度的加深让“供给飞轮”实现更高效运转，但显然不是一朝一夕之事。

人解决不了，AI 被寄予厚望，近期几个新工具的陆续发布，都指向了一个新的解题方向——AI 短剧。

生成式AI短剧——理想丰满，现实骨感？

上个月，昆仑万维发布了 AI 短剧生成平台 SkyReels，美图秀秀也在 7 月底发布了专门用于 AI 短片生成的 MOKI。目前两款产品都在内测中，它们大多集成 AI 脚本生成、AI 分镜生成、AI 视频生成、AI 人物配音、AI BGM 等一系列能力，实际上是一个串联多个大模型，打穿垂类场景的工作流思路。虽然理论上，创作者也能自行搭建类似的工作流，但是对于多数人而言依旧难以上手，且实际的产出情况也并不如预想中高效。

AI 短剧生成流程图

即便如此，AI 短剧内容平台已经先在市场上推出，CreativeFitting 获得了数百万美元的 Pre-A 轮融资，AI 短剧 App Reel.AI 已经上线，另外还有一些创业者也在尝试。AI 短剧平台 PopShort.AI 就是其中之一，创始人 Alex Li 告诉我们，他们的自建流程中真人编剧完成剧本，制作环节基本也是由一人完成。目前视频生成也还涉及到大量手动调整的部分，例如 AI 视频生成的过程类似抽卡，每次生成一个 3-5 秒的视频，这意味着单集 1 分钟的 AI 短剧至少需要生成 15 个可用片段，之后再手动剪辑，目前产能大概是 1 人 1 天 1-2 集。而 SkyReels 的公开信息显示，其能批量生成 30 集 AI 剧本和短剧，理想情况下效率提升将非常明显。

“我们也在等 SkyReels 的成果。”Alex Li 告诉我们。

在目前公布的 Demo 中，SkyReels 讲述了一个小男孩和实验室逃走的 424 号试验品相遇的短篇奇幻故事，整体属于写实风格。成片的一大特点是采用了更多的画外音来推进剧情，人物对话较少，以此减少人物说话嘴型不够自然的影响；其次在画面上，人物的动作表现相对单一，更多利用运镜变化、背景物体的运动来体现画面的丰富度，以减少“PPT 感”。总体上说，受限于当前的模型能力，能感受到 SkyReels 选择了不少折中的设计，样片呈现上也更像短片而非短剧，虽然已经能呈现出一段完整的剧情，但就主观感受…

一是 AI 短剧的核心优势在于题材。从央视频的《补天》到快手的《山海奇镜之劈波斩浪》、字节的《三星堆：未来启示录》，它们涉足的神话、科幻等其实一直是传统短剧碍于成本等压力鲜少尝试的题材，而 AI 短剧有机会为短剧题材带来突破。

二是目前看到尝试从 C 端收费的AI短剧，在呈现上也更多采用了“折中”的策略，去弱化 AI 短剧效果的缺憾。比如AI短剧平台 Reel.AI 朱江在对外交流中透露，他们率先实现规模化用户付费的实际上是 AI 动漫短剧，非动漫短剧预计要在今年下半年才能达到可消费水平；PopShort.AI 目前总共上线了 2 部非动画 AI 短剧，也产生了一定收入，但 Alex Li 也直言目前依旧存在人物动作幅度有限、声音不自然等问题，下一部他们计划尝试“AI互动短剧”的形式来避开和真人短剧的直接比对。

Reel.AI的AI动漫短剧和Popshort.AI的真人AI短剧

不难看出，在 AI 短剧呈现效果尚不尽如人意的情况下，相关从业者的思路更多是找到 AI 短剧和真人短剧的差异点，去“扬长避短”。MOKI 或 SkyReels 等全流程工具的发布，也许会加速 AI 短剧走向市场的过程，但就目前的情况来说，依旧属于小范围内的探索。而相较于用 AI 生成短剧，传统短剧从业者接受度更多的实际上是用 AI 工具实现单点提效。

AI工具，剑指翻译与二创？

笔者简单调研了身边 8 位短剧出海从业者对 AI 工具的应用情况（调研对象包含从事版权、承制、平台、翻译各环节的从业者），相关应用目前主要是针对翻译短剧场景。视频生成相对少有人提及，主要是因为目前AI的发挥水平不算稳定。海外短剧制作公司 Emotive Bunch 制片人谢嘉一表示，他们目前在尝试用 AI 文生图、图生视频工具制作海外短剧的后期特效，比如吸血鬼、狼人变身，狼人眼球变色，甚至是大景别的汽车爆炸，房屋烧毁等，呈现的效果确实能够满足需求，但也需要大量的试错和调整。“未来如果能解决可控性及一致性问题，我们也期待 AI 和短剧的结合能极大提升后期制作的工作效率和效果。”

而得到从业者认可的 AI 翻译工具，其实也不像想象中的“一键翻译”这么“无趣”，其核心功能也服务于翻译短剧的前置环节，比如短剧翻译前需要做的原字幕无痕擦除、用光学字符识别技术来提取短剧字幕等（由于短剧背景音大、转场快，传统方法提取字幕准确率低而体现出优势）。至于翻译的部分，AI 辅助之后往往也还需要真人把关，这也是翻译服务商也会积极采纳类似工具，并将其作为打包服务出售的原因。据某家 AI 工具服务商公开透露，去年下半年至今其已与上百家短剧出海企业达成合作，足见其应用广泛。

某字幕擦除工具的演示视频

除了 AI 翻译服务，面向短剧二创的 B 端、小 B 用户的 AI 工具市场也非常蓬勃。国内市场短剧二创主要用于分销，创作者可以从中获取分成收益，但是视频剪辑本身也是一道门槛，同时费时费力。在传统的工作流程中，二创创作者需要自行编写解说词和脚本，再进行剪辑、配音和上字幕。但是如果使用剧推推这类 AI 智能剪辑工具，几乎只用导入短剧素材，就能在数分钟内生成一条可发布状态的短剧解说视频，尤其对于新手来说，非常友好。

常见的短剧行业 AI 工具

而无论是翻译工具或二创工具，更多看到的实际上是工具对于工作流程的适应和改善；早期阶段的 AI 短剧，感受上更像是“拿着锤子找钉子”，创作者与 AI 工具则需要更多的时间来磨合。

写在最后

AI 短剧相当有想象力的地方在于，一旦制作门槛打下来，短剧有机会成为类似网文、短视频一样有更多 UGC 参与的内容产品，情况类比于从纸质书时代迈向网文时代，很有想象空间，这大概也是众多 AI 短剧平台、工具厂商选择超前布局的重要原因。Reel.AI 将 AI 非动漫短剧达到可消费水平的时间点放到了今年下半年，与此同时，两款短剧生成工具的公开时间则迟迟没有确切消息，这或许意味着AI短剧走向市场、从 PGC 转向 UGC 还需要更多的耐心与等待。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-25发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1519个字)

2024人工智能年度评选启动！3大维度5类奖项，寻找AI时代的行业先锋

为了让更多行业者感受技术变革，也为了给予更多同行同路人掌声与鼓舞，我们已启动了2024人工智能年度评选。

今年是量子位人工智能年度评选的第7年，在七年春秋里，我们见证着各种老将新星的开拓与创新，坚守与破立。

本次人工智能年度评选，从企业、人物、产品/解决方案三大维度设立了5类奖项。欢迎企业报名评选，也欢迎个人推荐参与评选。

企业榜

2024人工智能年度领航企业
2024人工智能年度潜力创业公司

人物榜

2024人工智能年度焦点人物

产品榜

2024人工智能年度杰出产品
2024人工智能年度杰出解决方案

详细评选标准及报名方式如下。

2024人工智能年度领航企业

将评选出中国AI综合实力最强阵容，参选条件：

公司主体在中国或主营业务在中国；
主营业务是人工智能及相关，或已将人工智能广泛应用于其主营业务，并在其所处领域内居于领跑地位；
有成熟的产品或服务，且已经得到市场验证；
近一年，取得较大技术突破或商业突破。

评选标准：

业务能力：商业模式、市场占有率、商业化能力、营收情况等；
技术能力：科研实力、研发投入、创新能力等；
资本能力：融资情况、财务状况等；
其他：企业综合情况、品牌影响力等。

2024人工智能年度潜力创业公司

将评选出最具投资价值、发展潜力的AI创业公司，参选条件：

公司主体在中国或主营业务在中国；
有人工智能相关的产品或服务落地，具有成熟的商业模式；
公司未上市；
近一年取得较大技术创新或研发成果。

评选标准：

业务能力：商业模式、市场占有率、商业化能力、营收情况等；
技术能力：科研实力、研发投入、创新能力等；
资本能力：融资情况、财务状况等；
其他：企业综合情况、核心团队构成、品牌影响力等。

2024人工智能年度焦点人物

将评选出中国AI领域最受关注的新星老将，参选条件：

国籍是中国或所属公司主体在中国，并且是所在公司的创始团队成员或核心高管；
所属公司主营业务是人工智能及相关，公司在所处领域内具有一定的影响力；
近两年带领公司在AI领域取得较大商业化突破或技术创新发展，在业内有重要影响力。
同时，科研院所中符合上述条件且在AI领域具有同等影响力的人物也可参与评选。

评选标准：

企业情况：企业基本情况、行业地位、商业模式、营收情况等；
个人能力：技术/商业能力、创新能力等；
其他：个人综合背景、品牌影响力等.

2024人工智能年度杰出产品

将评选出最受关注、最有落地价值的AI产品，参选条件:

人工智能相关的产品；
产品已具备成熟技术，已经投放市场且得到市场验证；
近一年有重要的技术创新或更新迭代，极大的推动人工智能技术的落地及商业化，并对行业发展有突出的引领作用。

评选标准:

综合情况：产品功能、产品性能、技术能力等；
落地情况：市场占有率、用户规模、营收状况、解决的核心痛点等；
其他：品牌影响力、用户口碑、产品生态等.

2024人工智能年度杰出解决方案

将评选出最具创新力、最有价值的AI解决方案，参选条件:

人工智能相关的解决方案或行业应用案例，且使用自主创新技术；
具备成熟技术，已经投入市场且得到市场验证；
近一年有重要的技术创新或更新迭代，极大的推动人工智能技术落地及商业化，并对行业发展有突出的引领作用。

评选标准:

综合情况：应用场景、技术能力、创新能力等;
落地情况：市场占有率、客户情况、营收状况、潜在市场规模等;
其他：销售服务能力、品牌影响力、用户口碑等.

报名方式

本次评选即日起开始报名，截至2024年11月15日。评选结果将于12月MEET2025智能未来大会上正式公布。

扫描二维码即可报名评选:

网页端评选报名链接: https://wj.qq.com/s2/15350028/aa5f/

如对本次评选有其他疑问，请联系量子位工作人员。添加微信18801103170，或邮件发送至linyu@qbitai.com，并备注「评选-企业-姓名」.

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-25发表2025-03-21更新 ByteAILab 23 分钟读完 (大约3505个字)

带你认识微信多模态大模型 POINTS

近来，随着大型语言模型的发展，视觉语言大型模型的能力也在逐步增强，GPT-4、Gemini Pro 1.5和Claude 3等著名的闭源模型成功将 LLM 扩展到视觉语言模型领域。LLaVA，InternVL等开源模型也在迅速发展。

目前，视觉语言模型领域存在一些关键问题亟待解决：1）闭源模型很少公开关于其架构的详细信息。相比之下，开源模型虽公开了其训练策略，但这些策略的详细消融并没有完全披露。2）在目前的开源工作中，对于预训练阶段，大多都是凭经验添加不同来源的数据集，这使得预训练过程难以得到深入的探索。3）在微调阶段，绝大多数工作关注的重点通常是添加和消融更多的数据集，这样性能会较快触及瓶颈。我们针对以上几点给出了我们的方案，并进行了清晰充分的实验论证。

POINTS 主要包含 3 个部分:

强 baseline: 通过融入当前主流的前沿技术，我们为进一步探索创造了一个较强的 baseline
pre-train 数据集过滤策略：借鉴 LLM 中常用的利用 ppl 来过滤数据的思想，我们利用一个离线模型使用 ppl 的方式来过滤 pre-train 数据，最终得到 1M 高效的 pre-train 数据
model soup: 在指令微调阶段，过滤大部分工作都集中在消融更多的数据集来增强模型性能，但这种方式很可能达到一个阶段后带来的增益就比较有限，我们率先提出在不同指令微调数据集上训练得到的模型进行 model soup，实验结果表明，模型的性能可以得到进一步较大的提升

强 baseline

我们首先将现在开源工作中的各种技术（动态高分辨率，CapFusion，双视觉编码器，Individual Select）进行了整合，并提出一种新的动态分辨率分割方法，以搭建一个更加稳健和高效的 baseline。下图是POINTS的模型结构。对于每个模块（例如 OCR ViT、General ViT、MLP Projector 和 Large Language Model），虚线左侧标签表示预训练时的状态，右侧标签表示指令调优时的状态。

Consistent Aspect Ratio Dynamic High Resolution (CATTY)

将高分辨率图像提供给视觉语言模型有利于捕捉细粒度细节和减少幻觉。与 LLaVA-Next 和 InternVL-1.5 中的动态高分辨率不同的是，我们在对高分辨率图像进行切分时保持了图块的纵横比。在InternVL-1.5中，在分割图像之前，图像大小会被调整为预定义分辨率中与其最接近的目标分辨率，这种切图方式容易导致失真。而我们通过在切图时引入overlap的方式在把图像切割为固定大小图块的同时，保持了图块纵横比。

CATTY的具体步骤如下：i) 首先，预定义图像可以分割成的最大图块数（在我们的实验中设置为 8）。ii) 列出图块数不超过最大图块数的所有整数分辨率组合。iii) 给定一个高度为H和宽度为W的图像，我们寻找与其分辨率最近的整数分辨率，乘视觉编码器的图像尺寸，得到目标图像的高度Hr和宽度Wr，并通过以下方式将图像大小调整为目标大小（Ht × Wt ）：

给定视觉编码器的输入分辨率 Hv×Wv，目标图像应分为 Hr/Hv × Wr/Wv 图块。接下来，我们使用一个滑动窗口分割目标图像 Ht×Wt ，该窗口的步幅分别为 Height 和 width。步幅（Sh, Sw）的计算方式如下：（若 Hr/Hv = 1，Sh为0，若 Wr/Wv = 1，Sw 为 0）

除了使用CATTY分割的图块，我们还加入了整体图像的缩略图来捕获整体上下文信息。在将视觉编码器输出的特征对齐并传入到大型语言模型之前，我们InternLM-XComposer2-4KHD中的pixel-shuffile，设置下采样因子为 0.25，减少图像特征的序列长度以提高效率。

CapFusion

预训练数据集中原始 caption 通常存在很多噪声和结缺陷。为了解决这个问题，LAION-COCO 和 BLIP-LAION等提出了通过 image captioning model 生成 synthetic caption。但合成字幕中较为简单的句法和语义结构可能会导致缺失可扩展性和缺乏世界知识。CapFusion利用大语言模型整合原始 caption 和 synthetic caption，在丰富的世界知识和结构化且语法简单之间取得了较好的平衡。我们使用 InternLM-XComposer2 为图像生成 synthetic caption，使用 InternLM2 来整合原始 caption 和 synthetic caption。

Dual Vision Encoder

相关工作如 SPHINX 和 Cambrian1，已经证明不同的视觉编码器会在不同的领域表现优势，结合多个视觉编码器可以在性能上有更大的提升。文本密集型图像所需的视觉编码能力在一定程度上有别于自然图像。为了增强光学字符识别（OCR）能力，我们训练了一个单独的视觉编码 OCR ViT，遵循 Vary 的方法从图像中提取文本特征。与其不同的是，我们没有从零构建图文对的训练样本（如图表），我们使用PaddleOCR提取的文本结果构建数据集，并在数据集中加入描述自然图像的caption组成完整的预训练数据集。我们将完成训练的 OCR ViT 与通用视觉编码器（通用 ViT）用过加权平均值合并，然后将输入到大型语言模型中。

Individual Select

Individual Select 通过贪心选择的方式从一个数据池中确定最有效的指令调优数据集。我们收集了其中所提到的开源数据集，并整合了DeepSeekVL、Cambrian-1 和 Cauldron 使用的数据以及额外的16个数据集。此外，鉴于学术数据集的提示风格趋于同质，为了增强提示的多样性，我们从 LAION-5B 中随机选取了一些图像使用 GPT-4o 生成了一系列问答对。最终我们得到了可视化指令调优数据集 Base Set。

预训练数据筛选策略

perplexity(PPL) 常在大语言模型中被用作评估预训练数据集质量的指标。受其启发，我们利用已被训练过的视觉语言模型 P 来进一步过滤掉CapFusion获得预训练数据集中的低质量部分。对于预训练数据集中的每个数据样本s，我们使用以下公式计算所有文本的 PPL,（{w1，…，wN } 表示s中的文本序列）：

我们对所有样本进行升序排序，并选择前 20% 用于预训练。与大型语言模型中的筛选结果不同，对比 PPL 前 20% 和后 20% 的样本，我们发现两者的区别并不是数据的质量。PPL 后 20% 的物品通常包含晦涩难懂的世界知识，例如游戏版本号和计算机出厂序列号，这类世界知识极为罕见，且信息量非常少，因此对模型的学习不太有益。

Model Soup

视觉指令调优数据对于现有视觉语言模型的卓越性能至关重要。但现有工作大多通过迭代消融来选择更有效的数据集，这种方法很快会达到了一个瓶颈期，后续的数据选择带来的提升微乎其微，甚至会降低模型性能。在数据选择遇到瓶颈后，我们使用 model soup 整合使用不同指令调优数据集进行微调的模型优势。model soup 的原理是通过使用不同的超参数（学习率、数据增强、初始化种子等）对模型进行微调以收敛到不同的局部最优值，对这些模型的权重进行插值，以得到一个更强的模型。为了将 model soup 的思路应用在数据集的优势融合上，我们在性能饱和的指令调优数据集base set上单次加入一个 Individual Select 阶段未能带来显著性能提升的数据集，构成新的数据集Di* ，模型在微调后收敛到不同的局部最优值f(Dk*;θk)，再将这些模型权重进行插值。我们提出了Maximum Soup、Average Soup 和 Greedy Soup 三种方法来选择微调模型的最佳组合。

Maximum Soup

给定评估分数 Acc，我们使用以下公式获得一个更强模型 f(θs)：

Average Soup

通过取所有微调模型的权重平均值，我们可以获得更强的模型 f(θs)：

Greedy Soup

首先根据评估分数对微调后的模型进行降序排序。接着遍历排序后的模型。对于每个模型，我们计算其权重与模型池中当前所有模型的权重的平均值。如果评估分数提高，则模型将添加到池中。最后，我们对池中所有模型的权重进行平均，以获得更强的模型，表示为 f(θs)。下表概述了 Greedy Soup 的步骤。

实验

我们使用 OpenCompass中的 8 个基准，从不同角度均衡地对模型进行评估。这些指标包括：MMBench 和 MMStar：用于评估通用能力；MMMU：用于测试STEM（科学（Science）、技术（Technology）、工程（Engineering）和数学（Mathematics））能力；MathVista：用于数学相关能力；AI2D：用于图表相关能力；OCRBench：用于OCR功能；MMVet：用于主观评估。我们使用 OpenCompass 提供的 VLMEvalKit 进行标准化评估，在 MMBench 上选择 dev-en split。

数据配置

在预训练阶段，训练 OCR ViT 时，我们没有额外抓取PDF文件并转换为图像构建数据集，为了提高复杂背景下的 OCR 能力，我们从 LAION-5B-en、LAION-5B-cn、WuKong 和 Zero 中随机选择了 2000 万个数据样本。使用 PaddleOCR 从图像中提取文本，替换原始 caption 以形成新的数据对。此外我们加入 LAION-5B 的 1000 万个原始数据样本，构成最终数据集进行训练。

在指令调优阶段，基于中确定的数据，我们继续使用 Individual Select 的方式在其他开源数据工作中进行了选择，确定为基础数据集。对于未能通过 Individual Select 得到增益的其余数据集，我们将其组成数据池，以待通过 model soup 的方式加以选择和利用。

训练配置

在 OCR ViT 的预训练阶段，我们使用 LLaVA 架构，视觉编码器从 OpenAI 的 CLIP-ViT-Large-336 初始化，大型语言模型是从 Yi-1.5-9B-Chat初始化。冻结大型语言模型权重，设置视觉编码器和MLP是可训练的。视觉编码器和MLP的学习率分别设置为 2×10-4 和 2×10-5 ，学习率的schedule在训练过程的前3%采用预热，剩余步骤采用余弦衰减。

在整体视觉语言模型的预训练阶段，通用 ViT 从 OpenAI 的 CLIP-ViT-Large-336 初始化的，OCR ViT 则继承上个阶段的权重。参考 Vary 的设置，我们的通用 ViT 只有最后三层是可训练的，OCR ViT 则在整个阶段保持冻结状态。我们选择通用 ViT 和 OCR ViT 倒数第二层的特征通过 MLP 与大预言模型连接。起到特征对齐作用的 MLP，在预训练阶段保持可训练状态。通用 ViT 和 MLP 的学习率分别设置为 2×10-4 和 2×10-5 ，学习率的schedule在训练过程的前3%采用预热，剩余步骤采用余弦衰减。

在指令调优阶段，我们冻结通用 ViT 和 OCR ViT。MLP 和大预言模型保持可训练状态，学习率设置为 2 × 10−5 。学习率的 schedule 在训练过程的前3%采用预热，剩余步骤采用余弦衰减。

与目前先进的方法对比

除了 OpenCompass 的8个基准外，我们增加了ScienceQA、MME、LLaVA-Wild 和 ReadWorldQA 更详细地与目前领域内最先进的模型进行比较。POINTS的性能可与现有类似尺寸的模型媲美，甚至超越更大参数量的模型性能，如 Cambrian-34B。此外，与其他模型相比，POINTS 使用的预训练数据集和指令调优数据集更少且是公开可用的，我们下面将从各角度对

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-25发表2025-03-21更新 ByteAILab 9 分钟读完 (大约1303个字)

独家对话王小川：大模型创业公司，都要走出互联网大厂的射程

“用大模型造医生”，是百川智能创始人王小川当下正专注做的事。

2024年8月28日，百川智能与北京儿童医院签署战略合作协议，双方计划共同推出“一大四小”五款AI医疗产品，用AI赋能优质儿科医疗资源扩容下沉，以及区域均衡布局。

王小川这样解读这次合作的意义：“我们认为有机会在3年内打造出具有三甲医院主治医师水平的AI儿科医生，相当于造出了100万个主治医师，足以覆盖全国乡一级的诊所。”

大模型厂商们拼抢激烈的C端应用市场中，并没有看到王小川和百川智能的身影。即便在此之前，百川智能也推出了“百小应”，可与Kimi、豆包等产品竞争。“他认为这是危险的，一旦互联网大厂集中资源和精力竞争，胜算不大。”王小川告诉《中国企业家》。

历经一年半的探索，当大模型技术的演进曲线从陡峭趋于平缓，AI大模型厂商们开始变得更务实，一边探索大模型性能的边界，一边关注商业化应用的落地。

“但在王小川看来，太多人都是把大模型当成效率工具、计算器、电脑，新的时代到了，人们始终还是在老范式里面想问题。”他认为，大模型落地应该是寻找那些知识密度最大且供给不足的行业，找到短缺提高供给，而不是大家一起琢磨出新的一个没有满足的需求。

王小川还强调，“他不是在用大模型做医疗，是因为医疗才来做大模型的。他发现，大家太容易对技术仰望，但却对技术产生的成果又是一种鄙视的状态，觉得有所谓的‘奴仆’给我服务，太分裂了。”

王小川知道AI大模型造医生现在还面临一系列的问题：比如医疗事关生死，技术上到底靠不靠谱？国家政策法律批不批？商业模式怎么建？被问多了后，王小川找到一个特别简单的答案：“那你怎么看无人驾驶，如果出了车祸，无人驾驶同样事关生死，能不能上路也有交通法规，这些担忧不都有吗？那无人驾驶大家干吗做呢。”

2个月前，百川智能完成A轮融资，总融资金额达50亿元人民币。目前，阿里、腾讯、小米等科技巨头及多家顶级投资机构都是其股东。

作为2023年4月成立的第一批国内AI大模型公司，百川智能掌舵人王小川当下的心态如何？他在大模型应用落地方面有哪些思考？如何看待创业公司与互联网大厂的竞争？带着这些疑问，我们与王小川进行的对话中，也找到了部分答案。

以下为核心要点：

大家去年焦虑买不到卡，今年焦虑有卡不知道该干吗。
我是因为医疗来做大模型的，不是用大模型做医疗。在我的世界观里面，这一代（技术）最大的进展是语言变成了数学，不是多模态的事。
太多人都是把大模型当成效率工具、计算器、电脑，大模型公司、投资人、应用方都是这种思路。新的时代到了，我们始终还是在老范式里面想问题。
应用落地有两类现象，我们叫盲人摸象和小马过河。没看清世界是盲人摸象，这些人不知道模型为何物，到底是工具还是伙伴；小马过河是指不清楚自己的定位，不知道自己在里面扮演什么角色。
大家太容易对技术仰望，但对技术产生的成果又是一种鄙视的状态，觉得有所谓的“奴仆”给我服务，太分裂了.
走出大厂的射程，是这几个（创业）公司都面临的问题。所以大模型创业得走出共识，否则这是一个非常危险的事。如果一个公司被看得特别明白，那就不是一个创业公司了.

以下为《中国企业家》对王小川的专访内容实录（有删减）：

…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-25发表2025-03-21更新 ByteAILab 4 分钟读完 (大约526个字)

AI大模型站在十字路口，持续突破or陷入低谷？

文章来源：光锥智能

图片来源：由GPTNB生成

当普通人被AI轰炸的已经疲劳，应用落地也没有惊人地突破，AI大模型的发展似乎已经进入瓶颈期。在云栖大会之前，业界弥漫着对AI的唱衰，似乎又到了一个历史的转折点。

如2017年上一代深度学习AI一样，在经历了行业高光时刻后，大模型似乎进入了漫长的技术积累和落地应用阶段。但AI大模型发展真的放缓了吗？“技术的进步速度依然很快”、“落地中没觉得太多困难，反而全是机会”。在两天的交流中，大模型创业公司、云厂商、AI企业服务公司，行业里实打实做业务的所有公司都对光锥智能表达着，对AI前景的一片乐观。“o1的推理能力确实上了一个很大台阶。”阶跃星辰创始人姜大昕在2024云栖大会上说道，“o1也第一次证明大语言模型可以拥有人脑慢思考能力，同时也带来Scaling Law的新方向。”这也就意味着，随着OpenAI o1模型的发布，生成式AI从原本的预训练时代，迈入大规模推理时代。不过，AI仍处于早期的发展阶段。“如今我们还处于L2的发展早期，但AI仍在加速发展中，未来18个月甚至有可能出现L4级的突破——现在业界的对AI未来的整体预测，都过于保守了。”生数科技首席科学家…
```

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-25发表2025-03-21更新 ByteAILab 21 分钟读完 (大约3110个字)

当AI 应用于医疗，有望带来哪些改变？

来源：哈佛商业评论

图片来源：由GPTNB生成

AI 技术在医疗保健领域的应用正在引发一场激烈的讨论。一方面，它为人们带来前所未有的希望。

乐观主义者认为AI技术蕴藏着巨大的潜力，有望显著提升医疗服务的效率与质量。另一方面，它也引起人们的担忧，正如批评者所指出，如果这些先进的AI工具优先用于服务经济条件优越、健康状况较好的群体，可能会进一步加剧医疗不平等现象。

这种担忧并非没有道理。那么，我们目前正在开发的新工具是否真的只会加剧医疗成果的不平等分配呢？在运用 AI技术的过程中，保持审慎的态度无疑是必要的，但我们同样怀抱着一个鼓舞人心的愿景：AI能够成为推动医疗保健民主化的强大驱动力，实现社会广泛呼吁的医疗资源的平等分配。

想象一下，一个患有长期疾病的患者，其所经历的诊疗过程是何等复杂。在这一漫长的旅途中，每一步都充满了可能影响治疗效果的变量：患者的语言沟通和读写能力，他们在错综复杂的医疗系统中找到恰当的服务与帮助的能力和意愿，医护人员的个人偏见以及针对患者病情的医学知识储备限制。反观医护人员，他们也面临着一系列的挑战，包括如何整合这些错综复杂的背景因素，为每一位患者量身定制出高效又便于执行的治疗方案。那些来自复杂或弱势社会背景的患者，往往更容易面临医疗服务不足或疗效不佳的结果。

这正是 AI 能够大展身手的地方。作为一项颠覆性的工具，AI具备推动医疗体系为每一个人——特别是那些最为脆弱且医疗资源匮乏的群体——提供更为优质的医疗服务的潜力。AI可以利用各种类型的数据，预测并干预患者就医过程的各个环节，在解决医疗不平等现象的核心问题中展现出独特的优势。

本文将聚焦一系列有可能对医疗不平等问题产生深远影响的 AI 工具。虽然这些工具目前大多尚未被广泛应用，但从公平性角度来看，精心设计的AI工具及其实施策略能够取得积极的进展，帮助我们更好地应对那些看似根深蒂固的医疗不平等挑战。

识别高风险患者

预防保健是改善患者健康状况最为经济、临床效果最好的干预手段。它涵盖了一系列措施，如鼓励患者采纳健康的生活方式、接种疫苗以及有效管理高血压和肥胖等风险因素。然而，那些处于社会弱势地位的患者往往对必要的预防保健措施缺乏了解，同时，医疗体系的复杂性也常常让他们感到畏惧，阻碍了其主动寻求专业医疗保健建议的步伐。在这样的背景下，医疗保健服务机构将面临关键机遇，去主动识别并接触那些面临健康风险的患者，为他们提供必要的帮助和支持。

然而，患者潜在健康风险的微妙迹象往往隐藏在医疗记录的细枝末节之中：从未能按时赴约的就诊记录、异常的邮政编码数据，到过往就诊记录中不起眼的微小注释，都有可能是潜在的风险信号。对于医疗服务提供者而言，要敏锐捕捉这些迹象并采取及时的干预措施，无疑是一项极具挑战的任务。

Aledade是美国一家初级保健服务提供商，拥有全美最大的独立初级保健诊所网络。该公司运用尖端 AI技术深度挖掘复杂的患者数据，主动与患者建立联系并为其提供个性化的健康服务，如免疫接种、疾病筛查以及预先护理计划等。为实现这一目标，Aledade部署了多项计算技术。首先，利用向量化引擎存储多样化的临床记录数据，如电子健康记录（EHR）和索赔数据。接着，通过深度学习模型（该模型经过高级基因组数据和患者传感器数据训练）处理并分析这些数据。与此同时，Aledade还采用了先进的特征提取技术，从纷繁复杂的社会人口统计数据和行为数据中提炼有用信息。根据这些信息，Aledade不仅能够为每位患者或患者群体进行“风险评分”（即预测相较于普通患者，某一特殊患者或患者群体的治疗费用是多少），还能前瞻性地评估特定治疗方案的效果，为临床医生提供决策支持。在针对关键患者群体实际应用后，该技术展现出了显著成效：整体住院率下降12%，急诊就诊人次减少 7%，医疗成本下降超过 375,000 美元。

克服沟通障碍

在患者接受医疗机构对某疾病的诊疗评估过程中，高效的沟通非常关键。沟通障碍往往会导致治疗效果不理想，这一现象在面临语言障碍、健康知识不足或罹患神经认知障碍的患者群体中尤为突出。面对这一挑战，AI技术如同一把改善医患沟通的钥匙，能够根据具体需求充当医患之间的翻译官与联络员，将潜在风险、具体症状和治疗方案等复杂的医疗术语转化为患者容易理解与接受的信息形式。

人工智能平台Amelia 巧妙运用生成式AI技术，为患者精心打造了一个语言多元化且充满同理心的数字化交互门户。作为一个全渠道平台，Amelia 不仅可以帮助患者安排诊疗日程，收集必要的入院信息，管理计费流程，还能根据患者的语言和沟通习惯，通过最适合媒介发送个性化提醒。

这些解决方案对于提高医疗服务机构的运营效率，缓解其日益紧张的资源挑战至关重要。它们通过简化并自动化与患者访问、评估等相关的繁琐行政流程，为医疗服务提供者释放了宝贵的时间资源，让他们将精力重新聚焦在临床工作之上，为改善病情复杂患者的健康状况创造更大的价值。

弥合医疗资源差距

** “逆向照顾法则”是指，越是需要医疗照顾的患者，其得到的医疗资源反而越少。**在农村地区，这一现象尤为明显，因为农村地区的患者不仅距离专业医疗服务机构较远，同时可也缺乏对健康和康复至关重要的社交网络。针对这一挑战，AI正初步展现出其作为关键解决方案的巨大潜力，为政策制定者提供一条破局之路。

Ada Health 为患者提供了一款手机AI应用程序，用于评估症状、诊断各种医疗问题并提供个性化的治疗建议。在对急诊患者进行风湿、皮疹和腹痛源头等精确诊断方面，这款应用程序甚至超越了部分人类医生。类似Ada Health这样的 AI工具创建了一种高效且可扩展的“口袋医生”模式，克服了医患物理距离障碍，实现了医疗资源访问的民主化。通过AI技术的应用，美国医疗资源匮乏地区的患者可以根据自己的症状进行自我分诊，然后通过最适合自身状况的途径寻求有针对性的医疗服务。

在治疗流程结束之后，AI技术同样扮演着举足轻重的角色，其潜力可以进一步延伸至改善治疗后的康复效果。在当前医疗不平等现象普遍存在的背景下，那些处于弱势地位的患者往往面临着更高的病情复发与再入院风险。AI技术可用于弥补这方面的不足，让这些患者了解病情复发或恶化的迹象，智能推荐最佳的紧急医疗服务获取时机和途径，确保关键时刻患者能够迅速有效地获得必要的医疗援助。

Biofourmis平台利用可穿戴的传感设备，实现对罹患心衰、慢性阻塞性肺病等一系列复杂疾病患者的远程健康监测，跟踪并记录患者的血压和心率等参数。该平台融合AI技术，深入分析传感器数据，为每位患者量身定制个性化的健康数据基准，以此精准监测病情变化，及时锁定病情可能恶化、需要特别关注的患者。在这个智能医疗系统中，AI充当了医生的“千里眼”和“顺风耳”，使得高质量医疗服务跨越地理界限，直达患者家中，进而提升治疗效果。

增加临床试验的多样性

医疗不平等的一个关键诱因是临床试验多样性的不足。以全球广泛使用的吸入性支气管扩张剂沙丁胺醇为例，其上市前的临床试验中，约 95%的受试者均来自欧洲肺病患者群体。这种临床试验的局限性未能充分反应药物在不同遗传背景人群中的疗效差异。已有研究表明，相较于白人儿童，沙丁胺醇在非裔儿童中的治疗效果明显逊色。此类缺乏多样性的临床试验数据可能在一定程度上解释了为什么非裔患者哮喘相关死亡率比白人高出三倍。

如今，制药企业正在积极拥抱 AI技术，以招募更加多元化和更具代表性的患者群体参与临床试验。例如，有些公司应用创新AI工具Trial Pathfinder ，基于真实世界数据模拟临床试验结果。该工具的使用已经成功验证，适度放宽传统的临床试验资格限制不仅能够增加研究样本的多样性，同时也能够确保试验的安全性和有效性。此外，研究人员也在使用AI工具，借助AI技术扩大临床试验群体的招

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-25发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1442个字)

AI“缝”搜索

文章来源：光子星球

图片来源：由GPTNB生成

下半年，搜索领域变得热闹起来。

8月27日，夸克发布全新PC端，整合AI搜索、AI写作、AI PPT、AI文件总结等功能。

差不多同一时间，字节继头条搜索、悟空搜索、闪电搜索之后，在移动市场上线“抖音搜索”App，第四次把脚踏入了搜索的“河”。9月4日，百度推出新搜索“文小言”，融合一系列能力后，提供“搜创聊”的体验。

三家动作各不相同，夸克希望补全在PC端的能力，赶上AIPC风口；字节则希望完善搜推一体化，巩固自身内容生态；百度则希望让文小言成为探索搜索4.0时代的“先锋”，提前卡位。如果把视线放到整个搜索领域，抖音、视频号在搜索框新增电商入口，这门古早的生意，又变得热闹起来。

百度副总裁、AI创新业务负责人薛苏认为，传统搜索与AI搜索有三个不同。一个是支撑技术上，AI搜索的底层是生成式大模型；其次是场景与需求差异，传统搜索用排序方式解决需求，而AI搜索则是用生成式方法；再次是在产品理念与定位上，存在工具性与人性的差异。

实际上，目前领跑“AI搜索”的大厂们，对于技术本身要保守得多。由于RAG与搜索的亲缘性，主导着当下国内AI应用开发。然而，OpenAI最近发布的新系列模型，为行业提供了新的参考：o1两个版本专注在推理上，不再通过prompt完成CoT（思维链），而是使用强化学习，执行链式思考。

即便学术界已在今年开始讨论RAT（RAG+CoT）的可行性，但国内巨头似乎还未将重心放在这里，反而更具现实主义地押注生态。相较而言，初创公司所面对的挑战要艰难得多，没有巨头那么多花式各样的“缝补布料”（生态），有且只有一身蛮力。

移动时代的老巨头们依托于生态优势，试图打通端与端、应用与应用、内容形式的隔阂——试图摆脱搜索框的束缚，从而在下个时代来临前，为通用搜索上竖起“盾”。而Kimi、智谱、MiniMax，则长袖善舞，想要找到更垂直的领域，完成数据的输入与输出，比如想尽办法附着在搜索框中。

眼下，搜索框成了钱钟书的“围城”，有人想打破，有人却在死命朝里钻。

构建、补全、重塑

分类目录、文本检索、整合分析、用户中心、生活生态圈，被归类为搜索的五个发展阶段。

五个发展阶段的确存在代际之分，但不是今是昨非。分类目录仍然在各应用中普遍存在，文本检索依然是爱如生古籍库这些文史类专用数据库中最基础的搜索形态，当下主流搜索市场仍以整合分析为主，至于用户中心与生活生态圈，还有待AI技术与端侧成熟。

去年以来，百度、阿里（夸克）、字节、360等传统搜索引擎厂商都推出了各自号称“AI搜索”的产品，实际上都只是完成了搜索AI化改造中的部分环节，包括结果上的智能化排序、推荐、关键词解析等。

无论字节完善搜推一体化，还是夸克补全PC端，抑或是百度推出“新搜索”，都表明巨头们视搜索为打开商业生态的一把“钥匙”。这便是字节始终不愿放弃搜索的核心原因，也恰好证明搜索本身在AI时代的重要战略价值。毕竟，学习和搜索是唯二的能够无限scaling计算能力，简单来说，因为豆包与内容生态的存在，字节不缺学习，缺的只有搜索。

而在搜索的AI化改造过程中，通用搜索至少面临着两重挑战，第一个来自端侧。

日前国内一家半导体公司表示，作为新业务板块，今年AI芯片市场的需求井喷，且大客户集中在国内互联网巨头。而Canalys日前发布的数据显示，处于中游的联想，其AIPC第二季度出货量环比增长228%。PC端之所以率先起量的核心原因，是办公智能化推动。因此，夸克8月末升级后，完成了移动端与PC端的布局，并上线了多种面向…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-25发表2025-03-21更新 ByteAILab 4 分钟读完 (大约554个字)

带你认识微信多模态大模型 POINTS

目前，视觉语言模型领域存在一些关键问题亟待解决：闭源模型很少公开关于其架构的详细信息。相比之下，开源模型虽公开了其训练策略，但这些策略的详细消融并没有完全披露。在目前的开源工作中，对于预训练阶段，大多都是凭经验添加不同来源的数据集，这使得预训练过程难以得到深入的探索。在微调阶段，绝大多数工作关注的重点通常是添加和消融更多的数据集，这样性能会较快触及瓶颈。我们针对以上几点给出了我们的方案，并进行了清晰充分的实验论证。

POINTS 主要包含 3 个部分:

强 baseline: 通过融入当前主流的前沿技术，我们为进一步探索创造了一个较强的 baseline
pre-train 数据集过滤策略：借鉴 LLM 中常用的利用 ppl 来过滤数据的思想，我们利用一个离线模型使用 ppl 的方式来过滤 pre-train 数据，最终得到 1M 高效的 pre-train 数据
model soup: 在指令微调阶段，过滤大部分工作都集中在消融更多的数据集来增强模型性能，但这种方式很可能达到一个阶段后带来的增益就比较有限，我们率先提出在不同指令微调数据集上训练得到的模型进行 model soup，实验结果表明，模型的性能可以得到进一步较大的提升

……

查看完整文章

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-09-25发表2025-03-21更新 ByteAILab 4 分钟读完 (大约640个字)

商汤绝影全舱人脸感知技术，助力乐道L60上市，为每位用户打造专属关怀

在乐道L60的发布会上，“小乐识人”的场景演示视频获得了现场与线上观众的一致好评，主动为二大爷播放他喜欢的京剧、给爷爷按腰去除疲劳，都是专属于每位用户的贴心关怀。这背后离不开商汤绝影提供的OMS功能，尤其是全舱人脸感知技术，它助力了乐道L60识别并记住车内每位乘客，最多可记忆20个账号，三世同堂的家庭、七大姑八大姨都能记住，小乐通通叫上姓名。

基于这个能力，乐道汽车可以同步每个乘客的个性化数据，如：座椅位置、音乐账号等，实现个性化体验，让用户感觉更加亲切、自然，有温度。结合商汤绝影多模感知、乐道账号的综合能力…

DMS/OMS视觉融合，多场景识别能力领先业界

当前，行业普遍采用的人脸模型存在关键点遮挡，在特殊场景下关键部位预测不准的问题。此次，商汤绝影通过单颗OMS摄像头实现全舱五座人脸识别，克服前排乘员大角度脸部成像、后排乘员脸部信息(像素值、光照)不良等多种实际应用中的不利因素。首先，在人脸模型的构建上商汤绝影重点优化脸部区域，重新构建人脸模型。其次，在Face lD训练集参数量...

多模感知，助力乐道L60更懂你

通过商汤绝影和乐道的多模感知能力和全舱账号体系的画像信息，乐道汽车的交互脱离“主驾”、“副驾”等生硬词汇，可以更加亲切的称呼用户，送上更贴己的问候。感受便利的同时，用户也不必为隐私担忧。商汤绝影高度重视个人数据安全与隐私保护，已构建全面可靠的数据隐私保护管理体系，并获得权威机构认证。做到了数据不上云、不出车，端侧保存，最大化...

…（以下内容省略）

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要输出为Makedown源文件格式内容。

企业榜

人物榜

产品榜

2024人工智能年度领航企业

2024人工智能年度潜力创业公司

2024人工智能年度焦点人物

2024人工智能年度杰出产品

2024人工智能年度杰出解决方案

报名方式

如对本次评选有其他疑问，请联系量子位工作人员。添加微信18801103170，或邮件发送至linyu@qbitai.com，并备注「评选-企业-姓名」.

强 baseline

DMS/OMS视觉融合，多场景识别能力领先业界

多模感知，助力乐道L60更懂你

…（以下内容省略）

链接

分类

最新文章

归档

标签

订阅更新