GPTNB · AI资讯与技术分享站

2024-08-07发表2025-03-21更新 ByteAILab 23 分钟读完 (大约3496个字)

如今，很多媒体与AI从业者都在追问一个问题：大模型，究竟堵在哪了？
经历了2023年的百模大战，AI产业迎来了从“是否有大模型”到“如何用大模型”的转换期。各个大模型平台纷纷走向了公开应用阶段，面向C端与B端提供能力繁多的大模型应用。

然而问题也随之而来。在大模型平台百花齐放的同时，我们也能发现平台之间的同质化急速加剧。C端用户很难分清不同大模型应用之间的差异化，企业用户面临着复杂的大模型应用成本，进而导致真正能够实现规模化调用的大模型寥寥无几。
在技术相对成熟之后，大模型与用户之间，似乎还是缺少了一点磁力。
我们经常讨论，没有任何底层技术可以不经过产品化探索，不进行商业逻辑设计就获得用户认可。技术、产品、商业，三者之间一定是互为犄角的态势，缺一不可。而在百模大战的进程中，行业往往会更重视模型本身的技术发展，忽视产品化与商业设计的重要性。这种缺失与真空，也就是大模型缺乏用户磁力的来源。
好在随着时间推移，类似难题正在得到正视和解决。不久之前，在火山引擎2024“AI创新巡展”成都站期间，火山引擎宣布豆包大模型日均Tokens使用量已突破5,000亿，平均每家企业用户日均Tokens使用量较5月15日模型发布时期增长了22倍。
豆包大模型的高增长，或许正是给大模型的用户磁力难题，写下了一张答卷。
被广泛讨论的大模型的商业难，落地难，究竟来源于何处？
从软件技术走向应用的时间逻辑上看。基础软件技术迭代之后，往往需要较长的产品化周期，进而其中优秀的产品最终走向商业化。但大模型风潮与以往不同，其技术特征中本身就有极强的应用色彩。这导致AIGC类平台与应用的爆发，基本没有经历任何的产品化周期，而是直接从算法革新走向了商用落地。
这种特殊的发展方式，让大模型短期内走到了“两多一快”的境地：市场上的大模型应用多，单一大模型应用提供的AIGC能力多，从技术走向商用的时间快。于是，用户还没来得及了解，眼前就被摆满了花样繁多的大模型应用；企业用户还没有准备好大模型的应用场景与商业逻辑，就被智能化热潮裹挟其中。
大模型带来的全新应用可能性，原本应该与用户形成极强的磁力，但大模型的同质化，与用户的没有准备好之间，反而形成了一种“消磁”效应。具体来看，我们可以将其拆解为三个问题：
1.C端消磁。产品体验感的缺失，以及技术的雷同化，让用户难以体会到大模型的魅力所在，进而在尝鲜期过后，快速出现了对大模型应用的搁置。
2.B端消磁。过高的尝试成本，让企业在还没有准备好实用大模型的时候，就需要付出较大的模型部署成本，从而导致大量企业倾向对大模型进行观望。
3.行业消磁。快速成型的大模型体系，更多提供的是通用性较强的能力。然而众多行业需要的是专业化、定制化的AI功能，不能充分了解行业需求，导致大模型能力浮于行业表面，无法深入其中。
2023年8月，字节旗下的首款类GPT应用豆包正式发布，很快攻陷各大应用市场。目前豆包底层的大模型已经应用于字节内部各大业务，覆盖了协同办公、数据分析、文案创作、辅助编程、内容审核等场景。当这个大模型最终以“豆包大模型”的名称正式发布走向市场，所需面对的最大挑战就是如何建立AI与用户之间的磁力，打通大模型的商业化落地空间。
此后的近一年时间里，我们能看到豆包带来了关于大模型磁力的三重奏。
经历了快速的技术迭代与产品梳理，如今“豆包”的定义更加明确和统一。它表面是一款类GPT的应用，背后实际是一整个豆包模型家族，而与底层大模型同名的豆包APP，则是字节通过模型升级产品体验，与C端用户重新建立磁力的通道。
为了破解大模型应用缺乏魅力，产品同质化太高的问题，豆包贯彻了一个核心产品设计原则，拟人化。
从AI命题被提出的那一刻，这种技术的核心就是让机器模仿人。而伴随着无数科幻作品的熏陶，大众对AI魅力的认知与期待也都在于拟人。但要注意的是，AI拟人的目标并不能仅仅依靠技术手段来实现。而是需要产品层面的更多雕琢。
为了实现豆包的拟人化，相关团队在多个层级进行了一系列产品设计。比如说，依靠豆包家族里的语音识别模型和声音复刻模型，进而实现与其对话贴近与真人对话的感觉。
在进入豆包聊天界面后，用户会感觉到与社交软件非常相似的产品设计。比如说，聊天框顶部有对话头像，这一点继承了用户与真人聊天的产品习惯。
在豆包大模型家族中，还推出了角色扮演模型。这个模型当中，AI会模仿不同人设、不同性格的人来与用户进行对话，并且可以通过智能体来自行设定聊天角色。将拟人化作为核心功能之一，可以快速拉近与用户的距离，消弭掉用户对AI技术的陌生感。
具体到AIGC能力当中，豆包同样强调拟人化思路的贯彻。比如豆包在进行PPT制作功能时，在PPT生成之外还会提出制作PPT所需注意的问题。这就非常类似于朋友或同事进行合作时的情况，而不仅仅是简单的AI工具。
在拟人化核心特性的加持下，豆包很快得到了用户群，尤其是年轻用户的认可。随后，豆包的战略权重开始不断上升。形成了具有多模态能力的模型家族，包含了通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等十款模型。
豆包虽然是AI模型，但其差异化恰好在于对“人”的重视。通过精细的拟人化产品设计，其完成了对大模型同质化问题的摆脱。
而在产业端，豆包也将这种直面问题核心的思路贯彻了下去。
面对大模型机遇，各行业以及无数AI开发者都跃跃欲试。但较高的模型使用成本，依旧会给企业进行大模型探索、试错造成一定的影响。尤其伴随业务的不断发展，大模型成本也会不断上升。在真正推动大模型落地前，成本账是企业用户必须先算清楚的。
与此同时，大模型的开发方面临着另一重困境。模型的调用量不足，开发者生态无法成型，直接导致大模型无法根据反馈进行优化调整，单位模型的推理成本也居高不下。因此，只有用起来才是大模型的唯一出路。对于大模型本身和企业用户而言，中间的成本门槛已经成为双方共同的困扰。
在这样的态势下，豆包率先进行了大模型低成本化的商业思路。豆包大模型目前通过字节跳动旗下云服务平台火山引擎面向企业开放，5月15日，豆包大模型正式发布之时，火山引擎宣布豆包主力模型在企业市场的定价已经达到了 0.0008元/千Tokens，0.8厘就能处理1500多个汉字。这个价格已经降低到了此前行业通行方案的1%还低。
豆包率先推动大模型进入“厘时代”，为企业降低智能化成本带来了巨大的影响。整个行业开始跟随和效仿，企业以更低成本、更便捷方式接入大模型成为新的主流。
尤其值得注意的是，与行业内流行轻量化版本降价，吸引企业用户试用，然后主力模型保持较高价格的思路不同。豆包将主力模型与轻量化模型都进行了大幅价格优化，主力模型给出了低于行业价格99%的定价。为企业用户与大模型之间的深度结合，扫清了最后的障碍。
除了大众用户与企业用户之外，大模型落地的很大一部分动力，来自全行业模式的驱动。大模型可以伴随着行业头部用户的使用，快速在行业轨道中进行复制和推广，从而深度加强行业智能化水平。
在这个过程中，大模型了解行业，深入行业成为最主要的挑战。而想要解决它，也只有真正走进行业，与行业达成生态合作这一条通道。
不久之前，火山引擎联合中国电动汽车百人会，与吉利汽车、长城汽车、捷途汽车、赛力斯、智己汽车等20余家厂商，宣布成立汽车大模型生态联盟，致力于为消费者带来汽车全场景AI新体验。
通过生态合作，火山引擎可以获得更加清晰的汽车行业智能化诉求，从而让豆包给出更有针对性与专业性的落地方案。比如说，当前车企愈发重视用户反馈，但伴随网络信息量的爆炸，人工收集网络反馈的方式低效且不够全面。豆包大模型可以帮助车企进行反馈信息收集，并且进行初步分析总结，从而实现智能化的信息筛选与分类，提取出车主的主要关注点与情感倾向。
此外，豆包可以在汽车行业的多个角度、多个场景实现落地。比如搭载了豆包lite大模型后，车企可以在低延迟情况下为用户提供清晰、智能的AI对话能力，支持闲聊、搜索、娱乐、导航、车控等多个座舱智能助手场景，效果要比传统语音处理高达50%以上。在智能座舱、智能驾驶场景中，AI对话将成为十分重要的交互手段。豆包与汽车行业的深度融合，解决了车内语音交互的系列痛点。
类似豆包与汽车的结合，火山引擎还与OPPO、vivo、荣耀、小米、三星、华硕成立了智能终端大模型联盟。OPPO小布助手、荣耀智慧办公智能助手、小米“小爱同学”，以及华硕笔记本电脑的豆叮AI助手等应用，均已接入火山引擎的大模型服务。
可以看到，拟人化、低成本、重生态，已经成为豆包大模型的三个支点。它们在技术之上，为豆包大模型提供了产品、商业与产业合作层面的竞争力，消解了大模型同质化带来的落地难题。
用对用户的尊重，对问题的正视，来重构大模型的磁力。这或许才是日均Tokens使用量破5000亿背后，豆包身上值得被提取出来的“营养物质”。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-07发表2025-03-21更新 ByteAILab 3 分钟读完 (大约422个字)

7月27日，BytomDAO在东京举办了“AI与Web3.0的创新与机遇”研讨会，吸引了众多业内人士的参与，共同探讨AI与Web3.0领域的发展现状和未来机遇。BytomDAO的CEO Charles在开场演讲中提出了AI和Web3行业的新桥梁构想，涵盖了DAO 2.0、资产 2.0（Asset 2.0）和去中心化应用 2.0（DAPP 2.0）。

他介绍了如何通过引入AI提高DAO的决策合理性，以及如何通过DAPP 2.0的Agent生成机制满足个体需求，消除试错成本。资产 2.0则聚焦于数字资产的智能管理。Charles还谈到BytomDAO利用在日华人资源帮助项目方进入日本市场，实现资源互通。在圆桌讨论环节中，Starknet的核心开发者Cryptonerdcn、Skyland Ventures的研究员Aya等嘉宾探讨了Layer 2解决方案的现状及未来趋势。此外，ETH Panda的Bruce Xu、Talentverse的James Wu、Jsquare的Joanna、浙大区块链协会的Artist、IOSG的Jiawei和Onekey的Hanning等嘉宾也参与了圆桌二的讨论，共同展望全球AI与Web3.0的发展格局。活动的最后，参会者们积极交流，分享见解与经验。这次活动不仅加深了业内人士对AI与Web3.0的理解，也为未来的合作带来了更多可能性。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-07发表2025-03-21更新 ByteAILab 21 分钟读完 (大约3138个字)

Nature子刊，快10倍，基于Transformer的逆向蛋白质序列设计方法

编辑 | 萝卜皮

借助深度学习的进步，蛋白质设计和工程正以前所未有的速度发展。然而，目前的模型无法在设计过程中自然地考虑非蛋白质实体。

在这里，瑞士洛桑联邦理工学院（EPFL）的研究人员提出了一种完全基于原子坐标和元素名称的几何 transformer 的深度学习方法，该方法可以根据不同分子环境所施加限制的主链支架，预测蛋白质序列。

使用该方法，研究人员可以以高成功率生产出高热稳定性、催化活性的酶。这有望提高蛋白质设计流程的多功能性，以实现所需的功能。

该研究以「Context-aware geometric deep learning for protein sequence design」为题，于 2024 年 7 月 25 日发布在《Nature Communications》。

设计蛋白质以实现功能性任务是一个具有重大生物学、医学、生物技术和材料科学影响的挑战。一个关键应用领域是蛋白质治疗药物的设计，通过定制蛋白质来精确针对特定疾病，可能比小分子药物更具竞争力。这种方法可能革新许多健康问题的治疗方式，从自身免疫疾病到癌症，提供更有效和个性化的治疗方案。

此外，设计酶功能也是蛋白质设计中的另一个重要挑战。酶作为天然催化剂在生物过程中起关键作用。通过设计新酶或改造现有酶，可以创造出促进自然界中罕见或不存在反应的催化剂。这对多个行业有深远影响，包括制药业和环保技术，例如合成复杂药物分子或分解污染物和塑料。

深度学习方法显著加速了蛋白质设计的成功率和多样性。然而，虽然目前的蛋白质设计模型可以处理多条蛋白质链，但在处理非蛋白质实体时表现较差，限制了其应用范围。

为解决这一问题，EPFL 的研究团队曾经引入了一种深度学习模型——Protein Structure Transformer（PeSTo），一种几何 transformer 架构，作用于原子点云。

PeSTo 结合了 transformer 注意力机制，利用标量和矢量状态表示原子，可以预测几乎任何分子与蛋白质界面的相互作用，包括蛋白质、核酸、脂类、离子、小配体、辅因子或碳水化合物。

在最新的工作中，该团队利用该模型的独特功能，并引入了基于 PeSTo 的蛋白质序列生成器模型 CARBonAra（Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms）。

CARBonAra 基于 PDB 中可用的结构数据进行独特训练，可预测给定主链支架所有位置的氨基酸置信度，这些主链支架可以单独提供，也可以与任何种类和数量的有助于推动序列设计的分子复合。

CARBonAra 的组成与性能

CARBonAra 使用由几何 transformer 组成的深度学习模型，预测从输入主干支架中在蛋白质序列的每个位置找到给定氨基酸的可能性。CARBonAra 将主链原子（Cα、C、N、O）的坐标和元素作为输入，并使用理想的键角和键长添加虚拟 Cβ 原子。几何形状使用每个原子之间的距离和归一化相对位移矢量来描述。

几何 transformer 操作对所有相邻原子的相互作用进行编码，并使用 transformer 处理标量和矢量信息并更新每个原子的状态。最后，通过将原子状态从原子级别汇集到残基级别，研究人员训练模型以位置特定评分矩阵的形式预测蛋白质序列每个位置的氨基酸置信度。

实际上，这些置信度可以被解释为并映射到概率中，通过表征在给定每种氨基酸类型的预测置信度的情况下正确预测的概率。

与其他模型一样，CARBonAra 通过使用独热编码将特定氨基酸的先前序列信息印入主链原子来支持自回归预测。

最重要的是，CARBonAra 继承了 PeSTo 仅使用元素名称和原子坐标的能力，无需进行大量参数化，从而可以轻松适应各种场景。

因此，CARBonAra 可以解析和处理正在设计的蛋白质主链附近的任何分子实体，其中包括其他蛋白质、小分子、核酸、脂质、离子和水分子等一系列输入。

数据集

利用 CARBonAra 固有的灵活性，研究人员能够将 RCSB PDB 中的所有生物组装体纳入他们的训练数据集。

这包括与其他分子实体（如离子、配体、核酸等）复合的蛋白质。训练数据集由大约 370,000 个亚基组成，验证数据集中还使用了另外 100,000 个亚基，所有这些亚基均来自 RCSB PDB 生物组装体，并被注释为最佳可能。

与以前建立的方法相比，遵循稍微更严格的协议，测试数据集由大约 70,000 个亚基组成，与没有共享 CATH 域的训练集不同，并且在低于 30% 的序列同一性下进行过滤。

该选择标准确保了测试的稳健性，因为它排除了训练数据集中存在的类似折叠和序列。

对于从不含非蛋白质分子的骨架结构中分离蛋白质或蛋白质复合物的序列设计，CARBonAra 的表现与 ProteinMPNN 和 ESM-IF1 等最先进的序列预测方法相当，并且计算成本具有竞争力（在 GPU 上比 ProteinMPNN 快约 3 倍，比 ESM-IF1 快 10 倍）。

从主链结构重建蛋白质序列

该方法在从主链结构重建蛋白质序列时，蛋白质单体设计的序列恢复率中值为 51.3%，二聚体设计的序列恢复率中值为 56.0%。尽管恢复率相似，但三种方法的最佳序列之间的序列同一性中值为 54% 至 58% 不等。

此外，研究人员观察到 CARBonAra 可以生成高质量序列，当在单序列模式下使用 AlphaFold 预测时，这些序列可以按预期折叠，TM 分数高于 0.9。

CARBonAra 在蛋白质核心处学习了更紧密的氨基酸包装，从而导致更高的回收率并反映了对典型的埋藏氨基酸取代的较低耐受性，同时允许蛋白质表面具有更高的可变性，除非提供额外的功能或结构限制。

从主干支架进行序列预测的方法主要在具有理想主干几何形状的实验数据上进行训练，当应用于生成的主干时会导致性能下降。在训练过程中向几何图形添加噪声可以缓解此问题。

研究人员通过将 CARBonAra 应用于分子动力学 (MD) 模拟的结构轨迹来表征该方法的稳健性。由于主链构象变化和先前显示低恢复率的病例增加，序列恢复率（53±10%）与一致预测（54±7%）没有显著下降。

同时，研究人员观察到每个位置预测的可能的氨基酸数量普遍减少，这表明探索构象空间正在限制序列空间，从而使得能够设计有针对性的结构构象。

具有超出蛋白质设计本身的意义

研究人员在一个主力系统（即 TEM-1 丝氨酸 β-内酰胺酶）上进行了实验，展示了 CARBonAra 如何处理酶工程的挑战，设计出在高温下折叠并保持催化活性的实际蛋白质。此外，研究人员还探索了从 CARBonAra 的输出中采样蛋白质序列空间的重点策略。

由于不能确定由得分最高的氨基酸产生的蛋白质序列是否具有功能性，因此需要采用取样策略来产生可以在体外重组表达且稳定且具有功能的蛋白质。

目前为止，这尚未经过彻底测试。该团队在此表明，适当的采样策略不仅可以生成丰富的信息来产生起作用的蛋白质，而且还可以生成反映在自然序列中观察到的或通过诱变和选择实验采样的自然变异的合成多序列比对。

这具有超出蛋白质设计本身的意义，特别是为了解蛋白质在生物物理一致的蛋白质进化模型框架内如何进化打开了一扇窗户。

从根本上来说，提高计算设计的成功率对于真正掌握这一领域非常重要，更实际的是，可以在实验室中尝试实际表达和纯化时降低成本。

超高成功率

现在基于人工智能的方法开始稳定下来，这成为一个重要的讨论点。不同的方法和报告显示的成功率差异很大，但通常不清楚如何评估每种方法。

Chroma 进行了非常保守的评估，将其成功率设定为 3% 左右，而 RoseTTAFold/ProteinMPNN 论文报告称几种蛋白质的平均成功率为 15%。

使用该研究报告的 TEM-1 β-内酰胺酶设计，成功率达到 40%。同样，TIM 桶和 NTF2 折叠的成功率也高达 40-55%，远高于之前的平均 15%。

适合提高蛋白热稳定性

除了直接应用于设计新蛋白质和调整蛋白质功能之外，CARBonAra 似乎还非常适合提高热稳定性，就像其他蛋白质设计方法一样，它们也能产生坚固、高热稳定性的蛋白质。

这一观察结果揭示的一个有趣方面与用于稳定制造和工业过程的酶的设计序列的知识产权有关：通常，设计的酶会以覆盖较小但相当大的序列相似性范围的方式受到保护。

从历史上看，这已经足够全面了；然而，包括 CARBonAra 在内的现代蛋白质设计方法可以设计出相似性低得多的蛋白质，这些蛋白质可以保留功能并高度稳定。

结语

展望未来，与其他蛋白质设计方法相比，CARBonAra 具有一些优势，主要与其仅基于元素名称和坐标的内部工作有关，不需要任何进一步的参数化或中间计算。

因此，CARBonAra 看起来比其他替代方案更灵活。因为它可以从本质上解析任何类型的分子系统，所以可以对其他类型的生物分子（例如核酸、小分子、离子，甚至水）或生物组合中未发现的分子（如材料和表面）进行训练，前提是有足够的数据。

总之，CARBonAra 独特地基于结构数据，是一种概念上不同的蛋白质序列预测和设计方法，具有解决分子设计和合成生物学未来挑战所需的额外灵活性。

论文链接：https://www.nature.com/articles/s41467-024-50571-y

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-07发表2025-03-21更新 ByteAILab 11 分钟读完 (大约1603个字)

太原理工2024软件工程招60个班，近2000人，冲上热搜

这一届软件工程专业的学生占了 1/4，同班同学都是老乡。

都知道计算机专业火热，没想到竟然这么火。

刚刚，「2024 太原理工大学（211）软件工程招 60 个班，接近 2k 人」的这条消息登上知乎热榜，讨论量居高不下。

「60 个班，近 2000 人」，看到这个招生数量，各路网友们也是非常惊讶，一个专业招收这么多学生，这也太夸张了吧，别的不说，有这么多老师吗，难道学生都要上 120 人的大课？

等到写毕业论文找老师辅导，还得排号？毕竟一个老师平均要辅导超过 100 位本科生，就算是开线上讨论会，也得考虑一下腾讯会议室装这么多人会不会卡成 PPT。

更有网友用「离了个大谱」来形容。

太原理工大学（Taiyuan University of Technology）位于山西省太原市，是国家「世界一流学科建设高校」，国家「211 工程」重点建设高校。

据悉，该校 2024 年本科招生计划 8880，覆盖全国 31 个省市自治区（包括港澳台地区），其中山西省内计划占比 56%。

太原理工大学软件学院成立于 2010 年，2004 年经教育部批准设立软件工程本科专业。学院目前拥有完整的本科和硕士培养体系，设有软件工程本科专业，拥有软件工程一级学科硕士学位授予权，2021 年软件工程专业获批山西省本科一流专业。截止目前，学院教职工人数共 69 人，在校本科生 5439 人，研究生 117 人。师生比达到 1：78，可以说是非常夸张了。

据最新版报考指南介绍，太原理工大学的软件工程专业主要课程包括：面向对象程序设计、数据结构与算法、计算机系统基础、操作系统、数据库概论、软件工程导论、软件设计与体系结构、软件测试技术、软件需求工程、软件项目管理等。

根据官网查询到的准确消息，今年太原理工大学软件工程录取人数实为 1871 人（山西考区，原计划为 1795 人），最高分是 578 分，最低 534 分，平均 546 分。

当我们输入其他考区时，显示太原理工大学并未在其他地方招收学生。

作为对比，去年录取人数为 1541，今年比去年多了 300 多人。

除了招生人数，高昂的学费也是大家讨论的另一个焦点。据了解，该专业每年学费为 1.6 万，是其他专业的三倍之多。

随着这条消息的持续传播，大家讨论的也异常热烈，总结起来主要有以下几个观点。

观点 1 计算机行业已饱和，管杀不管埋？毕业即失业？

报志愿时，家长和考生们考虑的决定性因素，除了专业的未来「前景」，更是毕业时的「钱景」。

然而面对大学扩招带来的毕业生人数激增，毕业生获得 offer 的比率…

与此相对的是，这些专业对口的互联网企业却源源不断地传出裁员的消息。「广进计划」的风从硅谷袭来，无论是大厂中厂还是小厂，…

观点 2：师生比高达 1:80，教学质量能保证吗？

除了找不到工作的问题，最令网友们担心的还有师生比带来的教…

对于学校而言，这种看似「不考虑后果，只顾着收割眼前利益」的做法，并非全是收益。家长们的担忧不无道理：太原理工大学其他专业的录取…

观点 3：还有很多学校有扩招现象

在这个帖子引发这么多质疑之前，关于报考太原理工大学软件工程专业的画风是这样的：

太原理工大学作为山西省唯一的一所 211 院校、唯二的双一流大学，承担着无数山西家长的希望，也肩负着山西考生的前途命运。为了保护…

对此，也有许多山西 ip 的网友纷纷站出来力挺太原理工。

还有在读学生现身说法，相对高昂的学费放眼全国是普遍现象，教学质量有国家背书，最重要的是，对于「本省人」来说，花相对较高的学费获得…

对此，你怎么看，欢迎评论区留言。

参考链接：https://www.zhihu.com/question/663179975

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-07发表2025-03-21更新 ByteAILab 11 分钟读完 (大约1644个字)

科大讯飞发布智能办公本Air 2，打造更懂你的办公AI助手

更懂你的AI助手，让办公轻得自在。8月6日，科大讯飞举行“AI懂你，轻得自在”智能办公本新品发布会，正式发布科大讯飞智能办公本Air 2系列。

Air 2深度融合了讯飞星火大模型能力，带来会议纪要、笔记分析、AI写作三大AI绝招；Air 2也首次使用了语义转折点识别算法，大幅提升多人会议的分角色转写准确率；此外，Air 2还拥有88.5%超大视觉屏占比，在轻薄便携的同时带来墨水屏视野“大”体验。

轻薄超便携，88.5%超大屏占比
Air 2采用了8.2英寸E Ink墨水屏，并拥有88.5%超大视觉屏占比，同时依然保持了5毫米厚度、230克重量的轻薄体验，在轻薄便携的同时，为用户带来更大的视野体验。Air 2也搭载了办公本家族标志性创新设计——灵动条，这一新颖设计，不仅能给用户带来丝滑顺畅的翻页体验，也提供了更加便捷的大模型交互方式，只需右滑灵动条，就能立刻唤出讯飞星火，进行开放式问答，随时提供知识、灵感等全方位支持。Air 2依然配备了一支Wacom定制磁吸电磁笔，与墨水屏完美搭配，还原出真实纸笔的书写体验。此外，Air 2 Pro也是首款支持4G网络的8.2英寸便携墨水屏设备，无需配网，AI能力随时在线，成为移动办公的好搭档。

四麦阵列，创新语义转折点识别算法
Air 2本次也升级了臻享声麦系统，搭载了上下分布的四麦阵列，实现了360度拾音，并且首次使用了语义转折点识别算法，大幅提升了多人会议分角色转写的识别准确率。Air 2支持12种方言识别、8种外语互译、16大行业词库，满足用户在多种场景下的实时录音转写需求。除此之外，为了带来更好的转写、手写同步体验，Air 2专门针对书写时的屏笔摩擦噪音进行消除，进一步提升了录音及转写的清晰度、准确度。

星火强势赋能，三大AI绝招
科大讯飞此前发布了全面升级的讯飞星火大模型V4.0，七大核心能力显著提升，依托于这一强大的技术引擎，本次发布的Air 2更加深度的融合了星火大模型能力，除了有更聪明更好用的开放式问答及划词搜索功能外，更带来了三大AI绝招——会议纪要、笔记分析、AI写作。新升级的会议纪要，不仅能够帮助用户快速凝练会议，自动生成会议纪要，还能根据不同发言人进行内容总结，更加聚焦会议关键发言；此外还带来了专业版纪要，内容格式根据模板自动组织，更加适合政企中较为正式的会议场景。首次发布的笔记分析，分为知识洞察和知识挖掘两个功能，能够归纳整理历史笔记、自动生成脑图、根据提问直接分析生成答案等，帮助用户更好的利用历史笔记，高效管理个人知识。AI写作功能则应用了星火大模型最拿手的文本创作能力，只需简单填表，输入关键词，AI就能快速生成稿件，甚至还能反复提需求、多轮打磨，该功能拥有即兴发言、公文写作、营销文案等几十种模板，满足用户多场景的文稿创作需求。

办公“轻”体验，多方面持续升级
在轻办公等综合能力上，Air 2也在多个功能上进行了更新升级。除了深度适配WPS Office，Air 2还带来了基于办公文档的全新记录体验，Word及PPT文档支持边写边录、一键转文字，在围绕Word文档开会讨论、或是用PPT培训听课时，Air 2可以一边手写、一边录音，并支持录音转文字。专属App读写客帮助用户实现办公本/手机/电脑三端的数据同步，Air 2还新增了读写客手机端拍照插入笔记，实现了录音转写、手写、拍照三合一的记录方式。在日程管理方面，Air 2支持在记录场景下画圈或五角星，自动生成待办或关注事项并汇集到日程，帮助用户更有效的管理时间，借助星火大模型能力，还能够根据日程、待办、笔记等内容AI自动生成工作周报。在阅读听书体验上，Air 2实现了讯飞、京东读书、当当三大书城的深度融合，带来超百万的图书资源选择。依托于星火大模型能力，Air 2支持一句话声音复刻，只需录入一句话，就能用定制化声音听书、听新闻。

更懂你的AI助手，让办公轻得自在
讯飞智能办公本自2019年首次发布以来，经过多年的迭代出新，用户规模从最初的千人达到了现在的百万人，能够取得这样的成绩，关键就在于持续关注用户需求、不断提升用户体验。Air 2依托于讯飞星火大模型强大的AI能力加持，在一个AI应用日益普及的时代里，期望能够更关注用户场景、更懂用户需求，成为更懂你的AI助手，让每一个办公人士都能够享受AI，轻得自在。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-07发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1107个字)

免费！字节这款AI音乐神器，30秒速成抖音神曲

机器之能报道
编辑：杨文

抖音神曲制造机。
近日，字节酝酿许久的 AI 音乐创作神器 —— 海绵音乐，终于向公众开放啦！
只需要输入主题或者几句歌词，短短几十秒钟，它就能一口气创作出 3 首神曲。

歌词、旋律、演唱一锅出，看来以后抖音上会蹦出一堆 AI 歌曲。
例如，我们输入「不想上班了，想回家种地」，不到 30 秒，三首民谣歌曲就出炉了。

试听链接：https://mp.weixin.qq.com/s/cdGH7SosAK6neJYOSX4Mvw
嘿，第一首竟有点赵雷的味道。
-1-
206 首精选歌曲，总有一款适合你
与 Suno 类似，海绵音乐也推出了精选榜单，涵盖 R&B、摇滚、嘻哈、电子、国风等多种音乐风格。
我们耐着性子数了一下，共计 206 首 AI 歌曲上榜。
海绵音乐链接：https://www.haimian.com/featured
或许是海绵音乐刚开放的原因，歌曲点赞量普遍不多。截至目前，点赞量超过 10 次的只有 10 首，其中最高的是《慢时间》。

试听链接：https://mp.weixin.qq.com/s/cdGH7SosAK6neJYOSX4Mvw
这是一首回忆友情岁月的治愈风格民谣，女声缓缓唱出了对时间流逝的感慨、对过去美好记忆的怀念。
歌词也相当押韵：
你说城南的美酒要比春雨清甜
城北的老杨柳树也不过二十年
四季的风路过的人不能多看一眼
如果心里有一束光照亮你的脸
你说梦想和爱情不想输给时间
穷尽了一生回忆也不过二十年
那些回忆那些温柔只是过往云烟
如果可以我想它再慢一点
点赞量位居第二的则是 R&B 风格的《掌心盘旋的思念》。

…

整体来看，海绵音乐赢在歌词，Sunos 胜在曲风。
海绵音乐生成的歌词比 Suno 更懂意境，也更加押韵；而 Suno 的曲风更为丰富，各种流派风格均能拿出手，海绵音乐目前仅支持 11 种曲风。
从生成时长来说，海绵音乐一次可生成 3 首歌曲，每首最长 1 分钟；而 Suno 免费版一次可生成 2 首歌曲，最长可达到 4 分钟.

-3-
AI 「整顿」音乐圈
AI 的风，刮到音乐圈，还得从去年 5 月份说起。
彼时，有网友借助 AI 技术，制作了 AI 版孙燕姿、AI 版邓丽君、AI 版周杰伦，翻唱各种歌曲。
到了 7 月份，扎克伯格的 Meta 就开源了一款文生音乐模型 MusicGen，上手就能用。
相对来说，那时的 AI 音乐，还不成气候。
转眼来到 2024 年 3 月，Suno 突然现身，傻瓜式操作就能让歌词旋律一锅出，效果还贼好，这不禁让网友们惊呼：AI 音乐的「ChatGPT」时刻，来了！
目前，Suno 用户已超千万，其中还包括获得格莱美奖的艺术家们。
Suno 打出漂亮的一仗，也由此掀起了一场 AI 音乐狂潮，五花八门的 AI 音乐创作神器层出不穷。例如因太火爆官网差点搞崩的 Udio、半路出家的 Elevenlabs、Stable Audio 2.0、国内的网易天音和天工 SkyMusic……
如今，海绵音乐的入场，再次搅乱了 AI 音乐圈的一池春水～

工具链接——
海绵音乐官网链接：
https://www.haimian.com/featured
Suno官网链接：
https://suno.com/create

以后我们会带来更多AI大模型、AI应用的一手评测，也欢迎大家进群交流。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-07发表2025-03-21更新 ByteAILab 13 分钟读完 (大约1987个字)

最晚明年上半年落地L3：理想端到端自动驾驶，性能大幅提升

最近一段时间，生成式 AI 技术兴起，众多造车新势力都在探索视觉语言模型与世界模型的新方法，端到端的智能驾驶新技术似乎成为了共同的研究方向。

上个月，理想汽车发布了端到端 + VLM 视觉语言模型 + 世界模型的第三代自动驾驶技术架构。

此架构已推送千人内测，将智能驾驶行为拟人化，提高了 AI 的信息处理效率，增强了对复杂路况的理解和应对能力。

李想曾在公开的分享中表示，面对大部分算法难以识别和处理的罕见驾驶环境，VLM（Visual Language Model）即视觉语言模型可以系统地提升自动驾驶的能力，这种方法从理论上实现了突破。

李想图片

新一代的自动驾驶系统大幅提高了能力上限 —— 让 AI 可以应对很多过去难以解决的情况，也降低了门槛 —— 减少了技术研发团队规模的需求，有望让更多人在不久的将来获得大幅提升的体验。

这一套自动驾驶技术架构受诺贝尔奖得主丹尼尔・卡尼曼（Daniel Kahneman）快慢系统理论的启发，在自动驾驶领域模拟人类的思考和决策过程也需要「快系统」与「慢系统」进行协同。其中：

快系统（系统 1）善于处理简单任务，是人类基于经验和习惯形成的直觉；在自动驾驶中以端到端大模型构成，包含感知与规划，足以应对驾驶车辆时 95% 的常规场景。
慢系统（系统 2）是人类通过更深入的理解与学习形成的逻辑推理、复杂分析和计算能力；在自动驾驶系统中主要是 VLM 模型，它在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约 5% 场景。

上周，在理想汽车北京研发总部举行的活动中，理想汽车智能驾驶副总裁郎咸朋强调，目前理想的智能驾驶已经全面切入端到端 + 大模型方案，这让车辆已能够理解复杂路况和交通规则。

「不论端到端还是传统感知决策模型，都需要大量数据进行训练。一个潜在问题是，如果遇到没见过的场景，系统就不能很好的工作，」郎咸朋表示。「我们正在探索让车辆像人一样思考和决策的能力。」

理想汽车北京总部图片

自去年下半年起，理想开始调整战略，转换轨道。今年 2 月，在清华大学交叉信息研究院、理想汽车提交的 DriveVLM 论文中，研究人员应用最近生成式 AI 领域兴起的视觉语言模型（VLM），在视觉理解和推理方面表现出了非凡的能力。

在业界，这是第一个提出自动驾驶快慢系统的工作，其方法充分结合了主流自动驾驶 pipeline 和具备逻辑思考的大模型 pipeline，并第一个完成了端测部署的大模型工作（基于英伟达 Orin 平台）。

DriveVLM图片

DriveVLM 包含一个 Chain-of-Though (CoT) 流程，具有三个关键模块：场景描述、场景分析和分层规划。场景描述模块用语言描述驾驶环境，并识别场景中的关键对象；场景分析模块深入研究关键对象的特征及其对自我车辆的影响；分层规划模块从元动作和决策描述到路径点逐步制定计划。

这些模块分别对应于传统自动驾驶系统流程的感知 - 预测 - 规划流程三部分组件，不同之处在于它们处理对象感知、意图级预测和任务级规划上的能力 —— 这些在过去是极富挑战性的。

理想表示，在实践中这套模型理论上可以识别路面平整度、光线等环境信息，并且可以像人一样真正读懂导航地图。为验证上述技术在长尾场景上的有效性，理想将拆解真实环境数据，并利用生成模型补充新的视角，自定义改变天气、时间、车流等条件，实现场景的延伸泛化。通过这种类似无限的环境生成，理想可以对其自动驾驶系统进行充分的检验以及迭代。

在实际工作中，理想汽车的两套系统一直实时运行。其中端到端的模型较小，帧率较高；VLM 模型规模参数量较大（22 亿参数），帧数较低。在一些以往智能驾驶系统无法进行决策的情况，如高速收费站选择 ETC / 人工入口时，VLM 发挥作用，把决策结果和参考的轨迹交给端到端模型，在进一步推理后采用信息。

自动驾驶进入城市场景之后，信息处理的复杂度瞬间提升了几个数量级。在理想的工程师们看来，端到端方法一定意义上成为了技术的分水岭，标志着真正使用 AI 的开始。

新一代 AI 模型的另一个意义在于，它也可以担任不断给出考题的出题人。

截至今年 6 月，理想的整体保有量已经超过 80 万台。在可观的保有量里，理想筛选出了 3% 达到专车司机标准的用户，把这些用户的数据输入到模型中作为「真题」，再通过这些数据结合世界模型生成「模拟题」。在不断的训练、验证之后，整个系统的能力上限获得了提高，迭代速度也加快了。

由于是将 VLM 等模型部署在车端，新一代系统面临着很大的算力挑战。理想智能驾驶技术研发负责人贾鹏表示，在实际使用的过程中，AI 模型的参数量被保持在了最优的情况，同时为了将 AI 的决策时延提升到能够保证安全的水平，工程团队进行了一系列优化。

由于特斯拉 FSD 即将进入国内，智能驾驶领域预计很快将会进入全新的竞争阶段。理想汽车的下一个目标，是最快今年下半年，最晚明天上半年实现端到端 + VLM 的自动驾驶量产交付。

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-06发表2025-03-21更新 ByteAILab 6 分钟读完 (大约876个字)

五名州务卿呼吁马斯克修复聊天机器人，避免选举误传

五名州务卿计划致信埃隆·马斯克，要求这位亿万富翁所有者的X公司对其社交媒体平台的Grok AI聊天机器人进行更改，因为它向用户提供了关于卡玛拉·哈里斯出现在2024年白宫选票上的特定州的错误信息。

Grok告诉用户，选票已经“锁定准备好”，并且“已经过去了几个州的选票截止日期”。“所以，如果你计划在这些州之一竞选总统，你可能会想先确认你是否已经错过了时机。但是嘿，总有2028年的机会，对吧？”聊天机器人告诉用户。但是，Grok列出的九个州的选票截止日期 - 阿拉巴马州、印第安纳州、密歇根州、明尼苏达州、新墨西哥州、俄亥俄州、宾夕法尼亚州、得克萨斯州和华盛顿州 - 并未过期。而副总统在这些州竞选总统并没有任何障碍。
这五个州中的五名州务卿 - 密歇根州、明尼苏达州、新墨西哥州、宾夕法尼亚州和华盛顿州 - 呼吁马斯克向Grok更新有关总统大选的准确信息，据《华盛顿邮报》报道。明尼苏达州州务卿史蒂芬·西蒙强调，这一误传已经影响到数百万X用户。“这种误传具有相当大的影响力，”西蒙告诉明尼阿波利斯星论坛报。“它被反复传播且被分享。在Grok上我们还会看到什么？在X上我们还会看到什么会继续传播错误信息吗？”当与X联系提出关切时，西蒙表示收到了“我只能形容为等同于耸肩”的回应。西蒙告诉《邮报》他联系了其他九个被Grok提及的州的州务卿们 - 他们负责管理选举。同意签署这封信的五人中，除了宾夕法尼亚州的阿尔·施密特是民主党以外，其他都是民主党人，他是由民主党州长约什·夏皮罗任命的，后者是哈里斯的潜在竞选搭档。Grok于去年11月发布，作为X高级和高级Plus订户的一个功能，这些计划的费用为每月3美元和16美元。马斯克将Grok定位为一款替代性的“叛逆” AI 聊天机器人，将回答“大多数其他AI系统拒绝接受的辛辣问题”。
在他于2022年收购X后，马斯克表示，他对X的愿景是将其打造成一个“公共广场”。西蒙告诉《邮报》，散布错误信息远远超出了在公共论坛中对不同声音进行审查。“这是一个案例，在这个案例中，公共广场的所有者（即社交媒体公司本身）是引入并传播错误信息的人 - 然后在知道信息是错误的情况下延迟纠正自己的错误，”他说。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-06发表2025-03-21更新 ByteAILab 5 分钟读完 (大约752个字)

M-Files荣获2024年阿拉贡研究全球企业内容平台领导者称号

M-Files知识工作自动化平台因生成人工智能技术（GenAI）而备受认可
M-Files，知识工作自动化领导者，今天宣布，根据阿拉贡研究公司发布的2024年企业内容平台Aragon Research Globe™报告，其被确认为领导者。{ width=60% }

M-Files知识工作自动化平台通过解锁生成人工智能（GenAI）和自动化的力量，提升知识工作者的表现。在M-Files的核心是其基于元数据驱动的架构、内嵌式工作流引擎和先进人工智能。M-Files的元数据基础推动数据连接、保密性和策划，实现卓越的人工智能体验。通过M-Files Aino，在M-Files内的GenAI助手，知识工作者可以快速处理大量信息，获得复杂问题的答案，并更快地得出结论。
M-Files创始人兼首席执行官Antti Nivala表示：“自动化和人工智能从根本上正在塑造各行业知识工作者的角色。”他继续说：“通过自动化常规工作流程并利用人工智能，我们领先的知识工作自动化平台将重复性任务转化为无缝自动化流程，并揭示业务关键信息，使知识工作者能够专注于工作中更富有成效和富有创造力的方面，激发创新。”他表示：“我们认为被认定为2024年阿拉贡研究企业内容平台全球领导者，突显了我们致力于帮助企业以尖端技术驱动改进生产力和效率的GenAI创新领域的承诺。”
M-Files将参加在华盛顿特区沃尔特E华盛顿会议中心（Walter E Washington Convention Center）举行的Microsoft TechCon365大会，时间为8月12日至16日。访问113号展位，安排演示，或参加以下活动：
8月14日美东时间下午2:00，M-Files展位113号的Power演示；8月15日，房间204AB会议，主题：“M-Files知识工作自动化平台如何利用人工智能改变知识工作”；8月15日，房间202B会议，主题：“准备您的组织解锁企业应用中生成人工智能的潜力”。
M-Files平台帮助知识工作者消除信息混乱，降低业务风险，并通过自动化工作流程提高流程效率和准确性，涵盖创建、协作和批准等方面。
要了解M-Files如何转变知识工作，请访问：https://www.m-files.com/。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-08-06发表2025-03-21更新 ByteAILab 4 分钟读完 (大约600个字)

ECI Software Solutions收购智能制造ERP ProfitKey

收购增强了ECI的制造软件组合，进一步巩固了其支持制造企业的承诺
全球云端业务管理软件与服务提供商ECI Software Solutions今日宣布完成收购ProfitKey International LLC，一家面向离散制造商的ERP平台。{ width=60% }

这项战略性收购增强了ECI强大的制造软件组合，并进一步巩固了其支持行业内企业的承诺。收购条款未透露。

“我们很高兴欢迎ProfitKey及其令人印象深刻的客户加入ECI大家庭，”ECI Software Solutions首席执行官特雷弗·格鲁纽沃尔德表示。“一流的ProfitKey ERP和团队的专业知识给我们留下了深刻印象。通过合作，我们可以继续投资于制造企业的成功及其不断发展的行业需求。我们的目标是为制造企业提供更大的价值，确保所有客户的美好未来。”

25年来，ECI Software Solutions一直致力于提供高价值的、针对行业的软件解决方案，旨在帮助全球的中小型企业高效地管理业务，实现盈利增长。

“我对这一消息以及它将为所有ProfitKey利益相关者提供的巨大价值感到非常兴奋，”ProfitKey首席执行官凯文·欧基夫表示。“我们的投资者获得了合理的资本回报，同时我们的客户受益于ECI为其长期成功带来的额外资源。加入ECI这样一个更大规模的全球组织，ProfitKey的员工将获得更多的职业和个人成长机会。”

ProfitKey团队将加入ECI的制造部门，该部门是公司规模最大的业务单元。为确保顺利过渡，他们的客户熟悉且信任的软件、支持和流程将保持不变。

要了解更多关于ECI创新制造软件解决方案和工具的信息，请访问网站。

---
感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：[GPTNB](https://gptnb.com)。

论文链接：https://www.nature.com/articles/s41467-024-50571-y

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

链接

分类

最新文章

归档

标签

订阅更新