自从学会了用AI,工作简直像开挂了

智能审问涉及以能够产生更好推理和结果的方式提示LLM(或通俗来说,给他们指令),也就是用AI思考的能力,例如金融服务公司的客服可能会用它寻找复杂问题的答案回复客户,药理学家用它协助研究药物化合物和分子相互作用,营销人员用来挖掘数据集找到最优的零售定价。

**判断整合是指当生成式AI模型不确定该怎么做,或者在推理中缺少必要的商业或道德背景时,引入人的判断。


**这样做的目的是让人机交互的结果更加值得信赖。判断整合需要我们知道介入的时间、地方和方式,其有效性是通过AI输出的可靠性、准确性和可解释性来衡量的。

互惠互学方面,你可以通过将丰富的数据和组织知识融入给出的提示,帮助AI了解业务任务和需求,从而训练AI成为合作创造者。这是一种根据公司具体业务背景定制生成式AI的技能,这样它就可以得出理想的结果。这样做时,你自己也能学会如何训练AI来应对更复杂的挑战。曾经只有数据科学家和搭建架构的数据分析师才需要这种能力,现在互惠互学在非技术岗位上变得越来越重要。

为什么你需要系统地发展这些思考、建立信任和定制的新技能?实证研究一致表明,临时指令——今天大多数员工提示LLM的方式——会导致不可靠或糟糕的结果,尤其是在复杂的推理任务中。从客户服务、市场营销、物流到研发等,各个职能部门中都是如此。对我们所有人来说,在工作中更加严格地使用生成式AI至关重要。本文将介绍如何做到这一点。

将AI变成学徒

随着LLM规模和复杂性的增加,它们可能会表现出“涌现性质”(Emergent properties),比如高级推理,即它们没有受过训练,但在你提供上下文数据或知识后,这些技能就会出现。为了推动这一技能的发展,我们可以采取以下步骤。

为模型提供“思维演示”。在给LLM提出一个要解决的问题之前,可以先让它以某种方式进行思考。例如,你可以教它“从少到多”的推理方法,向AI展示如何将一个复杂难题分解成几个更小、更简单的难题,先解决难度最小的问题,将答案作为解决下一个问题的基础,以此类推。谷歌DeepMind的Denny Zhou及其同事已经证明,“从最少到最多”的方法可以将AI输出的准确率从16%提高到99%。

想象一位需要构思新系列的健身服装品牌的营销经理,他可以把这个问题分解成以下几步:

1. 受众。找出可以成为潜在客户的健身爱好者——这是一项相对容易的任务,特别是对于一个根据公司客户数据训练的模型。

2. 消息传递。在之前确定受众的基础上,强调性能、舒适度和风格的信息。这是一个更具挑战性和创造性的问题。

3. 渠道。选择社交媒体、健身博客和网红伙伴,这些人会将信息传递给受众。

4.资源。根据渠道的选择分配预算(这往往是所有组织中最有争议的问题)。

训练LLM学习新流程。你可以通过让它在提示的上下文中浏览一组示例,教会AI如何执行任务。这叫作“上下文学习”(in-context learning),这样你就可以调整预训练的LLM,如GPT-4、Claude和Llama,而跳过调整参数这一偶尔费时费力的过程。例如,研究人员在《自然》杂志发文称,他们利用放射学报告、病人提问、进展记录和医患对话的例子给出提示,向LLM演示了如何总结医疗信息。之后他们发现,81%的LLM生成的摘要会等同或优于人类生成的摘要。

当用户从使用简单的问题或指令开始,逐渐以越来越复杂和细微的方式描述任务时,互惠学习随之产生。用户可以添加上下文,调整措辞,看看模型如何回复,进行测试,直到得出理想结果。

获得新的融合技能

要广泛掌握生成式AI,不仅需要企业的大量投资,还需要个人的主动性、学习和努力。虽然少数公司正在提供相关培训,但大多数公司还没有制定出健全的计划。事实上,2024年对七千名专业人士的调查中,我们发现,虽然94%的人表示他们准备学习与生成式AI合作的新技能,但只有5%的人表示,自己的雇主正在积极开展大规模的员工培训。因此,我们中的许多人还是要自力更生,跟上LLM的快速发展,以及将高水平研究转化为各种工作和行业实践的步伐。

接下来:获得为实际工作流程和多模态大型语言模型(MLLMs)进行思想链提示的技能,这些模型集成了不同类型的数据,如文本、音频、视频和图像,同时还提供了这些格式的输出。一组研究人员发现,思想链提示将MLLMs的性能最高提高到了100%。早期采用者已经在测试这些方法,不过还不够成熟,无法广泛采用。

AI革命不是正在到来,而是已经到来。领先的公司正在利用这项技术重新构想跨行业、跨职能和跨岗位的流程。生成式AI大大提高了标准,要求我们用AI思考,保证我们信任它,并不断对其进行量身定制,来使自己表现得更好。尽管生成式AI是在人与机器间建立更多共生关系的延伸,但它在技术史上也是独一无二的。没有任何一项重大创新能以这样的速度发展。知识工作的变革速度之快、力度之大,甚至超出了我们许多人的想象。做好准备,未来商业的驱动力将不仅是生成式AI,更是懂得如何最有效使用这一工具的人。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来,它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练,它就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。


展示 o1 实力的 demo,我们看了不少,评估 o1 表现的评测,全网比比皆是,关于 o1 技术路线的讨论也如火如荼,引发了广泛的关注和深入的思考。

不过 o1 背后的故事,还鲜为人知,那些在幕后默默付出的团队成员们,他们的故事同样值得被讲述和铭记。

刚刚,OpenAI 发布了 o1 研发团队的完整访谈,为我们揭秘了 o1 的「成长历程」。o1 如何一步步蜕变,最终成为一个「智商高达 120」的非凡存在?他们是将强化学习和监督学习两种范式结合起来的?这背后是无数的突破与挑战,OpenAI o1 的研究人员与 OpenAI 研究团队的负责人 Bob McGrew 畅谈了研发过程中的「Aha moments」—— 那些破解瓶颈、灵感迸发、豁然开朗的瞬间。

在访谈中,他们揭秘了 o1 团队的关键人物,最早由 Jakub Pachocki 进行了一些探索,后来又和Łukasz Kaiser (Transformer 作者之一)和 Ilya Sutskever 进行了早期的探索。这可能也是为什么虽然 Ilya 已经离职,但仍出现在贡献者名单前列的理由。

o1 项目的关键时刻是 Jerry Tworek 整合了这些内容,并继续推动项目。

图片

原视频链接:https://www.youtube.com/watch?v=tEzs3VHyBDM

以下是对访谈主要内容摘录:

什么是 o1?

Hyung Won Chung:我们将使用新名称 o1 推出一系列新模型。这是为了强调这样一个事实:与 GPT-4 等以前的模型相比,您在使用 o1 时可能会感到不同。o1 是个推理模型,它在回答你的问题之前会做更多思考。我们将发布两个模型:o1 preview,也就是 o1 的内容预览版,还有采用了与 o1 相似的训练框架、更小更快的 o1 mini。希望你喜欢我们的新命名方案 o1。

Hyung Won Chung

什么是推理?

Giambattista Parascandolo:可以这么理解:对于一些需要立即回答的简单问题,例如,「意大利的首都是哪里?」,不用想太多,就知道答案是罗马。但是如果想要解一个复杂的谜题、想精心策划一份商业企划书、或者想写小说,那可能需要很多思考。想得越多,可能成果越好。因此,可以说推理是一种把思考时间转化为更好成果的能力。

Giambattista Parascandolo

备注:其中的图片链接展示需要保留,其余 HTML 标签已被移除。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI o1不会“消灭”程序员

在当前大模型快速发展中,编程技术成为了许多企业争夺的焦点领域之一,通用大模型的发布往往伴随着诸如HumanEval等测试基准来衡量模型在编程领域的性能。此外,OpenAI CEO 萨姆·奥特曼多次在公开场合强调,最期待的大模型应用场景是如何在代码生成和编程效率提升领域实现真正的质变。


这一观点背后不仅是技术专家对编程的深厚兴趣,更深层次地反映了AI商业化潜力、模型在实际应用中的广泛可能性,以及对未来市场格局的战略考量。

o1-mini 与 o1-preview

有望引爆AI 编程技术竞赛

在最新发布的o1-mini和o1-preview版本中,尽管在HumanEval基准测试中的提升仅为2.2%,看似相较于其前代产品GPT-4o并没有显著飞跃,但它们的实际技术进展却不可小觑。此次发布的重要亮点在于引入了Self-play Reinforcement Learning(自我博弈强化学习)和思维链。这一技术创新为大模型在代码生成领域带来了更强的自我学习和错误纠正能力,使模型不仅能够自主解决复杂问题,还能将其分解为更为简单易处理的步骤。这种技术进步不仅提升了理论上的推理和逻辑能力,更为重要的是在实际应用场景中显著提升了代码生成的效率和准确性。o1-mini和o1-preview版本通过模拟Codeforces的编程竞赛,按照实际编程环境中的规则评估其表现。在Codeforces测试中,o1-preview 和 o1的得分分别为1258和1673,远超GPT-4o。这不仅验证了自我博弈强化学习技术的有效性,也表明了o1系列模型在解决实际编程问题时的卓越表现。

新的技术基准有望建立,推动AI编程走向更高的水平。

尽管HumanEval等基准测试在评估大模型能力方面提供了重要指标,但随着模型能力的逐渐提升,类似的测试已难以充分反映实际编程中的复杂性和挑战。HumanEval主要测量模型生成代码片段的正确性和质量,但在面对更复杂、更具生产价值的编程任务时,现有的测试已经显得过于基础。o1-mini和o1-preview版本的发布显示,AI编程能力的提升已经超越了传统基准测试的评估范围,未来可能需要更加严苛和更具现实性的benchmark来推动AI编程技术的发展。例如,未来的基准测试可能会更加侧重模型在真实开发环境中的表现,评估其在大型项目中的协作能力、代码复用和维护性,以及在不同编程语言和框架中的适应性。这不仅会对大模型的能力提出更高的要求,也会推动整个行业进一步提升AI编程技术的标准,为开发者提供更加智能和高效的工具。

AI编程技术竞赛加剧,产品完善加速。

随着o1-mini和o1-preview的发布,AI编程技术的竞赛将进入一个新的阶段。OpenAI凭借其在模型设计上的创新占据了领先地位,而这一进展也势必引发其他科技巨头和初创企业的迅速跟进。在未来的AI编程技术竞赛中,无论是谷歌、Anthropic、Meta等大模型公司,还是Anysphere、Cognition、Poolside、Magic Augment等AI 编程初创企业,都将加大对AI编程领域的投资和研发力度。此外基础模型的增强会提升专注做代码助手产品化的公司,例如 OpenAI 的最新o1模型现已在Anysphere的Cursor上推出,此外Cognition 也在产品中进行了实验,发现基于o1的devin在内部的测试基准上的性能远超GPT4o。未来,这些企业的共同努力,将进一步完善模型性能和产品,为用户提供更强大的AI编程工具。

AI编程商业化验证已经完成,

具备明确市场增长空间

盈利产品的成功验证了AI编程工具的商业化可行性。作为全球首个大规模商业化的大模型产品之一,GitHub Copilot的付费用户数量在短时间内迅速攀升。据统计,到2023年10月,GitHub Copilot的付费用户已突破100万,年经常性收入(ARR)更是达到1亿美元。这不仅验证了其商业化的可行性,也为其他类似产品的发展提供了重要参考。今年4月,GitHub Copilot的用户数增至180万,半年内增加了80万用户,表明其用户接受度和市场需求的迅速扩展。此外,GitHub Copilot在企业市场中的表现同样引人注目。在2024年7月的季度业绩发布中,微软宣布,已有77,000家机构在使用GitHub Copilot。这些机构用户包括一些行业巨头,如拉丁美洲的电商领军企业Mercado Libre和全球咨询巨头埃森哲。据称,这些公司在使用Copilot后,生产力提高了20-35%。GitHub Copilot的成功标志着AI编程工具商业化的重要里程碑,不仅为AI编程工具的商业化探索奠定了基础,还为未来其他AI编程产品的研发和推广提供了示范效应。

用户需求旺盛,市场空间巨大。根据Evans Data Corporation的全球开发者人口和统计研究,2022年全球共有约2,690万软件开发者,预计到2024年这一数字将增长至2,870万,如此庞大的开发者群体为AI编程工具提供了广阔的市场空间。这些开发者不仅对提高生产力有着强烈需求,也展现出一定的付费意愿,根据CSDN的调查,在中国开发者中,44%的人愿意为AI编程工具支付「0-30元/月」的费用。尽管这一付费意愿相对较低,但随着AI编程工具的不断优化与功能的丰富,用户愿意为更高效的工具支付更多费用的可能性将逐步增加。此外,随着AI技术的普及,越来越多的非专业开发者也开始借助AI编程工具进行简单的程序开发和自动化任务处理。例如,Replit推出的Replit Agent为用户提供了从开发环境搭建到应用部署的一站式解决方案,吸引了大量毫无编程经验的用户。这种工具的简单易用性,使得非开发者群体也能借助自然语言交互实现编程功能,进一步扩大了AI编程工具的潜在市场。此外通用大模型也能支持用户直接代码生成,例如在o1-mini中,用户只需简单提示即可生成如贪吃蛇游戏的代码,并且能获得运行环境配置的详细指导。随着这些工具的功能日益强大,未来将有更多的行业用户和非开发者加入到AI编程工具的使用群体中,为市场带来更多增长动力。

投资机构认可,支持力度较高。除了用户需求的增长,投资机构对AI编程工具的支持力度也在不断增强。许多初创公司通过融资获得了大量资金,以推动AI编程技术的进一步发展。例如,AI编程初创公司Augment最近宣布完成了2.52亿美元的融资,投后估值达到了9.77亿美元。这一轮融资为Augment的发展注入了强大动力,帮助其在竞争日益激烈的市场中占据一席之地。同样,今年8月,开发Cursor的AI编码助手的初创公司Anysphere完成了6000万美元的A轮融资,投后估值达到4亿美元。此外,美国旧金山AI编程初创公司Magic在一轮融资中筹集了3.2亿美元。九月,法国AI编程初创公司Poolside正在商谈近5亿美元的融资,且有望在发布首款产品之前就达到30亿美元的估值。这一系列融资案例表明,资本市场对AI编程工具的未来发展前景充满信心。这些初创公司能够吸引如此大规模的投资,证明了AI编程市场具有巨大的潜力。

编程能力进化即将开启大语言模型

转化为行业生产力的序幕

在数字领域,代码是连接数字空间与物理世界的桥梁,无论是实现一个简单的功能模块,开发一个基础的应用程序,还是构建一个复杂的平…


请注意:图片链接在原文中保留,Makedown转换时没有展示。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

仅用4块GPU、不到3天训练出「开源版GPT-4o」,这是国内团队最新研究

LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,响应延迟低至 226ms,低于 GPT-4o 的平均音频响应延迟 320ms。

以 ChatGPT 为代表的大型语言模型(LLM)已成为强大的通用任务解决器,但大多数 LLM 仅支持基于文本的交互,这限制了它们在不适合文本输入输出的场景中的应用。


GPT-4o 的出现使得通过语音与 LLM 进行交互成为可能。然而,开源社区对于构建此类基于 LLM 的语音交互模型仍然缺乏探索。

实现与 LLM 进行语音交互最简单的方法是采用基于自动语音识别 (ASR) 和语音合成 (TTS) 模型的级联系统,其中 ASR 模型将用户的语音指令转录为文本, TTS 模型将 LLM 的响应合成为语音。

然而,由于级联系统依次输出转录文本、文本响应和语音响应,整个系统往往具有较高的延迟。相比之下,一些多模态语音 - 语言模型将语音离散化为 token 并扩展 LLM 的词表以支持语音输入和输出。这种语音 - 语言模型理论上可以直接从语音指令生成语音响应,无需生成中间文本,从而实现极低的响应延迟。然而,在实践中,由于涉及语音之间复杂的映射,直接语音到语音的生成通常极具挑战性。

为了解决上述问题,来自中国科学院计算技术研究所、中国科学院大学的研究者提出了一种新型模型架构 ——LLaMA-Omni,它可以实现与 LLM 的低延迟、高质量交互。

LLaMA-Omni 由语音编码器、语音适配器、LLM 和流式语音解码器组成。用户的语音指令由语音编码器进行编码,经过语音适配器后输入到 LLM。LLM 直接从语音指令中解码文本响应,无需首先将语音转录为文本。语音解码器是一个非自回归(NAR)流式 Transformer,它将 LLM 的输出表示作为输入,并使用连接时序分类(Connectionist Temporal Classification, CTC)来预测与语音响应相对应的离散单元序列。

在推理过程中,当 LLM 自回归生成文本响应时,语音解码器同步生成相应的离散单元。为了更好地契合语音交互场景的特点,该研究通过重写现有的文本指令数据并进行语音合成,构建了名为 InstructS2S-200K 的数据集。实验结果表明,LLaMA-Omni 可以同步生成高质量的文本和语音响应,延迟低至 226ms。

此外,与 SpeechGPT 等语音 - 语言模型相比,LLaMA-Omni 显著减少了所需的训练数据和计算资源,从而能够基于最新的 LLM 高效开发强大的语音交互模型。

LLaMA-Omni 的模型概览以及语音编码器、语音适配器、LLM 和语音解码器的工作原理也得到了详细阐述。

论文:https://arxiv.org/pdf/2409.06666
代码:https://github.com/ictnlp/LLaMA-Omni
模型:https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni
论文标题:LLaMA-Omni: Seamless Speech Interaction with Large Language Models




感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

准确率87.6%,南农、国防科大、苏大等发布显微图像分类AI新方法

编辑 | 萝卜皮

在医学显微图像分类(MIC)领域,基于 CNN 和 Transformer 的模型得到了广泛的研究。然而,CNN 在建模长距离依赖关系方面存在短板,限制了其充分利用图像中语义信息的能力。


相反,Transformer 受到二次计算复杂性的制约。

为了解决这些挑战,南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型:Microscopic-Mamba。

具体来说,该团队设计了部分选择前馈网络(PSFFN)来取代视觉状态空间模块(VSSM)的最后一层线性层,增强了 Mamba 的局部特征提取能力。

此外,研究人员提出了调制交互特征聚合(MIFA)模块,使模型可以有效地调制和动态聚合全局和局部特征。他们还采用了并行 VSSM 机制,以改善通道间信息交互,同时减少参数数量。

该研究以「Microscopic-Mamba: Revealing the Secrets of Microscopic Images with Just 4M Parameters」为题,于 2024 年 9 月 12 日发布在 arXiv 预印平台。

显微成像技术在医学中至关重要,能够在细胞和分子水平上分析生物结构,帮助诊断疾病。然而,对显微图像的手动分类效率低下,且需要大量专业知识。虽然 CNN 能有效提取局部特征,但其捕捉长距离依赖关系的能力有限;ViT 虽能建模全局依赖关系,但计算复杂度高。

现有的解决这些限制的方法包括结合 CNN 和 Transformer 的混合方法。这些方法试图在局部和全局特征提取之间取得平衡,但通常以牺牲准确性或计算效率为代价。

因此,科学家需要设计更高效的模型,能有效地处理局部和全局信息,同时无需承担巨大的计算负担。

南京农业大学、国防科技大学、湘潭大学、南京邮电大学和苏州大学的研究团队提出了一种名为 Microscopic-Mamba 的新型架构来应对这些挑战。

图示:Microscopic-Mamba 架构。(来源:论文)

它以较低的计算复杂度缓解了现实医疗场景中的计算限制。该模型专门用于通过结合 CNN 在局部特征提取方面的优势与状态空间模型(SSM)在捕获长距离依赖关系方面的效率来改善微观图像分类。

该团队的模型集成了部分选择前馈网络(PSFFN)来取代视觉状态空间模块(VSSM)中的最终线性层,在保持紧凑高效的架构的同时,显著增强了感知局部特征的能力。通过结合全局和局部信息处理能力,Microscopic-Mamba 模型力图在医学图像分类领域树立新的标杆。

Microscopic-Mamba 背后的核心方法在于其双分支结构,由用于局部特征提取的卷积分支和用于全局特征建模的 SSM 分支组成。该模型还引入了调制交互特征聚合 (MIFA) 模块,旨在有效融合全局特征和局部特征。在此架构中,CNN 分支使用深度可分离卷积(DWConv)和逐点卷积(PWConv)进行局部特征提取。

相比之下,SSM 分支则专注于通过并行视觉状态空间模块(VSSM)进行全局特征建模。集成这两个模块使 Microscopic-Mamba 能够处理详细的局部信息和广泛的全局模式,这对于准确的医学图像分析至关重要。

VSSM 中的最后一层被 PSFFN 取代,这提高了模型捕获局部信息的能力,优化了细节和泛化之间的平衡。

图示:在五个公共数据集上与最先进方法进行性能比较。(来源:论文)

研究人员用五个公共医学图像数据集对 Microscopic-Mamba 模型进行了广泛的测试,均表现出了优异的性能。

这些数据集包括视网膜色素上皮 (RPE) 细胞数据集、用于疟疾细胞分类的 SARS 数据集、用于结直肠息肉分类的 MHIST 数据集、用于肿瘤组织分类的 MedFM…

Read more

相关内容:Microscopic-Mamba Released: A Groundbreaking Hybrid Model Combining Convolutional Neural Network (CNNs) and SSMs for Efficient and Accurate Medical Microscopic Image Classification

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

开源!上海AI Lab视频生成大模型书生・筑梦 2.0来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

近日,上海人工智能实验室推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。

主页:https://vchitect.intern-ai.org.cn/
Github: https://github.com/Vchitect/Vchitect-2.0

本文将详细介绍筑梦 2.0 背后的核心亮点与技术细节。

核心亮点

1、 支持更长的视频生成:
目前来看,筑梦 2.0 支持 5s-20s 长视频生成,超过其他开源模型的生成时长。
同时支持高达 720x480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。

2. 新一代视频增强算法 VEnhancer
与其他开源模型不同,筑梦 2.0 同步开源了用于视频增强的生成式模型 ——VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。

3. 全球首个支持长视频生成评测的框架
该在原有的 VBench 评测框架基础上,优化并升级了对长视频生成的评测能力,目前已包含 Gen-3、可灵、OpenSora 等主流模型。这使开发者和用户能够更系统地评估模型性能,尤其是在长视频生成方面。书生・筑梦 2.0 在开源 2B 模型中表现卓越,性能甚至可以媲美开源最优的 5B 模型。

筑梦 2.0 技术解析

1、模型架构
根据开源代码分析,书生・筑梦 2.0 采用了时下热门的扩散式 Transformer(Diffusion Transformer)网络模型。不同于 CogVideoX 的全注意力机制,筑梦 2.0 通过并行结构的 Transformer 模块处理视频的空间和时间信息,包括自注意力、交叉注意力和时间注意力。

具体来说,自注意力模块负责每一帧之间的 token 交互,交叉注意力则使用所有帧的 token 作为查询,文本 token 作为键和值,而时间注意力则在不同帧的相同位置之间执行 token 的注意力操作。最终,模型通过线性层融合自注意力和交叉注意力的输出,再与时间注意力的结果相加,从而实现高效的视频生成任务处理。

2、训练框架
此外,书生・筑梦 2.0 同时开源了他们的训练和推理框架 LiteGen。从改框架的优化介绍上看,该框架针对性地提供了 diffusion 任务所需的各项优化。

对于如何进一步优化显存以支持更大序列长度的训练这一方面,他们的开源代码采用了 Activation Offload 与 Sequence Parallel 技术进行优化。在实现上,他们的 Activation Offload 在计算时将暂未使用的中间激活 offload 到 CPU 内存上,需要时再拷贝到显存中,这样可以让 GPU 显存中尽量只留有当前计算所必须的激活,减少了显存峰值使用量。从开源代码的分析开看,他们采用了通信计算重叠的方式实现 Activation Offload,这将有助于降低设备间拷贝通信对整体性能的影响。

据其开源代码的说明描述,在 A100 GPU 上,采用 Activation Offload 让筑梦 2.0 的 2B 模型单卡序列长度提升了 42%;进一步应用 Sequence Parallel 拓展至 8 卡,最大序列长度提升 8.6 倍,可以满足分钟级视频生成训练的计算需求。

从其代码实现上来看,他们的框架设计得较为轻量,使用接口简洁,可以在改动比较小的情况下集成框架内的各项优化,在易用性上具有不错的优势。

团队介绍
上海人工智能实验室的书生・筑梦团队由来自上海人工智能实验室和新加坡南洋理工大学S-Lab的成员组成,专注于视频生成技术的前沿研究与应用开发。他们致力于通过创新的算法和架构优化,提升视频生成模型的质量和效率。近期,他们的工作包括VBench、VideoBooth 、FreeU、FreeInit、Latte 、VEnhancer等,这些项目在视频生成、插帧、超分辨率处理以及生成质量评估等多个关键领域都取得了显著进展。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

伊隆·马斯克在与巴西法官的争执中让步,表示愿意遵守法庭要求恢复 X 平台

伊隆·马斯克向法律低头。


法律似乎获得了胜利。马斯克的社交媒体平台X在与巴西司法部门的争执中让步,遵守了法院的命令,阻止了该国用户访问X。根据《纽约时报》的报道,该平台屈服于巴西最高法院提出的一项关键要求,即在巴西任命了一名法定代表。同时,它支付了未支付的罚款,并删除了法院要求删除的用户账户,理由是这些账户威胁到了该国的民主制度。然而,这场战斗还没有结束。最高法院表示,X没有提交适当的文件证明已经任命了Rachel de Oliveira Conceicao作为其巴西代表。法院给予公司五天的时间提交验证她任命的文件。自4月以来,马斯克一直与最高法院法官亚历山大·德·莫拉斯对峙,当时他下令该公司关闭100多个社交媒体账户,质疑极右翼总统贾尔·博索纳罗是否真的在2022年失去了选举。到了8月中旬,马斯克关闭了X在巴西的办公室,导致该公司在那里没有法定代表,这是在该国运营的法律要求。莫拉斯对此做出了反应,下令巴西的移动和互联网服务提供商屏蔽X的访问。马斯克利用他的平台抨击莫拉斯,称他为“邪恶的暴君”等等。上周,X在巴西重新出现,声称通过一个软件更新,称这是“一次无意且临时的为巴西用户恢复服务”。但是莫拉斯表示这是“故意的、非法的且持续存在的”,并对X开出了500万雷亚尔(68万英镑)的罚款,额外加上已经施加的1830万雷亚尔(250万英镑)。马斯克反对在巴西和澳大利亚删除一些帖文和账户的法律命令,声称自己是言论自由的捍卫者,尽管他对删除土耳其和印度等国家的内容并不那么强硬。巴西的2亿人口使其成为社交媒体公司的一个有吸引力的市场。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Ginkgo Bioworks推出Ginkgo Datapoints

今天,致力于打造细胞编程和生物安全领先平台的Ginkgo Bioworks(纽交所代码:DNA)自豪地宣布推出Ginkgo Datapoints,旨在通过更轻松、更高效地训练AI模型,开启生物技术的下一个时代。图片{ width=60% }


Ginkgo Datapoints专注于生成大规模、高质量的生物数据集,具有快速的交付时间,并以竞争性的每数据点价格和简化的交易结构操作。 Ginkgo Datapoints将在今年秋季推出几款数据生成产品,包括蛋白质表征和功能基因组学。

作为Ginkgo Datapoints的旗舰产品,功能基因组学产品已经推出,提供大规模的干扰数据集,为合作伙伴的AI模型提供动力,用于细胞和疾病生物学的目标识别和验证以及药物发现。 Ginkgo Datapoints解决了AI模型训练中一些最重要的挑战:数据可用性、质量和一致性。

Ginkgo Bioworks的首席执行官Jason Kelly表示:“Ginkgo Datapoints的推出标志着我们使生物工程变得更加简单的使命迈出了重要一步。通过Ginkgo Datapoints,我们通过以每数据集的价格为客户生成大规模、高质量的数据集,将我们的规模经济效益传递给客户,使训练生物基础模型变得可行。 Ginkgo Datapoints不仅仅是一个服务,更是致力于推动创新,加速生物科技行业新疗法和解决方案的开发。”

Ginkgo Datapoints的总经理John Androsavich表示:“有越来越多的药品和产品开发者希望利用AI,并且他们的模型渴望获取数据。通过Ginkgo Datapoints,我们回应了这个新生的生命科学时代需要如何生成数据的呼声。我们将Ginkgo庞大的基础设施聚焦于以AI规模进行生物数据生成,使我们的Datapoints客户能够在模型训练中进行大胆的投资,这将对药物发现中的靶标识别或诸如抗体治疗等领域产生有意义的影响。我们的目标是消除阻碍生物学中AI驱动进展的数据瓶颈,我对我们为此所组建的团队和技术感到兴奋。”

Ginkgo Datapoints产品是Ginkgo之前推出的Lab Data-as-a-Service产品的下一个演进阶段。这些产品将提供关键功能,对于构建生物学AI的客户至关重要,包括生物制药公司、技术生物公司和大型科技公司。 Ginkgo Datapoints的功能基因组学产品设计如下:

灵活性和可定制性:客户提供其序列或库输入,并选择适合他们的数据集设计,可以从多个现成产品参数中进行选择。变量包括数据集大小、所选的细胞系或原代细胞、分析输出、数据格式和标记偏好。客户还可以与Ginkgo的AI专家协商,获得针对其应用程序的设计建议,定制到数据集将用于训练基础模型或特定任务模型、验证现有模型或追求其他结果,如命中发现。

可扩展性和速度:利用Ginkgo的先进自动化和后端数据管理基础设施,Ginkgo Datapoints可通过筛选客户库定期提供数百万数据点,以生成丰富、高质量、整洁编制的高通量转录组、细胞染色或其他组学概况数据,交付时间可不到三周。

数据质量和成本效益:由于Ginkgo高度自动化实验室的规模经济效益,Ginkgo Datapoints可以在数据集规模增大时提供折扣,使其能够向对数据需求巨大的AI模型提供数据。

具有吸引力的交易条件:客户通过按服务费制购买Ginkgo Datapoints生成的数据。

Ginkgo Datapoints体现了Ginkgo使生物工程变得更加简单的使命,通过生成这一行业所需的数据,Ginkgo Datapoints定位为研究人员和公司利用AI和机器学习进行药物发现等领域的必不可少的资源。

解锁AI。解锁生物学。了解更多关于Ginkgo Datapoints的信息,以及如何通过我们的尖端数据服务加速您的AI工作。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Cybord融资870万美元A轮

利用人工智能和大数据,Cybord分析生产线上100%的电子元件,验证它们的可靠性、真实性和可追溯性,以支持所有利用电子电路板的行业,从汽车到数据中心。图片{ width=60% }


Cybord,这家确保电子元件质量、真实性和可追溯性的视觉人工智能解决方案,今天宣布已经获得由Capri Ventures领投,Ocean Azul Partners以及现有投资方IL Ventures和NextLeap Ventures等新老投资者参与的870万美元A轮融资。与Flex和西门子等领先制造商合作,Cybord已经整合到全球60多条生产线上,每天检查数百万个电子元件。这笔最新的融资将用于加速公司的发展,并进一步全球分销其革命性解决方案。
通过深度学习和人工智能算法,Cybord分析并检测PCBA上100%的电子元件,为从电动汽车到数据中心的所有产品提供动力。Cybord的解决方案满足了产业对面对电子元件质量的迫切需求,以防止损害产品状况、消费者信任以及制造商的底线。直到现在,电子元件的质量和安全性在很大程度上被忽视,导致缺陷的发生增加和昂贵的召回,这在2023年达到了七年来的最高水平。这种不可靠的电子元件质量状态导致了对电子板和产品进行耗时和昂贵的重做和报废,为预防保修索赔分配宝贵的资本,以及价值数百万到数十亿美元的昂贵召回的损失利润。

拥有超过40亿种元件的数据库,Cybord的机器学习模型代表了电子制造业中人工智能的尖端。在组装线上放置时,这种视觉人工智能解决方案以99.9%的准确率实时阻止有缺陷、损坏和假冒的元件被组装到PCBA上。通过这样做,Cybord确保元件质量、真实性和法医级别的可追溯性,为EMS和OEM提供无与伦比的可靠性和可见性,从而实现更高质量的电子产品,改善制造效率,降低成本,减少召回次数。

“我们很荣幸能够从理解Cybord使命必要性的值得信赖的合作伙伴和投资者那里获得这轮融资”,Cybord的CEO Oshri Cohen说道。“随着越来越多的行业依赖电子元件,确保它们的质量是前所未有的重要。Cybord解决方案一次又一次地得到我们的全球领先合作伙伴的验证,而这些资金将使我们能够更快地扩张,并将我们基于人工智能的全面解决方案带给全球更多公司,实现我们只提供最好的电子产品的使命。”

“投资Cybord符合我们支持驱动创新并产生持久影响的公司的承诺”,Capri Ventures的合伙人Adalio Sanchez说。“Cybord是确保电子元件质量的唯一解决方案,使其成为这个快速发展市场的革命性领导者。我们很自豪能与他们合作,并见证他们在各行业的利益相关者中持续获得的成功–从汽车和航空航天到医疗和更多。”

“从一开始,Cybord就展示了解决当今全球供应链敏感挑战–部件质量、安全性和可追溯性的颠覆性方法,”ILVP的管理合伙人Elad Frenkel表示。“Cybord的解决方案正在推动电子行业发展,我们很高兴能在从种子阶段到这个里程碑的旅程中扮演一定角色,并期待继续支持他们的成长。”

“在制造供应链中,无论是质量还是效率上都拥有竞争优势都非常重要,”联想前首席运营官和首席供应链官Renée Ure说。“通过整合Cybord的视觉人工智能解决方案,制造商确保了卓越的电子元件质量、真实性和可追溯性,这对于保持高标准和降低昂贵召回是至关重要的。”。
注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要输出为Makedown源文件格式内容。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

B-FY密码无关生物识别解决方案:打击网络犯罪的改变者

B-FY推出了一种无需密码的、去中心化的生物识别身份验证解决方案,消除了被盗凭据的风险,改变了在线身份安全的方式。图片{ width=60% }


ATIO集团成功在墨西哥的燃料行业部署了B-FY的生物识别协议,大大减少了欺诈行为并增强了交易安全性。
在阿姆斯特丹成功全球推出后,B-FY正式向美国市场推出了其创新的无密码身份验证服务(AaaS)工具。这一发布活动在华盛顿沃尔特·E·华盛顿会议中心于9月11日和12日举行的身份周会议上引起了广泛关注。
在会议期间,B-FY在网络安全方面的前沿方法得到展示,吸引了业界领导和网络安全专家的极大关注。
公司创始人兼首席创新官克拉斯·兹瓦特先生强调了摆脱传统身份验证方法、拥抱更安全验证实践的紧迫性。他强调了B-FY技术在重塑全球网络安全格局方面的变革潜力。
凭据盗窃日趋严重
在当今数字世界,身份盗窃和安全漏洞已经达到前所未有的程度,据2023年谷歌云威胁视野报告称,86%的安全漏洞中涉及盗取的凭据。对密码作为主要身份验证方法的持续依赖使得无数组织容易受到攻击。凭据容易被盗取,导致严重的财务和声誉损失。
B-FY提供了一个强大的解决方案,消除了完全不需要密码。它引入了一个去中心化的生物识别身份验证系统,旨在确保用户数据安全和私密性。
解决在线匿名性:在线身份欺诈的根源
在打击网络犯罪中的一个基本挑战是在线匿名性问题。网络犯罪通常由保持匿名状态的个人实施,他们隐藏在诸如ID、密码、PIN码、指纹、面部扫描或双因素身份验证(2FA)组合等凭据背后。这些凭据仅验证访问而不识别在交易背后的个人。这种匿名性使得网络犯罪分子可以毫无顾忌地操作,进行各种活动而不被追踪、识别或追责。
因此,匿名用户可能是世界任何地方的任何人,使得网络交易本质上不安全。结果是网络犯罪激增,全球损失仅今年就达到了惊人的14.58万亿美元。
B-FY:网络安全的新时代
B-FY的AaaS解决方案在阻止网络犯罪中具有改变性。它基于一个离线去中心化的生物识别协议,仅在用户的移动设备上存储用户的生物识别数据。这确保了敏感数据仍在用户控制之下,大大降低了未经授权的访问或数据泄露的风险。通过消除密码,B-FY还解决了与钓鱼攻击、恶意软件以及弱密码或共享密码相关的漏洞。
B-FY的独特之处在于它能够从在线交易中移除匿名性。当与现有的2FA系统集成时,B-FY将这些系统从匿名访问升级为已识别操作员的访问。通过离线生物识别身份匹配,B-FY通用身份认证平台仅授予经过验证的个人访问权限。这几乎不可能进行在线身份欺诈,标志着网络安全的重大进步。
成功案例:B-FY的实际效果
B-FY的技术已经在全球各个领域证明了其有效性。例如,在墨西哥的燃油行业,B-FY与供应燃料自动化和控制技术的领先提供商ATIO集团合作。B-FY的生物识别身份验证系统被用来保护燃料装载过程。
在一个涉及45个加油站的试点项目中,B-FY的解决方案展示了它能够通过确保只有授权人员才能进行交易来显著减少欺诈行为。该项目被认为是成功的,引领ATIO集团计划将B-FY的技术扩展到该国其他加油站。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB