扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!

图片来源:由GPTNB生成

最近,YouTube和Reddit上出现了一个引起广泛讨论的图像生成模型,来自日本、韩国、美国、印度、中东和英国的网友们纷纷参与讨论。

Youtube热烈讨论

那么,这到底是怎么回事呢?让我们一起来看看吧。


近年来,大语言模型在自然语言处理领域取得了巨大的突破,以LLaMA和Qwen等为代表的模型展现了强大的语言理解和生成能力。

但是,图像生成技术的突破主要得益于扩散模型,如Stable Diffusion XL在图像质量、细节和概念一致性方面设立了事实标准。

然而,这些扩散模型与自回归语言模型的工作原理和架构显著不同,导致在视觉和语言任务上实现统一生成方法面临挑战。这种差异不仅使这些模态的整合变得复杂,还凸显了需要创新的方法来弥合它们之间的差距。

自回归文本到图像模型(如LlamaGen)通过预测下一个token生成图像,但由于生成的图像token数量庞大,自回归模型在效率和分辨率上也面临瓶颈,难以应用到实际场景。于是,一些Masked Image Modeling(MIM)技术,例如MaskGIT和MUSE被提出。这些方法展现了高效图像生成的潜力。

尽管MIM方法具有一定的前景,它们仍面临两个关键限制:

  1. 分辨率限制
    当前的MIM方法只能生成最大分辨率为512×512像素的图像。这一限制阻碍了它们的广泛应用和进一步发展,尤其是在文本生成图像的社区中,1024×1024分辨率逐渐成为标准。

  2. 性能差距
    现有的MIM技术尚未达到领先扩散模型如SDXL所表现的性能水平,特别是在图像质量、复杂细节和概念表达等关键领域表现不佳,而这些对实际应用至关重要。

这些挑战需要探索新的创新方法,Meissonic的目标是使MIM能够高效生成高分辨率图像(如1024×1024),同时缩小与顶级扩散模型的差距,并确保其计算效率适合消费级硬件。

Meissonic模型

论文链接: https://arxiv.org/abs/2410.08261
GitHub Code: https://github.com/viiika/Meissonic
Huggingface Model: https://huggingface.co/MeissonFlow/Meissonic

通过架构创新、先进的位置编码策略和优化的采样方法,Meissonic不仅在生成质量和效率上与领先的扩散模型(如SDXL)相媲美,甚至在某些场景中超越了它们。

此外,Meissonic利用高质量的数据集,并通过基于人类偏好评分的微观条件进行训练,同时引入特征压缩层,显著提升了图像的保真度与分辨率。

以下是Meissonic在方法上的几项重要技术改进:

  1. 增强型Transformer架构
    Meissonic结合了多模态与单模态的Transformer层,旨在捕捉语言与视觉之间的互动信息。从未池化的文本表示中提取有用信号,构建两者之间的桥梁;单模态Transformer层则进一步细化视觉表示,提升生成图像的质量与稳定性。研究表明,这种结构按1:2比例能够实现最佳性能。

  2. 先进的位置编码与动态采样条件
    为保持高分辨率图像中的细节,Meissonic引入了旋转位置编码(RoPE),为queries和keys编码位置信息。RoPE有效解决了随着token数量增加,传统位置编码方法导致的上下文关联丢失问题,尤其在生成512×512及更高分辨率图像时。

    此外,Meissonic通过引入掩码…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

LoRA、完全微调到底有何不同?MIT 21页论文讲明白了

本文旨在了解两种微调大型语言模型方法之间的差异:完全微调和低秩自适应 (LoRA)。这两种方法都用于将预训练模型适应特定的下游任务,但它们却有所不同。


微调(Fine-tuning)是将经过预训练的大语言模型应用于下游任务的关键范例。最近,低秩自适应 (LoRA) 等方法已被证明可以在各种任务上达到完全微调模型的性能,同时可训练参数的数量却大大减少。

这就提出一个问题,即它们学到的解决方案真的等效吗?

带着这一疑问,来自 MIT 的研究者在论文《 LORA VS FULL FINE-TUNING: AN ILLUSION OF EQUIVALENCE 》中进行了深入探讨。

论文地址:https://arxiv.org/pdf/2410.21228v1

作者通过分析预训练模型权重矩阵的光谱特性来研究不同的微调方法如何改变模型。

研究发现,完全微调与 LoRA 产生的权重矩阵奇异值分解结构有显著不同,并且经过微调后的模型在面对超出适应任务分布的测试时也显示出不同的泛化行为。

特别是,LoRA 训练的权重矩阵中出现了称为「侵入维度(intruder dimensions)」的新的高秩奇异向量,而在完全微调中则不会出现这种情况。

这些结果表明,即使在微调分布上表现相同,但使用 LoRA 和完全微调更新的模型访问参数空间的不同部分。

作者通过研究 LoRA 微调模型中出现侵入维度的原因、它们为什么不受欢迎,以及如何最小化这些效果来展开研究。

最后,作者给出了以下几点观察:

首先,LoRA 和完全微调在结构上产生不同的参数更新,这种差异由侵入维度的存在产生的。这些侵入维度是奇异向量,具有较大的奇异值,并且与预训练权重矩阵中的奇异向量近似正交。相比之下,完全微调模型在光谱上与预训练模型保持相似,不包含侵入维度。

其次, 从行为上看,与完全微调相比,具有侵入维度的 LoRA 微调模型会忘记更多的预训练分布,并且表现出较差的稳健连续学习能力:具有侵入维度的 LoRA 微调模型在适应任务分布之外不如完全微调模型,尽管分布准确度相当。

最后, 即使在目标任务上低秩 LoRA 表现良好,但更高秩的参数化可能仍然是可取的。低秩 LoRA(r ≤ 8)适合下游任务分布,完全微调和高秩 LoRA(r = 64)让模型泛化能力更强、自适应能力更加鲁棒。然而,为了利用更高的秩,LoRA 更新模型必须是秩稳定的。

沃顿商学院副教授 Ethan Mollick 对此评论道:事实证明,使用 LoRA 定制通用 LLM(Apple 调优其设备内置模型的方式),对 LLM 的限制远大于微调,因为它们失去了一些泛化能力。原因是 LoRA 增加了不祥的侵入维度。


LORA 和完全微调模型的差异

本文采用神经网络参数的奇异值分解 SVD 来理解微调对预训练权值的变化。

特别是,本文测量了用 LoRA 微调过的权重矩阵中的奇异向量或完全微调过的权重矩阵中奇异向量映射到预训练权重中的奇异向量的程度,使用它们的余弦相似性。这些关系如图所示,颜色表示预训练和微调奇异向量之间的余弦相似度。

图中观察到,LoRA 和完全微调的奇异向量与预训练奇异向量的相似度非常不同:与完全微调相比,使用 LoRA 微调的模型的奇异向量与预训练奇异向量的平均余弦相似度似乎要低得多。

左下角有一个唯一的红点,作者将这些新维度命名为侵入维度,其正式定义如下:

LoRA 微调模型包含高秩侵入维度,而完全微调的模型则不包含。为了量化特定权重矩阵的侵入维度集的大小,作者使用图所示的算法。

即使在 LoRA 微调模型学习效果不如完全微调的任务中,侵入维度也存在。

观察图,我们可以清楚地看到,即使 LoRA 的 r=256,高秩奇异向量集中仍出现侵入维度。重要的是,当 r=2048 时没有侵入维度,而是展示了与完全微调非常相似的曲线。这支持了早先的发现:随着秩增加超过一个阈值,侵入维度会消失,LoRA 开始趋向于与完全微调相似。

图表示即使使用满秩矩阵执行 LoRA,完全微调更新也比 LoRA 更新具有更高的有效秩。可以观察到完全微调解决方案的有效秩明显高于通过 LoRA 学习到的解决方案的有效秩,即使 LoRA 具有更高的秩。


LORA 和完全微调之间的行为差异

在较低秩,LoRA 在持续学习过程中的适应能力较差,会忘记更多之前的任务。该研究在多个任务上按顺序训练 RoBERTa,并测量学习新任务时性能的变化程度。

该研究使用与之前相同的训练方案、数据集,但在持续学习环境中使用以下数据集(按顺序)进行微调:MNLI、QQP、SST-2、SIQA、Winogrande、FEVER。在序列中某个数据集上进行训练后,将 LoRA 权重合并到模型中,并在下一个任务训练之前重新初始化,以便不受之前任务的影响。

在对特定任务进行训练后,该研究对所有任务进行测试,对于每个任务,在测试测试集之前分别重新训练分类头。这能够检查模型在这些任务上表现如何,而无需实际更改模型本身。

结果如图所示。虽然 LoRA 最初与完全微调的性能相当,但较小的 LoRA 秩在持续学习过程中始终表现出更大的性能下降。特别是,对于前三个训练数据集,当 r = 1 时 LoRA 的性能下降到预训练基线以下。随着 LoRA 秩的提高,我们可以看到这种遗忘行为减少,并且更接近于完全微调,甚至在完成持续学习后在 MNLI 上的遗忘也更少。

整体情况是微妙的:虽然在某些情况下,LoRA 似乎忘记得较少,但对于某些任务(以及某些秩)事实上,LoRA 可能会忘记更多。

对于微调到等效测试精度的 LoRA 模型,可以看到一条 U 形曲线,该曲线标识了适合下游任务的最佳等级,同时最小程度的忘记了预训练分布。

图报告了测量的伪损失分数。可以看到完全微调和 r = 768 时的 LoRA 之间呈现 U 形趋势。

相对于完全微调,低秩(r = 1)和高秩(r = 768)都会导致预训练分布的遗忘更大,而对于 r = 64,遗忘较少。也就是说:当 r = 1 时,使用 LoRA 微调的模型受到侵入维度的影响,并且似乎比没有侵入维度的 r = 64 有更多的遗忘。然而,当 r = 768 时,使用 LoRA 微调的模型也表现出更糟糕的遗忘,这表明由于过度参数化,它们对适应任务过度拟合。当 r = 8 和 r = 64 时,遗忘量少于完全微调。

了解更多内容,请参考原论文。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

真·打字P图!字节发布新模型SeedEdit,一句话爆改世界名画,可免费体验

真·打字P图!字节发布新模型SeedEdit,一句话爆改世界名画,可免费体验

字节豆包大模型又又又上新了!11 月 11 日,字节跳动豆包大模型团队推出了最新图像编辑模型 SeedEdit,主打一句话轻松 P 图。

它是国内首个产品化的通用图像编辑模型,无需描边涂抹,仅使用简单的自然语言,就能换背景、转风格,或者在指定区域进行元素的增删和替换。


比如,输入 Prompt「把老婆饼换成驴打滚」,SeedEdit 立马锁定修改目标,完成美食替换:
图片
(Prompt:把老婆饼换成驴打滚)

要知道,「老婆饼」、「驴打滚」等中国美食曾「骗」倒一众大模型,但 SeedEdit 能精准理解复杂指令,不仅看得懂中英文提示词,还对成语和专有名词「门儿清」。

再比如,在不「误伤」原图细节的情况下,把草莓换成柠檬:
图片
(Prompt:把草莓换成柠檬)

甚至可以让油画里戴珍珠耳环的少女张大嘴巴啃汉堡:
图片
(Prompt:戴珍珠耳环的少女吃汉堡)

在处理玻璃裂纹、发丝等精细涂抹区域时,SeedEdit 同样能够保持原图的完整性:
图片
(Prompt:移除玻璃裂纹,干净画面)

此外,作为一款通用图像编辑模型,它不仅具备单次编辑的能力,还支持多轮操作,能够让用户对同一图像进行连续的创意编辑。

比如,让一个二次元女孩换上骑士装、戴上牛仔帽、改变动作、增加背景,最后「Pia」一下变身酷飒火枪手:
图片

SeedEdit 的图片编辑效果可谓炸裂,让人不禁要问:生成式 AI 的修图技术是否真的已经能做到「毫无 PS 痕迹」了?

我们索性搞个实测,看看字节这款 AI 神器实力到底如何。


任意指令,精准编辑:一句话爆改世界名画

今年以来,Dall・E 3、Midjourney 等 AI 绘图平台响应群众呼声,陆续上线了生图编辑功能。

不得不说,相较业界之前方案,编辑生图的质量和美感的确大大改善,但体验上仍有提升空间,一是指定区域编辑需要手动涂抹,二是对编辑指令的响应经常不够精准。

而这次字节卯足劲推出的 SeedEdit,首先在通用性上做到了极致,不用涂抹编辑区域,只需给出一句简洁的 prompt,就能实现任意指令的编辑,适用各类编辑任务,支持用户脑洞大开的奇思妙想。

其产品侧玩法也很简单。在即梦「图片生成」中,上传参考图,选择「智能参考」,然后根据需要输入 Prompt 即可。接下来就是实测最关键的编辑精准度。
图片

我们先来恶搞一波世界名画。

让蒙娜丽莎抱只猫,再换个表情。
图片
(Prompt:蒙娜丽莎张开嘴大笑,手里抱着一只猫。)

原作中蒙娜丽莎

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

当今最复杂的椭圆曲线找到了!29个独立有理点打破18年记录

对现代密码学稍有了解的人都必定听过椭圆曲线的赫赫威名,但椭圆曲线本身依然还存在很多悬而未决的问题。今天,量子杂志作者 Joseph Howlett 介绍了这方面的一项打破 18 年记录的新突破:找到了一条迄今为止有理点模式最复杂的椭圆曲线。


今年 8 月,两位数学家发现了一条打破记录的怪异曲线。在此过程中,他们触及了一个仍待解决的重大难题 —— 其涉及到数学领域一类最古老、最基础的方程。

椭圆曲线至少可以追溯到古希腊,是许多研究领域的核心。它们具有丰富的底层结构,数学家们用它开发了许多强大的技术和理论。在 1994 年 Andrew Wiles 著名的费马大定理(是当时数论领域最重要的未解问题之一)证明中,椭圆曲线就发挥了重要作用。椭圆曲线对现代密码学也至关重要。

即便如此,对于椭圆曲线的某些最基本的问题,数学家们仍在寻找答案。举个例子,他们常通过研究椭圆曲线上的特殊「有理点(rational point)」来描述其特征。在一条给定的曲线上,这些点会形成清晰且有意义的模式。但我们目前尚不清楚这些模式的多样性和复杂程度是否有极限。

通过解答这个问题,可让数学家们理解数量巨大且种类繁多的椭圆曲线世界 —— 这个世界中的许多曲线都仍未得到探索。因此,数学家们开始探索这个世界的外围,寻找模式越来越奇怪的异常曲线。这个过程很艰辛,并且既需要创造力,也需要复杂的计算机程序。

现在,哈佛大学的 Noam Elkies 和加利福尼亚州拉霍亚通信研究中心的 Zev Klagsbrun 这两位数学家发现了一条至今为止有理点模式最复杂的椭圆曲线,打破了 18 年前的记录。

「这个阻碍能否打破是一个重大问题。」克罗地亚萨格勒布大学的 Andrej Dujella 说,「对于我们所有研究和关注椭圆曲线的人来说,这是一个非常令人兴奋的结果。」

原文链接:
https://www.quantamagazine.org/new-elliptic-curve-breaks-18-year-old-record-20241111/
https://listserv.nodak.edu/cgi-bin/wa.exe?A2=NMBRTHRY;b9d018b1.2409&FT=&P=&H=&S=b



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

ByteDance Research登Nature子刊:AI+冷冻电镜,揭示蛋白质动态

2024 年的诺贝尔化学奖颁发给了在结构生物学领域取得重大成就的 David Baker 团队和 AlphaFold 团队,激发了 AI for science 领域新的研究热潮。

近两年科学界一个饱受争议的命题是:“AlphaFold 是否终结了结构生物学?” 首先,AlphaFold 之类的结构预测模型的训练数据正是来自于以 X 射线、冷冻电镜(cryo-EM)等为代表的传统结构解析方法。


其次,冷冻电镜技术非常擅长解析蛋白质的动态,而这正是 AlphaFold 所无法做到的。巧合的是,冷冻电镜这项技术于 2017 年也获得了诺贝尔化学奖。

那么,以 AlphaFold 为代表的 AI 技术能否辅助以 cryo-EM 为代表的传统方法?两个诺奖级技术的碰撞,能够擦出什么样的火花?

ByteDance Research 提出 AI for Science 模型被 Nature 子刊收录

近日,来自字节跳动 ByteDance Research 团队的研究人员提出了 CryoSTAR 方法,成功将来自原子模型的结构先验应用到冷冻电镜实验数据的动态解析中,为解决这一问题带来了新的思路和方法。该成果相关论文 “CryoSTAR: Leveraging Structural Prior and Constraints for Cryo-EM Heterogeneous Reconstruction” 已刊发于 Nature 旗下刊物 Nature Methods,李宜来、周奕、袁璟为共同一作,顾全全教授为通讯作者。

图片

图片

基于结构先验和约束的动态解析

图片

CryoSTAR 是首个成功在冷冻电镜实验数据上应用蛋白质原子结构模态先验的方法,方法的主要特点有:

  1. 结合蛋白质结构先验知识:CryoSTAR 方法创新性地利用原子模型信息作为结构正则化来解决冷冻电镜数据中的构象动态问题,这与以往大多数仅从计算机视觉角度处理问题的方法不同。它要求一个初始原子模型作为参考,将其结构信息用于适当地约束模型解析出的构象动态,从而缩小搜索空间,避免错误的解析结果,实现更好更快的收敛。

  2. 输出两种模态的解析结果:该方法独特之处在于它能同时输出粗粒度的原子模型和密度图解析结果,这种多维度的结果输出有助于研究人员更全面地了解生物分子的结构和动态过程。同时,密度图的输出结果也可以验证原子模型结果的置信程度,检验粗粒度原子模型的动态是否能够充分被数据所支持。

该方法分为两个阶段:

  1. 第一阶段通过结构正则化约束的变分自动编码器(VAE)解析数据中的动态构象。CryoSTAR 通过 Encoder,将构象的动态压缩到一个潜在变量中;Decoder 将潜在变量解析成相应的先验粗粒度原子模型的变形来拟合数据。它在三个基本假设下进行基于结构正则化:一是同一链上的两个相邻残基应始终保持连接,通过连续损失函数来约束;二是预测变形后残基不应过于靠近,通过冲突损失函数来惩罚碰撞;三是局部结构应尽可能刚性,通过从先验原子结构模型构建弹性网络并使用弹性网络损失函数来鼓励这种刚性,同时还采用自适应松弛方法来选择弹性网络中的边进行正则化,以避免参考原子模型带来的过度偏差。

  2. 第二阶段通过训练一个密度图解码器来得到密度图模态的动态构象解析结果。在 VAE 训练完成后,提取所有图像对应的潜在变量并用于训练密度图解码器。密度图的细节优化由输入图像约束,不受结构先验和正则化的直接影响,从而最小化结构先验对输出密度图的 bias,使得生成的密度图可用于评估和验证粗粒度原子结构模型。

多种典型蛋白数据上的实验验证

图片

图 3 EMPIAR-10180 结果

图片

图 4 EMPIAR-10073 结果

大型复合物(残基数量约 10,000)

CryoSTAR 在多个公开数据集(EMPIAR)的冷冻电镜实验数据上得到了验证。对于酵母预催化 B 复合物剪接体(EMPIAR-10180),使用 PDB: 5NRL 作为先验结构,cryoSTAR 成功揭示了 SF3b 和解旋酶区域的构象变化,其结果与其他方法一致,并且生成的粗粒度模型在电子密度图中得到了充分验证,展现出合理的运动模式。对于 U4/U6.U5 三核糖核蛋白(EMPIAR-10073),以 PDB: 5GAN 为参考结构,cryoSTAR 同样解析了头部结构域的动态变化,结果与现有方法的发现一致。

图片

图 5 EMPIAR-10059 结果

膜蛋白(氨基酸数量约 2,000)

图片

图 7 CryoSTAR 与 CryoDRGN 在 EMPIAR-10059 上的结果对比

对于 TRPV1 通道蛋白(EMPIAR-10059),使用 PDB: 7RQW 作为参考先验原子模型,cryoSTAR 发现了蛋白外周可溶结构域的微妙而平滑的运动,每个亚基的运动可通过不同主成分可视化。研究还表明结构正则化在揭示膜蛋白动力学方面具有关键作用,相比之下,没有结构先验的方法如 cryoDRGN 在膜蛋白的动态解析方面存在不足。

单链蛋白(氨基酸数量约 1,000)

图片

图 8 CryoSTAR 与 CryoDRGN、3DFlex 在 EMPIAR-10059 上的结果对比

对于 毒素蛋白 α-LCT(EMPIAR-10827),cryoSTAR 揭示了两种类型的运动,与离散 3D 分类发现的两种构象相吻合,且生成的粗粒度原子模型合理,与密度图拟合良好。结构正则化在这个具有连续异质性的小蛋白中效果显著,相比其他方法如 cryoDRGN 和 3DFlex,cryoSTAR 生成的密度图更连续,能有效避免密度图中的伪影。

总结:利用跨模态数据解析自然现象

字节跳动 ByteDance Research 提出的新的结合结构先验的方法 (CryoSTAR) 显著提升了冷冻电镜(Cryo-EM)在动态构象解析中的应用潜力。通过利用原子结构模态先验作为约束,同时输出两种模态的解析结果,这一创新方法在技术上展示了其独特的优势,并为科学研究打开了新的大门。

该研究在冷冻电镜动态解析领域的重要意义不可忽视。传统的冷冻电镜方法由于其分辨率和解析能力的限制,常常难以捕捉到生物大分子复杂的动态变化。而此次引入结构先验的策略,极大地增强了动态构象解析的精度与可靠性,使我们能够更深入地理解生物大分子的动态行为及其机制。

这种方法的潜在价值在生命科学和制药领域尤为突出。生物大分子的动态解析是理解其功能机制的关键,如蛋白质的折叠、酶活性部位的变化、受体 - 配体的结合模式等。这些动态过程与众多生理与病理现象息息相关,例如细胞信号传导、代谢调控以及疾病发生机制等。因此,准确解析这些动态过程不仅能帮助揭示生物学基本问题,还能为发现新型药物靶点和优化药物设计提供重要依据。在制药领域,这一方法同样具有广泛的应用前景。通过更高精度地捕捉蛋白质和其他生物大分子的动态变化,研究人员可以更有效地筛选潜在药物、设计更具针对性的药物分子,进而提高药物研发的效率和成功率。例如,这一方法可以帮助解析癌症、神经退行性疾病等重大疾病相关蛋白质的动态构象变化,为开发新药物提供详细的分子级信息。

总而言之,ByteDance Research 的这一创新研究不仅代表了冷冻电镜动态解析技术的最新进展,更为生命科学和制药领域带来了巨大的潜在价值。期待未来该方法能在更多研究和实际应用中得到验证和推广,为生命科学研究以及药物研发带来新的突破和希望。


ByteDance Research AI 制药团队持续在 AI for Science 方向发力

ByteDance Research AI 制药团队致力于将人工智能技术应用于科学研究与药物开发。团队在生成式蛋白质设计、蛋白质构象预测以及冷冻电镜解析等领域取得了业界瞩目的成果。

  • 蛋白质设计:团队研发了基于大规模蛋白质语言模型的序列设计方法 LM-Design,大幅提高了蛋白质序列设计的准确度与效率;研发了结合扩散模型与语言模型的新一代蛋白质基础模型 DPLM 1/2,首次全面统一了蛋白质建模、理解与生成;研发了基于偏好优化的抗体设计方法 AbDPO,能够设计出同时满足多种性质和能量要求的抗体。

  • 蛋白质动态构象预测:团队研发了 ConfDiff 等模型,准确预测了蛋白质的


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路

昨天,The Information 的一篇文章让 AI 社区炸了锅。

这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升,因为高质量文本和其他数据的供应量正在减少,原本的 Scaling Law(用更多的数据训练更大的模型)可能无以为继。


此外,OpenAI 研究者 Noam Brown 指出,更先进的模型可能在经济上也不具有可行性,因为花费数千亿甚至数万亿美元训练出的模型会很难盈利。

这篇文章引发了业界对于未来 AI 迭代方向的讨论 —— 虽然 Scaling Law 放缓这一说法令人担忧,但其中也不乏乐观的声音。有人认为,虽然从预训练来看,Scaling Law 可能会放缓;但有关推理的 Scaling Law 还未被充分挖掘,OpenA…

其实,除了测试时计算,还有另外一个近来非常受关注的概念 —— 测试时训练( Test-Time Training ,TTT),二者都试图在测试(推理)阶段通过不同的手段来提升模型的性能,但 TTT 会根据测试时输入,通过显式的梯度步骤更新模型。这种方法不同于标准的微调,因为它是在一个数据量极低的环境中运行的 —— 通常是通过单个输入的无监督目标,或应用于一个或两个 in-context 标注示例的有监督目标。

不过,TTT 方法的设计空间很大。目前,对于哪些设计选择对 LM(特别是对新任务学习)最有效,人们的了解还很有限。

在一篇新论文中,来自 MIT 的研究者系统地研究了各种 TTT 设计选择的影响,以及它与预训练和采样方案之间的相互作用。看起来,TTT 的效果非常好,至少从论文标题上看,它的抽象推理能力惊人(surprising)。

具体来说,作者确定了将 TTT 有效应用于 few-shot 学习的几个关键要素:

  • 在与测试时类似的合成任务上进行初始微调;
  • 用于构建测试时数据集的增强型 leave-1-out 任务生成策略;
  • 训练适用于每个实例的适应器;
  • 可逆变换下的自我一致性(self-consistency)方法。

实验环节,研究者在抽象与推理语料库(ARC)中对这些方法进行了评估。ARC 语料库收集了很多极具挑战性的 few-shot 视觉推理问题,被认为是测试 LM 泛化极限的理想基准。目前的大多语言模型在 ARC 上均表现不佳。

通过对这些部分…

更多研究细节,可参考原论文。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Iceotope宣布推出KUL AI

KUL AI的创新描述KUL AI为所有AI应用程序解锁最大性能,具有先进的高热效率,可持续GPU性能。图片{ width=60% }


将服务器能源使用减少多达40%,KUL AI提供可持续性优势,同时最小化运营成本,提供可靠的高性能计算。作为Iceotope的最新创新,KUL AI使数据中心性能得以实现,即使在非专门构建的IT位置,也能实现AI的应用,从分布式边缘到专用集中设施。

Iceotope,全球领先的精密液冷(PLC)技术供应商,今天宣布推出KUL AI,这是一项新解决方案,旨在实现AI无处不在的目标,并在需要增强热管理和最大服务器性能至关重要的地方提供显著的运营优势。

KUL AI具有基于8-GPU Gigabyte™ G293数据中心服务器解决方案,集成Iceotope的精密液冷技术,由Intel® Xeon Scalable处理器提供动力支持 - 这是Iceotope迄今为止最强大的服务器集成产品。8-GPU G293旨在支持密集型GPU计算,获得了NVIDIA认证解决方案认可,并通过介质流体进行液冷设计优化。KUL AI通过保持最佳温度、保护关键IT组件并最大程度减少故障率,甚至在大规模GPU运行期间也能确保连续可靠的计算性能。

KUL AI实现AI无处不在
新技术(包括人工智能(AI)、高性能计算和机器学习)产生的大量数据和电力消耗的激增,给数据中心带来了巨大挑战。为实现最大服务器性能且避免性能限制,Iceotope的KUL AI采用先进的精密冷却解决方案,可加快处理速度、提供更准确的结果,使GPU在执行高要求工作负载期间能够持续运行。KUL AI具有高度可扩展性,并已被证明能够实现高达4倍的压缩,处理不断增长的数据和模型复杂性而无需牺牲性能。

KUL AI的创新规格使其成为一系列行业的理想解决方案,其中人工智能变得日益重要:从人工智能研究和开发中心、高性能计算(HPC)实验室和云服务供应商(CSPs),到媒体制作和视觉效果(VFX)制作工作室和金融服务与量化交易公司。

KUL AI提供性能和可持续性优势
KUL AI与Iceotope解决方案系列KUL完美契合,采用Iceotope市场领先的精密液冷技术,具备多项优势,从在所有产生热量的服务器组件之间提供均匀冷却,到减少热点和改善整体效率。此外,PLC消除了对额外空气冷却的需求,从而导致部署更为简单,整体能耗更低。

提高成本效益和运营效率一直是Iceotope的不断追求。事实上,KUL AI的先进热管理最大化了服务器利用率,提高了计算密度,降低了能源成本,并延长了硬件的使用寿命,降低了总拥有成本(TCO)。此外,KUL AI的能源使用减少多达40%,水消耗减少96%,最小化了运营成本,同时保持高热效率,并实现了可持续性目标。

KUL AI在各种IT和非IT环境中提供数据中心性能
考虑到可扩展性和适应性,KUL AI可部署在数据中心以及各种边缘IT安装中。精密液冷将噪声较大的服务器风扇排除在冷却过程之外,导致运行近乎无噪声,并使KUL AI成为适用于繁忙的非IT和人口密集型工作空间的理想解决方案,尽管这些空间仍需持续GPU性能。

对于延迟敏感的边缘部署和极端条件环境,KUL AI在服务器级别上进行密封和保护,不仅确保GPU主板上的所有组件均匀冷却,还能使其不受空气污染物和湿度的影响,从而提高可靠性。至关重要的是,PLC最小化了泄漏和系统损坏的风险,使其成为任何关键环境的安全选择。

Iceotope的联席首席执行官Nathan Blom表示:“新技术产生的数据量前所未有,要求一种符合现代技术要求的解决方案,不仅能保证服务器性能,还能在所有效率和可持续性的方面达到预期。KUL AI是一款开创性产品,提供更多的计算能力和机架空间。它为数据中心提供了可扩展的系统,并可以适用于非IT环境,实现了AI无处不在的目标。”

这一激动人心的推出将首次在2024年11月17日至22日于亚特兰大举办的超级计算大会上展示。Iceotope团队将在nVent展位1738欢迎感兴趣的各方参观。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

FTX向币安及其前CEO索赔18亿美元

FTX破产的加密货币公司正在起诉币安及其前CEO赵长鹏,称其管理层向币安及其高管“欺诈转账”了18亿美元。


此诉讼涉及币安出售其2019年收购但后来谈判将其股份卖回给FTX的Sam Bankman-Fried的股份。

据诉讼称,FTX的Alameda Research部门直接使用当时市场价值为17.6亿美元的代币资助了股份回购。诉讼声称,Alameda在购买股份时已经资不抵债,因此无法承担交易成本,也不应该允许交易进行。

“通过此诉讼,原告寻求至少17.6亿美元的赔偿,这是以FTX债权人的利益,以及将在审判中确定的赔偿和惩罚性损害为目的,该金额是以FTX债权人的费用,欺诈地转移到了币安及其高管。”FTX遗产的管理者在周日提交的一份文件中表示。

币安发言人表示:“这些主张毫无根据,我们将积极为自己辩护。”赵长鹏(CZ)暂时无法就此置评。

这项诉讼是币安与FTX之间的最新战斗,FTX曾是世界上最大的加密货币公司之一,直到2022年底破产。FTX创始人班克曼-弗里德因从客户那里窃取了80亿美元而于今年三月被判处25年监禁。他已对这一判决提出上诉。

在Binance的主导下,主要竞争对手赵长鹏,于2022年11月在FTX陷入困境时成为其救星,并打算收购FTX的非美国业务部门,但后来币安撤回了出价。赵长鹏因认罪违反美国反洗钱法而于今年早些时候被判处四个月监禁,这是世界上最大的加密货币交易所。

探究更多相关主题
加密货币
FTX
币安
Sam Bankman-Fried
新闻

共享此内容



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Mouser Electronics探讨工业5.0的人本革命

探索可持续和有弹性的工业未来机遇
Mouser Electronics, Inc.,作为全球授权经销商,致力于提供最新的电子元器件和工业自动化解决方案而闻名,今天揭开了其Empowering Innovation Together (EIT) 技术系列的最新篇章,着眼于正在崛起的工业5.0景观。图片{ width=60% }


在未来工厂车间中,人类、环境和社会考虑因素将影响先进技术、机器人技术和智能机器的发展。

在工业4.0技术进步的基础上——人工智能(AI)、数据分析和机器学习彻底改变了物理和数字领域之间的互动——工业5.0将焦点转向人类与技术之间更加和谐平衡的方向。它强调社会价值、弹性和可持续性作为核心支柱。这一EIT系列探讨了从工业4.0向工业5.0的过渡以及等待着的技术进步。

在The Tech Between Us播客中,特邀主持人Mark Patrick, Mouser EMEA技术内容总监,和ISA丹麦项目主席Leonardo Dentone,探讨推动工业5.0采用的关键因素,包括先进的机器人技术、以人工智能驱动的系统以及连接人与机器协作的网络框架。在随后的In Between the Tech播客中,先进制造(ARM)研究所首席工程师Larry Sweet,解决了工程师在实施以人类为中心的工业模型时面临的实际挑战以及克服这些挑战的途径。

Patrick表示:“工业5.0代表的不仅仅是技术进步的下一个阶段;它是朝着将社会进步与工业创新相整合的有意识转变。”他表示:“它要求工程师重新思考技术在创建具有弹性和以人为中心的工业环境中的作用,创新既服务于生产效率也服务于社会的福祉。”

该系列为工程专业人员提供了全面的资源,包括技术文章和用例、播客、信息图表、视频和订阅者专属内容。成立于2015年,Mouser的Empowering Innovation Together计划是业界最为认可的电子元器件计划之一。要了解更多信息,请访问https://www.mouser.com/empowering-innovation/industry5/ 并关注Mouser的Facebook、LinkedIn、X和YouTube。

有关更多Mouser新闻和最新产品介绍,请访问https://www.mouser.com/newsroom/。
作为全球授权分销商,Mouser提供世界上最广泛的最新半导体和电子元器件选择 — 现货供应、可立即发货。Mouser的客户可以期望收到100%经过认证的正品产品,每一款产品均可追溯到其制造商合作伙伴。为帮助加速客户的设计,Mouser的网站提供了大量的技术资源,包括Technical Resource Center,以及产品数据表、供应商特定参考设计、应用指南、技术设计信息、工程工具和其他有用信息。

工程师可以通过Mouser的免费电子通讯订阅及新闻订阅了解今天的令人兴奋的产品、技术和应用新闻。Mouser的电子邮件新闻和参考订阅服务可根据客户和订阅者不断变化的项目需求进行定制。没有其他分销商能像Mouser一样让工程师对其接收的信息实现如此高度的定制和控制。立即注册https://sub.info.mouser.com/subscriber/ 了解新兴技术、产品趋势等内容。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

iStorage集团加入CAST,扩大全球影响力

iStorage Holdings,一家领先的硬件加密数据存储和云安全解决方案的创新者,自豪地宣布与CAST合作,CAST的使命是将志同道合的企业相聚在数据保护、存储、服务器和可靠通信领域。图片{ width=60% }


通过这一合作,总部位于英国伦敦的iStorage Holdings旗下包括Kanguru Solutions,总部位于美国波士顿的iStorage Ltd,将加入CAST。CAST由瑞典投资公司Systematic Growth于2024年创立,旨在向不断增长的信息安全市场全球范围内提供一系列先进的信息安全产品和服务。
拥有将近50年的合作历史,iStorage和Kanguru设计、开发和制造了全球一些最具创新性的数据存储解决方案,被政府、军方、医疗、能源和金融等行业信任。与CAST联手标志着iStorage和Kanguru共同致力于在全球范围内提供尖端、用户友好的硬件加密数据存储解决方案的重要里程碑。
iStorage的创始人兼CEO John Michael表示:“作为CAST的一部分,我们现在将处于更高的发展阶段。这一合作将为我们提供广泛资源、扩展技术能力和更广泛的市场覆盖。这些综合优势将加速创新,增强我们的产品产品,扩大地理覆盖范围,更好地为我们的客户和合作伙伴服务。”
Kanguru的美洲地区总经理兼首席增长官Nate Cote表示:“CAST团队通过这一投资对我们表现出的信心,验证了合并集团作为全球安全存储领域领导者的过去、现在和未来愿景。我们很高兴能够在未来几年继续赢得全球客户和合作伙伴的信任。”
CAST的CEO Jakob Holm表示:“这一收购标志着我们在CAST平台的第一步,这是向建立一个广阔、全球未来的坚实基础迈出的开端。它强调了我们在全球信息安全领域开拓创新和获得认证领导地位的承诺。我们正在为一个新的增长和行业领导力时代做准备。”
这一宣布跟随了iStorage最近收购Kanguru Solutions的举措,Kanguru Solutions是一家总部位于美国的高安全性数据存储驱动器领导者。这一战略举措大大扩展了该集团安全、用户友好产品组合,并大幅扩大了以客户为中心的渠道合作伙伴网络,从而建立了一个全球安全数据的强大力量。
随着网络威胁变得日益复杂,iStorage、Kanguru和CAST的合并能力将继续为全球敏感数据提供强大的保护。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB