扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!

最近,YouTube和Reddit上出现了一个引起广泛讨论的图像生成模型,来自日本、韩国、美国、印度、中东和英国的网友们纷纷参与讨论。

图片来源:由GPTNB生成

Youtube热烈讨论

那么,这到底是怎么回事呢?让我们一起来看看吧。


近年来,大语言模型在自然语言处理领域取得了巨大的突破,以LLaMA和Qwen等为代表的模型展现了强大的语言理解和生成能力。

但是,图像生成技术的突破主要得益于扩散模型,如Stable Diffusion XL在图像质量、细节和概念一致性方面设立了事实标准。

然而,这些扩散模型与自回归语言模型的工作原理和架构显著不同,导致在视觉和语言任务上实现统一生成方法面临挑战。这种差异不仅使这些模态的整合变得复杂,还凸显了需要创新的方法来弥合它们之间的差距。

自回归文本到图像模型(如LlamaGen)通过预测下一个token生成图像,但由于生成的图像token数量庞大,自回归模型在效率和分辨率上也面临瓶颈,难以应用到实际场景。于是,一些Masked Image Modeling(MIM)技术,例如MaskGIT和MUSE被提出。这些方法展现了高效图像生成的潜力。

尽管MIM方法具有一定的前景,它们仍面临两个关键限制:

  1. 分辨率限制
    当前的MIM方法只能生成最大分辨率为512×512像素的图像。这一限制阻碍了它们的广泛应用和进一步发展,尤其是在文本生成图像的社区中,1024×1024分辨率逐渐成为标准。

  2. 性能差距
    现有的MIM技术尚未达到领先扩散模型如SDXL所表现的性能水平,特别是在图像质量、复杂细节和概念表达等关键领域表现不佳,而这些对实际应用至关重要。

这些挑战需要探索新的创新方法,Meissonic的目标是使MIM能够高效生成高分辨率图像(如1024×1024),同时缩小与顶级扩散模型的差距,并确保其计算效率适合消费级硬件。

Meissonic模型提出了全新的解决方案,基于非自回归的掩码图像建模(MIM),为高效、高分辨率的T2I生成设定了新标准。

论文链接
GitHub Code
Huggingface Model

通过架构创新、先进的位置编码策略和优化的采样方法,Meissonic不仅在生成质量和效率上与领先的扩散模型(如SDXL)相媲美,甚至在某些场景中超越了它们。

此外,Meissonic利用高质量的数据集,并通过基于人类偏好评分的微观条件进行训练,同时引入特征压缩层,显著提升了图像的保真度与分辨率。

以下是Meissonic在方法上的几项重要技术改进:

  1. 增强型Transformer架构
    Meissonic结合了多模态与单模态的Transformer层,旨在捕捉语言与视觉之间的互动信息。从未池化的文本表示中提取有用信号,构建两者之间的桥梁;单模态Transformer层则进一步细化视觉表示,提升生成图像的质量与稳定性。研究表明,这种结构按1:2比例能够实现最佳性能。

  2. 先进的位置编码与动态采样条件
    为保持高分辨率图像中的细节,Meissonic引入了旋转位置编码(RoPE),为queries和keys编码位置信息。RoPE有效解决了随着token数量增加,传统位置编码方法导致的上下文关联丢失问题,尤其在生成512×512及更高分辨率图像时。

此外,Meissonic通过引入掩码率作为动态采样条件,使模型自适应不同阶段的采样过程,进一步提升图像细节和整体质量。

  1. 高质量训练数据与微观条件
    Meissonic的训练依赖于经过精心筛选的高质量数据集。为提升图像生成效果,Meissonic在训练中加入了图像分辨率、裁剪坐标及人类偏好评分等微观条件,显著增强了模型在高分辨率生成时的稳定性。

  2. 特征压缩层
    为了在保持高分辨率的同时提升生成效率,Meissonic引入了特征压缩层,使其在生成1024×1024分辨率图像时可以有效降低计算成本。

那么,Meissonic到底有多强大呢?让我们来看看它的表现:

图片1

在HPS V2.0基准测试中,Meissonic以平均0.56分的优势超越了SDXL。

在图像编辑能力评测数据集Emu-Edit上,Meissonic的Zero-shot图像编辑性能甚至超越了经过图像编辑指令微调后的模型。

图片2

在风格多样性生成方面,Meissonic展现出超越SDXL的表现。

而这一切,都只需SDXL 1/3的推理时间和1/2的显存占用。值得注意的是,Meissonic可以在8GB显存下运行,让中低端显卡的用户也能受益。

图片3

此外,Meissonic还展现了超强的zero-shot图像编辑能力,无需微调即可灵活编辑有mask和无mask的场景,提供了更多创作可能性。

图片4

高效推理与训练的结合

在文本到图像合成领域,Meissonic模型凭借卓越的效率脱颖而出。该模型不仅在推理过程中实现了高效性,同时在训练阶段也显著提升了效率。Meissonic采用了一套精心设计的四阶段训练流程,逐步提升生成效果。

阶段一:理解图像基础概念
研究表明,原始LAION数据集的文本描述无法充分满足文本到图像模型的训练需求,通常需要多模态大型语言模型(MLLM)进行优化,但这消耗大量计算资源。

为此,Meissonic在初始阶段采用了更加平衡的策略,利用经过筛选的高质量LAION数据学习基础概念,通过降分辨率的方法提高效率,最终保留约2亿张高质量图像,并将初始训练分辨率设定为256×256。

阶段二:实现文本与图像对齐
第二阶段的重点在于提升模型对长文本描述的理解能力。团队筛选了审美分数高于8的图像,构建了120万对优化后的合成图文对及600万对内部高质量图文对。此阶段,训练分辨率提升至512×512,配对数据总量达到约1000万对,从而显著提升了Meissonic在处理复杂提示(如多样风格和虚拟角色)以及抽象概念方面的能力。

阶段三:实现高分辨率图像生成
在Masked Image Modeling(MIM)领域,生成高分辨率图像仍然是一个挑战。Meissonic通过特征压缩技术高效实现了1024×1024分辨率的图像生成。引入特征压缩层后,模型能够在较低计算成本下实现从512×512到1024×1024的平滑过渡,此阶段的数据集经过进一步筛选,仅保留约600万对高分辨率、高质量的图文配对,以1024分辨率进行训练。

阶段四:精细化美学细节生成
在最后阶段,Meissonic通过低学习率微调模型和文本编码器,并引入人类偏好评分作为训练条件,进一步提升了生成图像的质量和多样性。这一阶段的训练数据与第三阶段保持一致,但更加注重对高分辨率图像生成的美学细节的打磨。

通过上述四个阶段的训练,Meissonic在训练数据和计算成本上实现了显著降低。具体而言,在训练过程中,Meissonic仅使用210万张图像,相较于其他主流模型(如SD-1.5和Dall-E 2),训练数据的使用量显著减少。

图片5

在使用8个A100 GPU进行训练的情况下,Meissonic的训练时间仅需19天,显著低于Würstchen、SD-2.1等模型的训练时间。

广泛影响

最近,移动设备上的端侧文本到图像应用如谷歌Pixel 9的Pixel Studio和苹果iPhone 16的Image Playground相继推出,反映出提升用户体验和保护隐私的日益趋势。作为一种资源高效的文本到图像基座模型,Meissonic在这一领域代表了重要的进展。

图片6

此外,来自斯坦福大学的创业团队Collov Labs在一周内就成功复现出同样架构的Monetico,生成效果可以与Meissonic相媲美,推理效率更加高效,并荣登huggingface趋势榜第一名。这也显示出Meissonic架构在资源高效上的巨大潜力和应用价值。

参考资料:
https://arxiv.org/abs/2410.08261



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Nagomi Security荣膺2024年Gartner® Cool Vendor称号

Nagomi Security,连续威胁曝光管理(CTEM)领域的领导者,被评选为2024年Gartner®“酷供应商”,收录于现代安全运营中心报告中。图片{ width=60% }


组织在获得曝光可见性、意识以及检测和应对威胁方面面临挑战。作为仅有的四家受到认可的酷供应商之一,此次报告中列名的酷供应商专注于通过自动化、人工智能和持续自动化支持安全运营中心的创新方式。
2024年Gartner®现代安全运营中心报告指出,基础安全计划将继续是安全的支柱。然而,要进行调整,安全团队必须尝试新的安全技术和服务。
Nagomi Security的联合创始人兼首席执行官Emanuel Salmona表示:“我们很高兴(也感到很‘酷’)能够在这份报告中被认可。随着更多公司采用CTEM项目,安全团队意识到,有效的防护不仅仅是关于正确的工具,更是关于清晰的沟通和协调。我们认为这一认可强化了我们的使命,即为安全团队提供他们需要的数据,以在威胁发生之前减少风险。”
Gartner建议网络安全团队采用提供持续曝光评估功能的云安全工具,使技术能够进行可扩展的模拟并分析云基础设施中的物质变化。Nagomi Security通过持续评估和优化流程,帮助增加现有技术安全控制投资的效果和价值。
有关Nagomi Security的更多信息,请访问nagomisecurity.com。


注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AIGC的全新机遇!北京这场专家云集的AIGC国际会议与大模型应用峰会即将启幕

人工智能生成内容(AIGC)和大模型正在以前所未有的速度进入应用市场,成为改变世界的关键力量之一。从艺术创作到科学研究,从日常娱乐到工业生产,AIGC的应用范围越来越广,影响力也越来越大。


为了探讨这一领域的未来方向,分享最新的科研成果,促进国际间的合作交流,“第二届人工智能生成内容国际会议暨大模型应用创新大会”(AIGC 2024)将于2024年12月21日至22日在北京隆重召开。

conference_image

AIGC的未来在于其能够更深层次地理解和模拟人类创造力的能力。随着算法的进步和计算能力的增强,未来的AIGC将更加精准地捕捉用户需求,创造出更加个性化、多样化的内容。此外,跨模态融合将成为一大亮点,即结合文本、图像、音频等多种类型的数据来生成更为复杂且丰富的作品。这不仅要求技术上的突破,也需要对伦理和社会影响有深刻的理解和考虑。

在AIGC 2024上,与会者将有机会深入了解学术前沿及产业应用关键领域的最新进展:

学术前沿:

  • 深度学习框架:特别是变换器(Transformer)架构的优化及其在大规模预训练模型中的应用。
  • 生成对抗网络(GANs):探索GANs在图像合成、风格迁移等任务上的新应用。
  • 多模态学习:研究如何有效整合不同类型的信息,以提高生成内容的质量和多样性。
  • 可解释性与透明度:讨论如何让AI系统的工作机制更加透明,增加用户的信任感。

产业应用:
AIGC技术正逐渐渗透到各行各业,从媒体娱乐到医疗健康,从金融科技到教育培训,无不展现出巨大的市场潜力。预计到2025年,全球AIGC市场规模将达到数十亿美元。然而,这一过程中也面临着数据安全、版权保护、伦理道德等一系列挑战。AIGC 2024将邀请行业领导者共同探讨这些问题的解决方案,助力产业健康发展。

大会亮点

  • 顶级嘉宾阵容:包括重庆师范大学校长王国胤、东北大学副校长王兴伟、北京大学教授赵东岩、清华大学副教授黄高、国家杰青,西安交通大学数学与统计学院副院长孙剑、微软健康未来总经理Hoifung Poon等在内的多位国际知名专家将出席并发表演讲。
  • 丰富多样的活动形式:除了传统的主旨演讲外,还有特邀报告、小组讨论、口头展示及海报展示等多种互动方式,确保每位参与者都能获得充分的学习和交流机会。
  • 高质量论文发表:所有通过审稿、完成注册并在会议上展示的论文,将收录于AIGC 2024会议论文集,并由SPIE出版社出版,进一步扩大研究成果的影响。
  • 领域精英深度交流:与您所熟悉的创业者、开发者、研究者、投资人、应用生态圈共叙AIGC全新机遇。
  • 应用展览展示:大会设置展览展示,参会者讲有机会了解相关领域公司发布的最新大模型产品以及 AIGC与行业结合的典型案例。

无需犹豫!请小伙伴抓紧注册,把握住与行业领袖们的深度交流机会!

门票:

  • 听众(大会两日票):人民币1200元,学生参会900元;包含所有议程,参会证书,前排坐席,会议礼品,两天五星级酒店午餐。

国内外观众均可报名: https://www.meta-conference.cc/index/index/detail/id/38.html

registration_image

展位票:
AIGC 2024 大会已开放展位申请,马上申请展位,让您的企业和产品与最前沿的技术和应用站在一起。
本次会议提供白银赞助、黄金赞助、铂金赞助、钻石赞助等方案。期中,白银赞助商即可享有会议合作伙伴冠名权,官方网站链接展示,以及标准展位一个。同时,白银赞助商还将获得2份特邀邀请函,参与会议的各项交流活动。更多的赞助方案,请抓紧联系大会承办方:上海中展国瑞会展有限公司。

这一赞助机会为企业提供了广泛的品牌曝光和行业交流的平台,把握住机会抓紧时间报名!

大会历史:
首届AIGC 2023国际会议已经于2023年8月25日至26日在中国上海扬子江丽笙精选酒店成功举行,国内外众多院士、专家、学者、教授,以及人工智能领域的企业代表、专业人士相聚在一起,分享前沿学术成果、碰撞思想观点、聚焦产业落地应用,极大地推动了AIGC领域的发展,吸引了600余名相关人员参会。

AIGC 2024不仅是一场学术盛宴,更是连接科研界与产业界的桥梁。无论您是研究人员、工程师、企业家还是政策制定者,这里都将为您提供一个不可多得的学习和交流平台。我们诚挚地邀请您的加入,共同见证并推动AIGC技术的美好未来。

更多信息,请直接访问大会官网: https://www.icaigc.org/

联系方式:
- 会议咨询(投稿,出版)
- 联系人:纪老师
- 电话:15618780723
- 合作咨询(媒体,赞助)
- 联系人:范老师
- 电话:13310183307
- 大会承办方:上海中展国瑞会展有限公司


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路

昨天,The Information 的一篇文章让 AI 社区炸了锅。

这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升,因为高质量文本和其他数据的供应量正在减少,原本的 Scaling Law(用更多的数据训练更大的模型)可能无以为继。


此外,OpenAI 研究者 Noam Brown 指出,更先进的模型可能在经济上也不具有可行性,因为花费数千亿甚至数万亿美元训练出的模型会很难盈利。

这篇文章引发了业界对于未来 AI 迭代方向的讨论 —— 虽然 Scaling Law 放缓这一说法令人担忧,但其中也不乏乐观的声音。有人认为,虽然从预训练来看,Scaling Law 可能会放缓;但有关推理的 Scaling Law 还未被充分挖掘,OpenAI o1 的发布就证明了这一点。它从后训练阶段入手,借助强化学习、原生的思维链和更长的推理时间,把大模型的能力又往前推了一步。这种范式被称为「测试时计算」,相关方法包括思维链提示、多数投票采样(self-consistency)、代码执行和搜索等。

其实,除了测试时计算,还有另外一个近来非常受关注的概念 —— 测试时训练( Test-Time Training ,TTT),二者都试图在测试(推理)阶段通过不同的手段来提升模型的性能,但 TTT 会根据测试时输入,通过显式的梯度步骤更新模型。这种方法不同于标准的微调,因为它是在一个数据量极低的环境中运行的 —— 通常是通过单个输入的无监督目标,或应用于一个或两个 in-context 标注示例的有监督目标。

不过,TTT 方法的设计空间很大。目前,对于哪些设计选择对 LM(特别是对新任务学习)最有效,人们的了解还很有限。

在一篇新论文中,来自 MIT 的研究者系统地研究了各种 TTT 设计选择的影响,以及它与预训练和采样方案之间的相互作用。看起来,TTT 的效果非常好,至少从论文标题上看,它的抽象推理能力惊人(surprising)。

论文标题:The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

论文链接:https://ekinakyurek.github.io/papers/ttt.pdf

具体来说,作者确定了将 TTT 有效应用于 few-shot 学习的几个关键要素:

  1. 在与测试时类似的合成任务上进行初始微调;
  2. 用于构建测试时数据集的增强型 leave-1-out 任务生成策略;
  3. 训练适用于每个实例的适应器;
  4. 可逆变换下的自我一致性(self-consistency)方法。

实验环节,研究者在抽象与推理语料库(ARC)中对这些方法进行了评估。ARC 语料库收集了很多极具挑战性的 few-shot 视觉推理问题,被认为是测试 LM 泛化极限的理想基准。目前的大多语言模型在 ARC 上均表现不佳。

通过对这些部分的精心选择,TTT 可以显著提高 LM 在 ARC 上的性能 —— 在 1B 模型上将准确率提高到原来的 6 倍,使用 8B 模型时也超过其它已发布的 SOTA 纯神经模型方法。

事实上,他们的研究结果表明,当配备测试时训练时,普通的语言模型可以在 ARC 任务上达到或超过许多神经 - 符号方法的性能。

这些结果挑战了这样一个假设:解决这类复杂任务必须严格依赖符号组件。相反,它们表明解决新推理问题的关键因素可能是在测试时分配适当的计算资源,也许与这些资源是通过符号还是神经机制部署无关。

数据科学家 Yam Peleg 高度评价了这项研究:

美国 Jackson 实验室基因组学部教授 Derya Unutmaz 则表示这是一项「令人震惊的研究」,因为如果 TTT 与 LLM 相结合足以实现抽象推理,我们就有可能消除对显式、老式符号逻辑的需求,并找到实现 AGI 的可行途径。

不过,过完一关还有一关:Epoch AI 与 60 多位顶尖数学家合作打造的 FrontierMath,已经成为评估人工智能高级数学推理能力的新基准,恐怕接下来各位 AI 研究者有的忙了。


参考链接:https://x.com/akyurekekin/status/1855680791784600013



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

当今最复杂的椭圆曲线找到了!29个独立有理点打破18年记录

又是计算机帮了忙。

对现代密码学稍有了解的人都必定听过椭圆曲线的赫赫威名,但椭圆曲线本身依然还存在很多悬而未决的问题。


今天,量子杂志作者 Joseph Howlett 介绍了这方面的一项打破 18 年记录的新突破:找到了一条迄今为止有理点模式最复杂的椭圆曲线。

图片
宣布发现这条突破性曲线的邮件截图

今年 8 月,两位数学家发现了一条打破记录的怪异曲线。在此过程中,他们触及了一个仍待解决的重大难题 —— 其涉及到数学领域一类最古老、最基础的方程。

椭圆曲线至少可以追溯到古希腊,是许多研究领域的核心。它们具有丰富的底层结构,数学家们用它开发了许多强大的技术和理论。在 1994 年 Andrew Wiles 著名的费马大定理(是当时数论领域最重要的未解问题之一)证明中,椭圆曲线就发挥了重要作用。椭圆曲线对现代密码学也至关重要。

即便如此,对于椭圆曲线的某些最基本的问题,数学家们仍在寻找答案。举个例子,他们常通过研究椭圆曲线上的特殊「有理点(rational point)」来描述其特征。在一条给定的曲线上,这些点会形成清晰且有意义的模式。但我们目前尚不清楚这些模式的多样性和复杂程度是否有极限。

通过解答这个问题,可让数学家们理解数量巨大且种类繁多的椭圆曲线世界 —— 这个世界中的许多曲线都仍未得到探索。因此,数学家们开始探索这个世界的外围,寻找模式越来越奇怪的异常曲线。这个过程很艰辛,并且既需要创造力,也需要复杂的计算机程序。

现在,哈佛大学的 Noam Elkies 和加利福尼亚州拉霍亚通信研究中心的 Zev Klagsbrun 这两位数学家发现了一条至今为止有理点模式最复杂的椭圆曲线,打破了 18 年前的记录。

「这个阻碍能否打破是一个重大问题。」克罗地亚萨格勒布大学的 Andrej Dujella 说,「对于我们所有研究和关注椭圆曲线的人来说,这是一个非常令人兴奋的结果。」

寻找有理性

椭圆曲线的形式为 y² = x³ + Ax + B,其中, A 和 B 是有理数,它们看起来是这样的:

图片

在椭圆曲线的研究中,数学家们特别关注其有理解 —— 即曲线上 x 值和 y 值都是有理数的点。俄亥俄州立大学的 Jennifer Park 表示:这实际上是人类数学历史上最古老的问题之一。

虽然找到简单类型方程的有理解相对直接,但椭圆曲线是真正存在许多未解问题的第一类方程,布朗大学的 Joseph Silverman 说道。「这仅仅是一个三次方程的两个变量,就已经足够复杂了。」

为了掌握椭圆曲线的有理解,数学家们常常依赖于曲线的秩,这是一个衡量曲线上有理点密集程度的数字。秩为 0 的椭圆曲线只有有限数量的有理点。秩为 1 的椭圆曲线拥有无限多的有理点,但所有这些点都按照一种简单的模式排列,这意味着如果你知道其中一个点,就可以遵循一个众所周知的程序来找到其余的点。

图片

高秩的椭圆曲线同样拥有无限多的有理点,但这些点之间的关系更加复杂。例如,如果你知道一个秩为 2 的椭圆曲线的有理解,你可以使用在秩为 1 情况下相同的程序来找到一整个家族的有理点。但是,这条曲线还有第二个家族的有理点。这意味着这些有理点分布在曲线上以更复杂的方式,形成多个线性独立的族群。

图片

椭圆曲线的秩告诉数学家们需要多少个独立的点,即来自不同家族的点 —— 以定义其有理解的集合。秩越高,曲线上的有理点就越丰富。秩为 2 和秩为 3 的曲线都有无限多的有理解,但秩为 3 的曲线包含来自额外家族的有理点,这意味着在平均情况下,一定长度的曲线将包含更多这样的点。

几乎所有的椭圆曲线都已知是秩为 0 或秩为 1。但仍然有无限多的异常情况具有更高的秩 —— 并且这些曲线极其难以找到。

因此,数学家们不确定秩是否有限制。在相当长的一段时间里,大多数专家认为理论上可以构造任何秩的曲线。最近的证据表明情况并非如此。由于没有确凿的证明,数学家们只能就椭圆曲线的真实本质进行辩论,这正说明了这些方程还有很多未知之处。

更大的一盘棋

Elkies,一位杰出的数论学家。在 2000 年代中期,他正在专注于看似无关的研究,称为 K3 曲面。为了理解它们,Elkies 将它们切割并观察各个部分。

想象一开始有一个简单的表面,一个平面。你可以将其切割成无限多的直线,这些直线并排放置。根据你切割的方式,最终得到的线条将由不同的方程定义。

同样地,有更复杂的、曲线的表面,当切割时,会产生无限多的椭圆曲线。自 1950 年代以来,数学家们一直在使用这些表面来找寻高秩椭圆曲线。

图片
Noam Elkies

Elkies 意识到 K3 曲面足够奇特,可以让他接触到更奇特的曲线。2006 年,他以正确的方式对一个特定的 K3 曲面进行了切片,并在切片中发现了一条椭圆曲线,他可以证明该曲线的秩至少为 28,打破了之前 24 的记录。这对椭圆曲线专家来说是一个激动人心的时刻,他们相信接下来可能会出现一大批打破纪录的人。

然而,之后并无大的突破。Elkies 的记录保持了将近二十年 —— 这与自 1970 年代以来数学家们相对稳定的刷新记录的速度形成了明显的背离。

这或许是一种迹象,表明秩毕竟可能是有限的,或者,这仅仅反映了这一研究确实很难?

在 2006 年 Elkies 公布他的发现之际,Zev Klagsbrun 正就读于纽约皇后学院本科。他的一位教授,曾在 80 年代和 Elkies 比过同一场高中数学竞赛。在办公时间,Zev 被告知了这个破纪录的曲线的新消息。

这是 Zev 首次对寻找有理点产生兴趣。

图片
Zev Klagsbrun

Zev 对此很感兴趣。多年后,他重新审视了 Elkies 的结果,证明了一个猜想是正确的 ——Elkies 的曲线的秩恰好是 28。

因此,当 Zev 在 2019 年的一个会议上遇到 Elkies 时,他说服了 Elkies 重新开始寻找新的曲线。

「我当时说,嘿,我愿意写代码,和我一起继续破解椭圆曲线的秘密吧!」Zev 说。

在 Elkies 同意之后,他们重新审视了十八年前 Elkies 研究过的 K3 曲面。当时,Elkies 通过切片,得到了结论:这些曲线的秩至少为 17,但他的目标是超越 24 的记录。

由于无法直接计算每一条曲线的秩,Elkies 筛选出在数百万条曲线中最可能具有异常高秩的候选,再手动计算这些曲线的秩,直到最终找到了那条秩为 28 的曲线。

Klagsbrun 提供了一个更快的计算方法,把 Elkies 能处理的数百万条,扩展到了数十万亿条。

这次更广泛的搜索,从旧的曲线堆中发现了许多不寻常特性的曲线,但它们都没有打破 28 秩的记录。两人决定继续前进。

四年过去了。然后就到了几个月前,Elkies 和 Klagsbrun 在一次会议上再次相遇,并开始交谈。

他们开始以不同的方式对 K3 曲面进行切片,得到了一个可以研究的新曲线堆。但是,切片方法有好几百种,而大多数切片方法似乎都不太可能得到他们想要的曲线。

然后,他们完全偶然地发现了一种切片方法,就像 Elkies 之前的那种方法一样,可以得到一个曲线堆,并且保证其中所有曲线的秩都至少为 17。与其他方法相比,这种方法似乎更可能挖到宝。果然,使用 Klagsbrun 更强大的计算技术,他们在这个曲线堆中发现了一条秩至少为 29 的椭圆曲线。这条椭圆曲线具有迄今为止发现过的最复杂的有理解集:需要至少 29 个独立点才能描述其特征。

这条曲线的方程如果写成 y² = x³ + Ax + B 的形式,则 A 和 B 的值都有 60 个数字那么长。Elkies 和 Klagsbrun 找到的 29 个独立的有理解涉及的数同样巨大。

抓住极限

对于椭圆曲线的秩是否有上限的问题,这个结果并未将其彻底解决。「现在我们已经找到了这一条秩更高的曲线,那就有理由去希望」存在具有任意高的秩的曲线,Klagsbrun 说,「另一方面,老天,找到这一条就耗费了大量功夫。很显然想要找到更高秩的样本,还需要一些新思路。」

不过如果能将他和 Elkies 的努力推进得足够远,也许能够扭转局面。他们需要找到一个无限的曲线堆,保证其秩至少为 22(而不是 17,这是他们迄今为止所能做到的最好结果)。如果存在这样一个堆,那就会与「秩存在有限上限」的已有最有力证据相矛盾。

不管怎样,这条秩 29 曲线的发现都拓展了这个未知领域的边界。正如生物学家试图通过研究生活在极端环境中的生物来了解生命一样,通过绘制椭圆曲线世界的极端边缘,数学家也可以获得很大收获。

原文链接:Quantamagazine

原文链接:NODAK email list

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

一句话爆改三维场景!斯坦福吴佳俊团队新作:场景语言,智能补全文本到3D的场景理解

从文字生成三维世界的场景有多难?

试想一下,如果我们要 “生成复活节岛的摩艾石像”,AI 怎么才能理解我们的需求,然后生成一个精美的三维场景?

斯坦福的研究团队提出了一个创新性解决方案:就像人类使用自然语言(natural language)进行交流,三维场景的构建需要场景语言(Scene Language)

项目主页:https://ai.stanford.edu/~yzzhang/projects/scene-language/
文章地址:https://arxiv.org/abs/2410.16770

这个新语言不仅能让 AI 理解我们的需求,更让它能够细致地将人类的描述转化为三维世界的场景。


同时,它还具备编辑功能,一句简单指令就能改变场景中的元素!物体的位置、风格,现在都可以随意调整。

智能的场景理解

再比如,输入 “初始状态的国际象棋盘”,模型可以自动识别并生成如下特征:

  • 64 个黑白相间的格子
  • 按规则排列的 32 个棋子
  • 每个棋子的独特造型

最终生成的 3D 场景完美还原了这些细节。

这个方法支持多种渲染方式,能适应不同的应用场景:

更具吸引力的是其编辑能力:只需一句指令,就能调整场景中的元素:

支持图片输入

动态生成

不仅限于静态,Scene Language 还能生成动态场景,让 3D 世界生动起来。

技术亮点

Scene Language 的核心在于三大组件的融合:

  1. **程序语言(program)**:用于精确描述场景结构,包括物体间的重复、层次关系;
  2. 自然语言(word):定义场景中的物体类别,提供语义层面的信息;
  3. 神经网络表征(embedding):捕捉物体的内在视觉细节。

这种组合就像给 AI 配备了一套完整的 “建筑工具”,既能整体规划,又能雕琢细节。

对比传统方法的优势

与现有技术相比,Scene Language 展现出显著优势:

  • 用户偏好测试中获得 85.65% 的偏好,相比现有方法提高了近 7 倍;
  • 在物体数量控制方面,测试集中的准确率达到 100%,而现有方法只有 11%。

这一研究展示了 AI 理解和创造 3D 世界的全新可能性,期待它在游戏开发、建筑设计等领域引领新一轮的创新!

作者简介

该篇论文主要作者来自斯坦福大学吴佳俊团队。

论文一作张蕴之,斯坦福大学博士生。主要研究为视觉表征及生成。

吴佳俊,现任斯坦福大学助理教授。在麻省理工学院完成博士学位,本科毕业于清华大学姚班。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

自动驾驶界秋名山车神!CoRL杰出论文让自驾车学会漂移,机器人整出新活

今年的机器人顶会 CoRL 杰出论文,竟然帮自动驾驶车稳稳地完成了漂移。先来个甜甜圈漂移热个身:甜甜圈漂移图片链接


然后,上点难度,来个「8 字」:8 字漂移图片链接。最后来个蛇形绕桩(Slalom,这次没有实体的桩)。可以听见,在绕到一半的时候,工作人员忍不住欢呼了一下。蛇形绕桩图片链接

这些动作都是由一个安装了自动驾驶系统的雷克萨斯 LC 500 汽车来完成的,同样一套系统安装到丰田 Supra 上也可以安全运行。这得益于研究者们在 CoRL 一篇杰出论文中提出的方法,该方法可以提高自动驾驶在极限操控(如漂移)条件下的安全性和可靠性。

另外一篇获奖论文则有关机器人导航。作者借助强化学习对导航智能体进行了端到端大规模训练,结果可以很好地泛化到现实世界。其中,论文一作 Kuo-Hao Zeng 是一位华人学者,目前就职于艾伦人工智能研究院。他本科毕业于中山大学,在清华大学拿到了硕士学位,去年在美国华盛顿大学拿到了博士学位。

在颁奖典礼现场,获奖者拿到了一个神秘的大盒子。据透露,里面装的是看起来很美味的零食:

CoRL 是面向机器人学习研究的会议,涵盖机器人学、机器学习和控制等多个主题,包括理论与应用。自 2017 年首次举办以来,CoRL 已经成为了机器人学与机器学习交叉领域的全球顶级学术会议之一。

除了两篇杰出论文,还有四篇论文拿到了今年的杰出论文提名,比如 ALOHA 团队主要成员的新工作 —— 人形机器人 HumanPlus,斯坦福提出的首个开源视觉语言动作大模型 OpenVLA 等。

以下是关于获奖论文和提名论文的详细介绍。

杰出论文奖获奖论文

论文一:One Model to Drift Them All

One Model to Drift Them All

  • 作者:Franck Djeumou, Thomas Jonathan Lew, Nan Ding, Michael Thompson, Makoto Suminaka, Marcus Greiff, John Subosits
  • 机构:丰田研究院、美国伦斯勒理工学院
  • 论文链接:点击查看论文

论文二:PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

PoliFormer

  • 作者:Kuo-Hao Zeng, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Zichen Zhang, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs
  • 机构:艾伦人工智能研究所 PRIOR(Perceptual Reasoning and Interaction Research)团队
  • 项目链接:点击查看项目
  • 论文链接:点击查看论文

杰出论文提名

论文 1:Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning

Re-Mix

  • 机构:斯坦福大学、UC 伯克利
  • 作者:Joey Hejna, Chethan Anand Bhateja, Yichen Jiang, Karl Pertsch, Dorsa Sadigh
  • 论文地址:点击查看论文

论文 2:Equivariant Diffusion Policy

Equivariant Diffusion Policy

  • 作者:Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt
  • 机构:东北大学、波士顿动力
  • 论文地址:点击查看论文

论文 3: HumanPlus: Humanoid Shadowing and Imitation from Humans

HumanPlus

  • 作者:Zipeng Fu, Qingqing Zhao, Qi Wu, Gordon Wetzstein, Chelsea Finn
  • 机构:斯坦福大学
  • 论文地址:点击查看论文

论文 4:OpenVLA: An Open-Source Vision-Language-Action Model

OpenVLA

  • 作者:Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan F Foster, Pannag R Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
  • 机构:斯坦福大学、UC 伯克利、丰田研究院、Google Deepmind等
  • 论文地址:点击查看论文
  • 项目地址:点击查看项目

更多详情,请参看机器之心之前的报道:《从 ALOHA 迈向 Humanplus,斯坦福开源人形机器人,「高配版人类」上线》

参考链接

CoRL 杰出论文介绍



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

首个多模态连续学习综述,港中文、清华、UIC联合发布

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

本文作者来自于港中文、清华和UIC。主要作者包括:余甸之,港中文博士生;张欣妮,港中文博士生;陈焱凯,港中文博士;刘瑷玮,清华大学博士生;张逸飞,港中文博士;Philip S. Yu,UIC教授;Irwin King,港中文教授。

论文标题:Recent Advances of Multimodal Continual Learning: A Comprehensive Survey
论文链接:https://arxiv.org/abs/2410.05352
GitHub地址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning

多模态连续学习的最新进展

连续学习(CL)旨在增强机器学习模型的能力,使其能够不断从新数据中学习,而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘:当任务按顺序训练时,新的任务训练会严重干扰之前学习的任务的性能,因为不受约束的微调会使参数远离旧任务的最优状态。尽管连续学习取得了重大进展,但大多数工作都集中在单一数据模态上,如视觉,语言,图,或音频等。这种单模态的关注忽略了现实世界环境的多模态本质,因为现实世界环境本身就很复杂,由不同的数据模态而不是单一模态组成。

随着多模态数据的快速增长,发展能够从多模态来源中连续学习的 AI 系统势在必行,因此出现了多模态连续学习(MMCL)。这些 MMCL…

[剩余内容省略]


1
2
3
4
5
6
7
8
9
10
11
请将Body部分的内容转化为不带html标签(注:图片链接展示需要保留)的Makedown的内容。再整体按照如下Makedown格式标准输出。

---

title: '首个多模态连续学习综述,港中文、清华、UIC联合发布'
date: 2024-11-14
author: ByteAILab

---

[转换后的内容]

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Trellis Data突破性技术降低AI成本和碳足迹

Trellis Data公司在改进LLMs速度和减少计算功率需求方面取得世界首创性突破
领先的机器学习和人工智能专家Trellis Data今天宣布了大语言模型(LLM)解码器领域的一项开创性创新,该创新使输出产生速度提高了三倍以上。图片{ width=60% }


Trellis的动态深度解码(D3)技术利用推理解码来实现平均速度增加44%,相比之前最快的解码器,它是当今世界上最快的解码器。
LLMs是AI系统背后的架构,D3使它们以约3.16倍的速度生成文本,而不会影响准确性。
世界经济论坛估计,维持全球AI增长所需的计算功率每100天就会翻一番。随着AI系统为全球组织创造越来越多价值,能够在成本和能源需求方面创造效率并缓解环境影响的方法变得备受追捧。
根据Trellis Data提交进行全球同行评审的研究,D3带来的速度改进导致计算功率要求的估计减少了68.4%,从而降低了运行LLMs时的成本和碳排放量。
Trellis Data首席执行官Michael Gately表示:“任何AI系统成功的关键部分有三个组成要素:信任、速度和性能。速度是一个关键领域,因为它与成本和环境影响之间有直接关联。
“D3使我们能够解决速度的一个关键瓶颈 - 解码器,为客户提供了在运行AI服务器成本和减少碳足迹方面的降低。”
“Trellis Data处于快速发展的AI领域的前沿,我们很高兴能够在我们的平台上提供D3。D3将为使用我们的语音管理和知识管理功能的客户带来直接的好处,包括增强的用户体验和更大的扩展能力。”
D3可广泛适用于生成式AI用例,包括聊天机器人、文本摘要、翻译、转录和内容生成。此外,降低的计算成本和碳排放为客户带来了竞争优势,特别是随着LLM的规模和使用量不断增长。
Trellis Data使用广泛的人工智能技术,包括生成式AI、转录、翻译和计算机视觉,专门设计用来节省时间和降低成本。D3的开发是Trellis Data战略的又一个关键里程碑,该战略旨在解决与新人工智能技术采用相关的重要问题,因为它们提供了与现有业务系统无缝集成的安全、脱机AI应用程序。
总部位于堪培拉的Trellis Data拥有一个超过40名员工的不断增长团队,年度重复收入(ARR)增长预计将超过100%。该公司还在阿德莱德、悉尼和美国阿灵顿设有办事处,并计划立即扩大到中东和东南亚地区。
Trellis Data为各种客户提供人工智能解决方案,包括政府机构、国防和执法部门、培训和供应链企业,以及金融和法律等高安全领域的公司。
Michael Gately将于2024年11月12日在堪培拉举行的MilCIS 2024大会上发表演讲,并入围2024年AmCham Alliance Awards的人工智能类别,获奖者将于11月14日在悉尼举行的晚宴上公布。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Duos Edge AI收购额外的边缘数据中心

三个额外的EDC将部署为德克萨斯经济发展
Duos Technologies Group, Inc.(“Duos”或“公司”)(纳斯达克:DUOT),通过其运营子公司Duos Edge AI, Inc.(“Duos Edge AI”),提供适应性强、多功能且简化的边缘数据中心(“EDC”)解决方案,旨在满足任何环境中不断发展的需求,宣布在德克萨斯州快速部署了三个新EDC。图片{ width=60% }


通过使用融资合作伙伴,加速了收购过程,突显了公司在为被忽视地区提供边缘计算解决方案方面的快速上市能力。这些额外的EDC将为德克萨斯州的偏远地区提供低延迟、高速互联网接入,直接解决了德克萨斯州学校和公共机构面临的连接挑战。此次额外单位的收购与Duos Edge AI支持地区发展的承诺相一致,通过使现代数字资源的无缝访问成为可能。

由战略合作伙伴Accu-Tech建造的这三个新EDC已经完工并准备部署。Duos Edge AI打算针对已确定的机会部署这些额外的EDC,并预计此次收购将加速到2025年底部署达到15个单位并产生收入的计划。

“提前将这些EDC接入网络是Duos Edge AI的里程碑,展示了我们致力于为偏远社区提供其繁荣所需基础设施的决心,”Duos Edge AI总裁Doug Recker表示。“我要感谢我们的融资合作伙伴和Duos财务团队,他们迅速就这项协议进行了谈判,使业务能够满足这些解决方案的需求。”

快速的EDC部署模型展示了Duos Edge AI有效地在各个部门间扩展边缘计算解决方案的能力,提供强大、适应性强的基础设施,满足农村和被忽视市场不断发展的需求。预计这三个EDC将于2025年第一季度末投入使用,将德克萨斯数字化转型向前迈出重要一步。


注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB