百万级原子模拟,从头算精度,北京科学智能研究院提出AI+大尺度电子结构模拟新方法

编辑 | KX

在计算材料科学领域,准确高效地模拟材料的电子结构一直是一个非常关键而又极具挑战性的问题。基于密度泛函理论的第一性原理计算方法的高计算需求依然是大尺寸长时间材料模拟所面临的难题。


北京科学智能研究院 (AI for Science Institute, Beijing) 提出了一种基于深度学习的高效紧束缚方法,称为 DeePTB,从而高效地表示具有从头算精度的材料电子结构,极大地简化了计算复杂度,并实现百万级大尺寸结构的电子、光电响应性质的计算模拟。

当与分子动力学相结合时,DeePTB 可以同时促进原子和电子行为的有效和准确的有限温度模拟。DeePTB 的可用性弥合了电子模拟中准确性和可扩展性之间的差距,通过实现大规模电子结构计算,将推动材料科学和相关领域的发展。

相关研究以「Deep learning tight-binding approach for large-scale electronic simulations at finite temperatures with ab initio accuracy」为题,于 8 月 8 日发表在《Nature Communications》上。

虽然基于 DFT 的第一性原理方法提供了准确且通用的模拟材料电子性质的方法,但是随着系统中的原子数量增加,第一性原理的计算量急剧增加,而在真实材料或者器件体系中往往包含成百万千万量级的原子数,难以很直接使用第一性原理软件完成计算模拟。

一些复杂材料场景远远超过了 DFT 方法的模拟尺寸,一方面是因为 DFT 的自洽迭代过程复杂,另一方面,DFT 需要足够大的基组来保证精度,导致产生的哈密顿量的尺寸较大,难以进行后续的性质计算。

因此使用更小和更稀疏的矩阵来描述电子哈密顿量的紧束缚(Tight-Binding, TB)方法提供了一种更为实用的替代方案。然而,传统的 TB 方法也存在精度与效率的矛盾。例如基于 Wannier 函数的 TB 方法虽然具有较高的精度,但是…

预测结构扰动构型的 TB 哈密顿量以及电子结构

研究人员以在电子器件中被广泛使用的 IV 族元素(C、Si、Ge、Sn)和 III-V 族化合物(如 GaAs 等)组成的半导体材料作为测试对象。

首先,进行分子动力学(MD)模拟在有限温下的结构构型采样,并基于不同 MD 轨迹的构型,使用 DFT 软件计算其对应的电子本征值作为 DeePTB 的训练和测试数据。模型测试全部体系的决定系数 (R^2≈0.9999  ) ,本征值偏差只有十几至几十个 meV 左右。其中 III-V 族化合物的测试集同时包含了立方和六方两种不同的相下的构型。

此外,DeePTB 模型还展现出了以下出色的泛化能力:

  • 推广到更大尺寸的超胞结构,显示出极佳的尺度可扩展性。
  • 处理应变效应,准确预测应变调控下的能带结构及带隙大小。
  • 兼容不同的 DFT 基组、泛函和自旋轨道耦合效应,表现出强大的灵活性和通用性。

百万原子尺寸高效建模

研究人员选择 III-V 族化合物 GaP 作为大尺寸建模的应用案例,构造了 50 × 50 × 50  的超胞结构。

首先基于 DP 深度势能进行 DeePMD 分子动力学模拟有限温的结构采样,然后基于得到的采样构型,利用 DeePTB 进行紧束缚模型哈密顿量的构建,并基于预测的 TB 模型使用 TBPLaS 软件实现的 TB propagation method (TBPM) 方法进行无需对角化的快速的电子性质计算,得到包括有限温下的态密度(DOS)、光电导率、介电函数以及复折射率等电子性质及光电相应。

计算结果表明, DeePTB 的计算结果与文献结果符合良好,峰值位置的轻微差异主要是因为用于训练的 DeePTB 模型的交换关联泛函(GGA)倾向于低估半导体材料的电子带隙的缘故。这些结果表明了 DeePTB 高精度建模以及进行器件级尺度电子结构及性质的模拟计算的能力。

关于 DeePTB 框架的潜力

对于不同的交换关联 (XC) 函数,能带结构的色散特征大致相同。因此,原则上,可以首先在计算效率高的 XC 函数(如 LDA 或 GGA)上训练模型,然后将其转移到更昂贵、更准确的函数(如 SCAN 或 HSE)。这使得能够高度准确地描述实验可观测量,以用于接近现实的材料模拟等情况下所需的大规模模拟。

此外,对于大规模样本,模拟应变对电子特性的影响是一项计算繁琐的任务。DeePTB 可以通过在较小的样本上训练模型并将其转移到更大的系统来有效地加速这些模拟。这为电子结构应变工程的理论研究带来了优势。

MD 可以提供离子自由度的模拟,这类似于晶体结构的温度探针,其中离子振动是基本现实。在需要大规模和长时间模拟的情况下,DeePTB 可用于模拟温度和结构相关的电子特性。DeePTB 使得考虑其他实际情况(如缺陷或杂质及其对电子结构的影响)成为可能和可行。

DeePTB 探索的另一个方向是模拟磁系统的特性。鉴于 DeePTB 的这些多样化潜在应用,它可以在电子模拟领域产生深远的影响。

参考内容:https://mp.weixin.qq.com/s/StetT81-UD6AGGgv-60GPA

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

「每周只上一天班」谷歌散漫制度遭前CEO怒斥:输给OpenAI,再下去要输创业公司了

「谷歌决定拥抱生活与工作平衡:更早下班、远程工作,胜过在竞争中取胜。」施密特说道。


「而说到初创公司,他们之所以能成功,是因为人们在拼命地工作。」

在本周三公布的一份斯坦福大学公开课视频中,谷歌前 CEO 埃里克・施密特(Eric Schmidt)在被问到谷歌为什么落后于 OpenAI 时,终于开炮了。

「很抱歉我这么直白,但重要的是:如果你们都离开大学去创办公司,你肯定不会让自己的员工在家办公,如果你愿意的话。」

这番言论很快引发了轩然大波。

输出了大量前沿 AI 技术的谷歌,一直被认为是人工智能领域的「黄埔军校」。如今绝大多数生成式 AI 模型的基础架构 Transformer 来自谷歌 2017 年的著名论文。而更早一波让全世界认识 AI 的深度学习浪潮,也是在 2012 年前后由谷歌大脑「AI 识别猫」研究后逐渐开始的。

然而在 ChatGPT 改变整个科技领域的浪潮里,谷歌的地位却显得有点尴尬。最近一年多,我们似习惯了这家科技巨头作为「追赶者」出现。

AI 大模型是科技领域前所未有的机会,而机遇当前,谷歌的策略一直是跟随和对标。人们正在批评谷歌的方向、人才与制度,甚至进取心。这也就怪不得在斯坦福大学 CS 323 的一堂公开课上,大学教授会向施密特抛出这样的问题了。

「每周只需要来办公室一天」是谷歌逐渐落后的最大原因吗?

有网友评论道:如果你只想要个工作,在家办公就好了。但如果你追求一份事业,请现场办公。

也有人表示反对:人来了不等同于在工作。最近几年大家的经历证明,任何专注的人都可以在任何地方工作,并且效率提高 200%。

还有很多网友对此持吃瓜的态度。有人揶揄道:我还以为他们每周一天(去办公室)的时间都没有呢。

也有人想爆料:我认识个哥们在谷歌是顶尖程序员。不过他现在身兼三职,还都是全职,每天只花两个小时处理谷歌的工作。

与此形成鲜明对比的是 OpenAI 的「卷」。

思维链作者,在 OpenAI 任职的 Jason Wei 几乎在同时引用了一位年轻的 OpenAI 工程师的言论:「为什么目前我做得不错?我并不认为这是因为我比其他人更聪明或更有经验,而是因为我的竞争优势在于我愿意坐下来彻底地调试并完全理解代码。我愿意熬夜完成工作,不管这需要多长时间。这都是我自愿的,我不怕任何从零打造的项目,因为我知道面对任何事,我都能行。

Jason Wei 这段话底下的画风就不一样了,引发了很多网友共鸣,「这才是制胜之道」。

「我认识的很多成功工程师背后都有相似的故事,不盲目地完成手头的项目,而是愿意花费大量时间钻研。

这很难不让人联想到 Jason Wei 爆出的在 OpenAI 「996」的作息表。在 OpenAI 的一天从 9:45 开始,一口气都不停歇地工作 12 个小时,直到凌晨一点。

虽然这个工作强度让很多外国网友直呼:「好可怕,你睡觉的时间都从哪里挤出来的?

最可怕的是,这些被 OpenAI 精挑细选出来的「天才」,都是自愿地加班加点。但这可能是斯密特在斯坦福演讲中说的:「创业公司之所以能成功,是因为那里的人们工作非常努力。」一个生动的注脚。

不论如何,事情闹得实在太大了。埃里克・施密特最近撤回了这段发言。「关于谷歌和他们对工作时间的安排,我说错了,」本周三,施密特在发给《华尔街日报》的一封邮件中表示:「我对我的错误表示遗憾。」

在演讲结束后,斯坦福大学的 Stanford Online 账号在 YouTube 上发布了这段视频。截至周三下午,视频的观看量超过 4 万次,现在视频也被下架了,仅视频作者才能观看。

其实在视频的大部分时间里,施密特都在讨论大模型技术的未来。他认为到明年 AI 模型将统一三大关键支柱:超长上下文窗口、智能体和文本到动作,我们无法预测它会产生哪些影响,但很快每个人都会有很多智能体可供指挥。

谷歌和 OpenAI 自疫情以来都实施了类似的返岗政策。不过自 2022 年起,两家公司都要求员工每周至少有三天到办公室工作。同时,谷歌也强调了混合工作制的好处。谷歌表示,它会联系那些没有每周出现少于三天的员工,提醒他们需要来线下面对面工作。

在施密特之外,还有一长串的知名企业家并不喜欢在家办公政策。这其中包括摩根大通 CEO 杰米・戴蒙(Jamie Dimon)和特斯拉 CEO 埃隆・马斯克,他们都对在家办工的政策提出了批评,认为这会使公司效率降低、竞争力下降。戴蒙在几年前曾表示:「高层人员不能仅靠坐在桌子或在屏幕后面前领导公司,」马斯克也曾表示:「员工每周至少需要在办公室工作 40 小时。」

「灵活的工作安排并不会拖慢我们的工作进度」,Alphabet 工会对此表示。「真正阻碍谷歌员工每天工作效率的是:人员不足、优先事项的不断变化、频繁的裁员、工资停滞不前以及管理层在项目跟进上的不足。」

根据年报,截至去年年底,Alphabet(谷歌母公司)旗下的员工数量约为 18.2 万名。而在让员工重返办公室方面,公司也遇到了挑战,例如一些员工会说自己通勤太远,或者家中有老人孩子需要照顾。在某些情况下,员工会对返回办公室的强制要求提出反对。

埃里克・施密特是谷歌创始「三巨头」之一,另外两人是拉里・佩奇和谢尔盖・布林。

施密特曾在 2001 年至 2011 年担任谷歌 CEO。他在 2018 年卸任执行董事长,并在 2019 年离开了 Alphabet 董事会,但他目前仍是 Alphabet 的股东。

他与妻子共同创立了慈善投资机构 Schmidt Futures,资助科学和技术研究。他还是美国非营利组织 Special Competitive Studies Project 的主席,专注于支持人工智能等技术发展。

自从 OpenAI 在 2022 年底推出 ChatGPT 以来,谷歌一直在 AI 领域防守。在今年早些时候,谷歌发布的 Gemini 可谓「闯了不少大祸」,不仅生成的人像图片存在种族偏见,还建议每个人一天吃一块石头、用胶水来黏合披萨上的芝士,挨了不少批评。

虽然谷歌已经在昨天发布了加强版的 Gemini,还推出了对标 GPT-4o 的语音助手 Gemini Live,但在演示环节,Gemini Live 还是小小「翻车」了一下,前两次试用拍照识图功能都失败了,直到第三次换手机才成功。

这已不是谷歌第一次在大模型演示环节掉链子了,2023 年 12 月 Gemini 首次登场时,展示 Gemini 原生多模态能力的演示视频经过剪辑。

工作人员首先给 Gemini 陆续展示三张单个手势的图片,问它分别看到了什么,再把三张手势图片一起发给 Gemini,问它这是在干什么,并提示是一个「游戏」。通过以上一步步的提示和引导,Gemini 最终给出了答案:你在玩「石头、剪刀、布」。

在被质疑后,谷歌承认了 demo 造假。

最近科技领域的快速发展,着实让谷歌的这几位创始人着急。去年有消息称,隐退多年的谢尔盖・布林已经回到一线开始亲手写代码。施密特在斯坦福大学的呼吁,也有点恨铁不成钢的感觉。不过可以肯定的是,谷歌正在从内到外,逐渐寻求掌握主动权。

已经火热的大模型竞争,还会更激烈吗?

参考内容:



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

「每周只上一天班」谷歌散漫制度遭前CEO怒斥:输给OpenAI,再下去要输创业公司了

「谷歌决定拥抱生活与工作平衡:更早下班、远程工作,胜过在竞争中取胜。」施密特说道。


「而说到初创公司,他们之所以能成功,是因为人们在拼命地工作。」

在本周三公布的一份斯坦福大学公开课视频中,谷歌前 CEO 埃里克・施密特(Eric Schmidt)在被问到谷歌为什么落后于 OpenAI 时,终于开炮了。

「很抱歉我这么直白,但重要的是:如果你们都离开大学去创办公司,你肯定不会让自己的员工在家办公,如果你愿意的话。」

这番言论很快引发了轩然大波。

输出了大量前沿 AI 技术的谷歌,一直被认为是人工智能领域的「黄埔军校」。如今绝大多数生成式 AI 模型的基础架构 Transformer 来自谷歌 2017 年的著名论文。而更早一波让全世界认识 AI 的深度学习浪潮,也是在 2012 年前后由谷歌大脑「AI 识别猫」研究后逐渐开始的。

然而在 ChatGPT 改变整个科技领域的浪潮里,谷歌的地位却显得有点尴尬。最近一年多,我们似乎习惯了这家科技巨头作为「追赶者」出现。

AI 大模型是科技领域前所未有的机会,而机遇当前,谷歌的策略一直是跟随和对标。人们正在批评谷歌的方向、人才与制度,甚至进取心。这也就怪不得在斯坦福大学 CS 323 的一堂公开课上,大学教授会向施密特抛出这样的问题了。

「每周只需要来办公室一天」是谷歌逐渐落后的最大原因吗?

有网友评论道:如果你只想要个工作,在家办公就好了。但如果你追求一份事业,请现场办公。

也有人表示反对:人来了不等同于在工作。最近几年大家的经历证明,任何专注的人都可以在任何地方工作,并且效率提高 200%。

还有很多网友对此持吃瓜的态度。有人揶揄道:我还以为他们每周一天(去办公室)的时间都没有呢。

也有人想爆料:我认识个哥们在谷歌是顶尖程序员。不过他现在身兼三职,还都是全职,每天只花两个小时处理谷歌的工作。

与此形成鲜明对比的是 OpenAI 的「卷」。

思维链作者,在 OpenAI 任职的 Jason Wei 几乎在同时引用了一位年轻的 OpenAI 工程师的言论:「为什么目前我做得不错?我并不认为这是因为我比其他人更聪明或更有经验,而是因为我的竞争优势在于我愿意坐下来彻底地调试并完全理解代码。我愿意熬夜完成工作,不管这需要多长时间。这都是我自愿的,我不怕任何从零打造的项目,因为我知道面对任何事,我都能行。

Jason Wei 这段话底下的画风就不一样了,引发了很多网友共鸣,「这才是制胜之道」。

「我认识的很多成功工程师背后都有相似的故事,不盲目地完成手头的项目,而是愿意花费大量时间钻研。」

这很难不让人联想到 Jason Wei 爆出的在 OpenAI 「996」的作息表。在 OpenAI 的一天从 9:45 开始,一口气都不停歇地工作 12 个小时,直到凌晨一点。

虽然这个工作强度让很多外国网友直呼:「好可怕,你睡觉的时间都从哪里挤出来的?」。

最可怕的是,这些被 OpenAI 精挑细选出来的「天才」,都是自愿地加班加点。但这可能是斯密特在斯坦福演讲中说的:「创业公司之所以能成功,是因为那里的人们工作非常努力。」一个生动的注脚。

不论如何,事情闹得实在太大了。埃里克・施密特最近撤回了这段发言。「关于谷歌和他们对工作时间的安排,我说错了,」本周三,施密特在发给《华尔街日报》的一封邮件中表示:「我对我的错误表示遗憾。」

在演讲结束后,斯坦福大学的 Stanford Online 账号在 YouTube 上发布了这段视频。截至周三下午,视频的观看量超过 4 万次,现在视频也被下架了,仅视频作者才能观看。

其实在视频的大部分时间里,施密特都在讨论大模型技术的未来。他认为到明年 AI 模型将统一三大关键支柱:超长上下文窗口、智能体和文本到动作,我们无法预测它会产生哪些影响,但很快每个人都会有很多智能体可供指挥。

谷歌和 OpenAI 自疫情以来都实施了类似的返岗政策。不过自 2022 年起,两家公司都要求员工每周至少有三天到办公室工作。同时,谷歌也强调了混合工作制的好处。谷歌表示,它会联系那些没有每周出现少于三天的员工,提醒他们需要来线下面对面工作。

在施密特之外,还有一长串的知名企业家并不喜欢在家办公政策。这其中包括摩根大通 CEO 杰米・戴蒙(Jamie Dimon)和特斯拉 CEO 埃隆・马斯克,他们都对在家办工的政策提出了批评,认为这会使公司效率降低、竞争力下降。戴蒙在几年前曾表示:「高层人员不能仅靠坐在桌子或在屏幕后面前领导公司,」马斯克也曾表示:「员工每周至少需要在办公室工作 40 小时」。

「灵活的工作安排并不会拖慢我们的工作进度」,Alphabet 工人工会对此表示。「真正阻碍谷歌员工每天工作效率的是:人员不足、优先事项的不断变化、频繁的裁员、工资停滞不前以及管理层在项目跟进上的不足。」

根据年报,截至去年年底,Alphabet(谷歌母公司)旗下的员工数量约为 18.2 万名。而在让员工重返办公室方面,公司也遇到了挑战,例如一些员工会说自己通勤太远,或者家中有老人孩子需要照顾。在某些情况下,员工会对返回办公室的强制要求提出反对。

埃里克・施密特是谷歌创始「三巨头」之一,另外两人是拉里・佩奇和谢尔盖・布林。

施密特曾在 2001 年至 2011 年担任谷歌 CEO。他在 2018 年卸任执行董事长,并在 2019 年离开了 Alphabet 董事会,但他目前仍是 Alphabet 的股东。

他与妻子共同创立了慈善投资机构 Schmidt Futures,资助科学和技术研究。他还是美国非营利组织 Special Competitive Studies Project 的主席,专注于支持人工智能等技术发展。

自从 OpenAI 在 2022 年底推出 ChatGPT 以来,谷歌一直在 AI 领域防守。在今年早些时候,谷歌发布的 Gemini 可谓「闯了不少大祸」,不仅生成的人像图片存在种族偏见,还建议每个人一天吃一块石头、用胶水来黏合披萨上的芝士,挨了不少批评。

虽然谷歌已经在昨天发布了加强版的 Gemini,还推出了对标 GPT-4o 的语音助手 Gemini Live,但在演示环节,Gemini Live 还是小小「翻车」了一下,前两次试用拍照识图功能都失败了,直到第三次换手机才成功。

这已不是谷歌第一次在大模型演示环节掉链子了,2023 年 12 月 Gemini 首次登场时,展示 Gemini 原生多模态能力的演示视频经过剪辑。在下面这段视频中,Gemini 似乎可以实时根据手势判断出这是在玩「石头、剪刀、布」,然而这段视频仅展示了结果,剪辑掉了引导 Gemini 判断的过程。

工作人员首先给 Gemini 陆续展示三张单个手势的图片,问它分别看到了什么,再把三张手势图片一起发给 Gemini,问它这是在干什么,并提示是一个「游戏」。通过以上一步步的提示和引导,Gemini 最终给出了答案:你在玩「石头、剪刀、布」。

在被质疑后,谷歌承认了 demo 造假。

最近科技领域的快速发展,着实让谷歌的这几位创始人着急。去年有消息称,隐退多年的谢尔盖・布林已经回到一线开始亲手写代码。施密特在斯坦福大学的呼吁,也有点恨铁不成钢的感觉。不过可以肯定的是,谷歌正在从内到外,逐渐寻求掌握主动权。

已经火热的大模型竞争,还会更激烈吗?


参考内容:
https://fortune.com/2024/08/14/google-eric-schmidt-working-from-home-ai-openai/
https://www.wsj.com/tech/ai/google-eric-schmidt-ai-remote-work-stanford-f92f4ca5
https://x.com/alexkehr/status/1823480786349383879
https://x.com/_jasonwei/status/1823067805748728051



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

1篇Outstanding、5篇Oral!字节跳动今年ACL这么猛? 来直播间聊聊!

本周学术界瞩目的焦点,无疑是在泰国曼谷举行的 ACL 2024 顶会。这场盛会吸引了全球众多杰出的研究者,大家汇聚一堂,共同探讨和分享最新学术成果。


官方公布的数据显示,本届 ACL 共收到近 5000 篇论文投稿,其中 940 篇被主会录用,168 篇工作入选大会口头报告(Oral),录取率低于 3.4%,这当中,字节跳动 共有 5 篇成果中选 Oral。

在 8 月 14 日下午的 Paper Awards 环节,字节跳动旗下成果《G-DIG: Towards Gradient-based DIverse and high-quality Instruction Data Selection for Machine Translation》被主办方官宣入选 Outstanding Paper(1/35)。

回溯 ACL 2021,字节跳动曾摘下唯一一篇最佳论文桂冠,是 ACL 成立 59 年以来,中国科学家团队第 2 次摘得最高奖项!

为深入探讨今年的前沿研究成果,我们特意邀请字节跳动论文的核心工作者解读分享。8 月 20 日下周二 19:00-21:00,「字节跳动 ACL 2024 前沿论文分享会」线上开播!

豆包大语言模型研究团队负责人王明轩,将携手字节跳动多位研究员黄志超、郑在翔、李朝伟、张欣勃、及 Outstanding Paper 神秘嘉宾,分享 ACL 部分精彩中选成果,研究方向涉及自然语言处理、语音处理、多模态学习、大模型推理等领域,欢迎预约!

活动议程

精选论文解读

RepCodec:一种用于语音离散化的语音表示编解码器

论文地址:https://arxiv.org/pdf/2309.00169

随着大型语言模型(LLMs)近期的快速发展,离散语音标记化在将语音注入 LLMs 中发挥重要作用。然而,这种离散化导致信息的丢失,从而损害整体性能。为提高这些离散语音标记的性能,我们提出了 RepCodec,这是一种用于语义语音离散化的新型语音表示编解码器。

与重建原始音频的音频编解码器不同,RepCodec 通过从诸如 HuBERT 或 data2vec 等语音编码器重建语音表示来学习 VQ 码本。语音编码器、编解码器编码器和VQ码本共同形成了一个将语音波形转换为语义标记的流程。大量实验表明,RepCodec 凭借其增强的信息保留能力,在语音理解和生成方面显著优于广泛使用的 k-means 聚类方法。此外,这种优势在各种语音编码器和语言中都存在,肯定了 RepCodec 的鲁棒性。该方法可以促进语音处理方面的大型语言模型研究。

DINOISER:通过噪声操纵增强的扩散条件序列生成模型

G-DIG:致力于基于梯度的机器翻译多样化和高质量指令数据选择

论文地址:https://arxiv.org/pdf/2405.12915

大型语言模型(LLMs)在一般场景中展现出了非凡的能力。指令微调使它们能够在各种任务中与人类保持一致。然而,指令数据的多样性和质量仍然是指令微调的两个主要挑战。对此,我们提出了一种新颖的基于梯度的方法,为机器翻译自动选择高质量和多样化的指令微调数据。我们的关键创新在于分析单个训练示例在训练过程中如何影响模型。

具体来说,我们借助影响函数和一个小型高质量种子数据集,选择对模型产生有益影响的训练示例作为高质量示例。此外,为了增强训练数据的多样性,我们通过对它们的梯度进行聚类和重新采样,最大程度地增加它们对模型影响的多样性。在 WMT22 和 FLORES 翻译任务上的大量实验证明了我们方法的优越性,深入的分析进一步验证了其有效性和通用性。

GroundingGPT:语言增强的多模态 Grounding 模型

ReFT:基于强化微调的推理

论文地址:https://arxiv.org/pdf/2401.08967

一种常见的增强大型语言模型(LLMs)推理能力的方法是使用思维链(CoT)标注数据进行有监督微调(SFT)。然而,这种方法并没有表现出足够强的泛化能力,因为训练仅依赖于给定的 CoT 数据。具体地,在数学问题的相关数据集中,训练数据中每个问题通常只有一条标注的推理路径。对于算法来说,如果能针对一个问题学习到多种标注的推理路径,会有更强的泛化能力。

为了解决这个挑战,以数学问题为例,我们提出了一种简单而有效的方法,称为强化微调(Reinforced Fine-Tuning,ReFT),以增强 LLMs 推理时的泛化能力。ReFT 首先使用 SFT 对模型进行预热,然后采用在线强化学习(在该工作中具体是 PPO 算法)进行优化,即对给定的问题自动采样大量的推理路径,根据真实答案获取奖励,以进一步微调模型。

在 GSM8K、MathQA 和 SVAMP 数据集上的大量实验表明,ReFT 显著优于 SFT,并且通过结合多数投票和重新排序等策略,可以进一步提升模型性能。值得注意的是,这里 ReFT 仅依赖与 SFT 相同的训练问题,而不依赖于额外或增强的训练问题。这表明 ReFT 具有优越的泛化能力。

期待你的互动提问

直播时间:2024 年 8 月 20 日(周二) 19:00-21:00

直播平台:微信视频号【豆包大模型团队】、小红书号【豆包研究员】

欢迎你填写问卷告诉我们,关于 ACL 2024 论文你感兴趣的问题,在线和多位研究员畅聊!

招聘信息

豆包大模型团队持续热招中,欢迎点击此链接,了解团队招聘相关信息。

---
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:[GPTNB](https://gptnb.com)。

Meta被指控的ACCC法庭案件揭示,Facebook上一半的加密货币广告是诈骗或违反Meta的政策

More than half of cryptocurrency-related ads on Facebook analysed by Australia’s consumer regulator were scams or violated Meta’s policies, a court has heard.The Australian Competition and Consumer Commission (ACCC) took Meta to court over celebrity scam ads in 2022, alleging the company had engaged in false, misleading or deceptive conduct in publishing the ads, and aiding and abetting the false conduct by the advertisers.

在澳大利亚的消费者监管机构分析的Facebook上的加密货币相关广告中,超过一半被认定为诈骗或违反Meta的政策,法庭听证会披露。


澳大利亚竞争与消费者委员会(ACCC)指控Meta在2022年因发布名人诈骗广告而被起诉,指称该公司涉嫌在发布广告时进行虚假、误导或欺骗性行为,并协助广告商进行虚假行为。

In a ruling issued last week, it was revealed the ACCC has alleged that since at least January 2018, “Meta has been aware that a significant proportion of cryptocurrency advertisements on the Facebook Platform have used misleading or deceptive promotional practices”.

在上周发布的裁决中,ACCC指称自2018年1月以来,“Meta已经意识到Facebook平台上的一大部分加密货币广告使用了误导性或欺騙性的促销手法”。

The court heard a preliminary analysis of cryptocurrency ads by the ACCC revealed that 58% of the ads and landing pages for those ads reviewed violated Meta’s “advertising policies or, potentially, involved scams”.

法庭听证会披露,ACCC对加密货币广告进行的初步分析显示,58%经过审查的广告和广告的落地页违反了Meta的“广告政策”,可能涉及诈骗。

Explore more on these topics
Meta
Scams
Cryptocurrencies
Facebook
Deepfake
Consumer affairs

Share
Reuse this content。

进一步了解这些主题
Meta
诈骗
加密货币
Facebook
深度伪造
消费者事务

分享
复用此内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

美国考虑在非法垄断裁决后拆分谷歌,据报道

一周前,一名法官裁定这家科技巨头非法垄断了在线搜索市场后,根据《纽约时报》和彭博新闻的报道,美国司法部正在考虑包括拆分价值约2万亿美元的Alphabet旗下的谷歌在内的多项选择。


报道称,司法部的律师们最常讨论的补救措施之一是剥离Android操作系统。官员们还在考虑尝试强制出售AdWords,谷歌的搜索广告计划,以及可能剥离其Chrome网络浏览器。

一名司法部发言人表示,正在评估法院的裁决,并将根据法院的指示和适用的反垄断补救法律框架评估适当的下一步措施。发言人表示,目前尚未做出任何决定。一名谷歌发言人拒绝置评。谷歌计划就这一裁决提起上诉。它还面临另一项由美国司法部提起的反垄断诉讼,该案定于下月开庭。

报道称,司法部的其他选择包括强制谷歌与竞争对手分享数据,并采取措施阻止其在人工智能产品方面获取不公平优势,这些报道援引了知情人士的话。在审判过程中,有人披露,仅在2021年,谷歌就向包括苹果在内的公司支付了超过260亿美元,以保持Safari中搜索的默认选项。法官发现,这些交易使谷歌建立了对搜索的垄断地位并不公平地压制了竞争。法官裁定后不久,竞争搜索引擎DuckDuckGo提议禁止这些独家协议。

上周发布的裁决认定,谷歌违反了反垄断法,花费数十亿美元创造了一个非法垄断,并成为了世界默认的搜索引擎。这一裁决被视为联邦当局首次取得针对大型科技公司市场主导地位的重大胜利。

跳过电子报推广

TechScape免费周报

Alex Hern每周深入探讨技术如何影响我们的生活

输入您的电子邮件地址 签署

隐私声明:新闻简报可能包含关于慈善事业、在线广告以及由外部赞助方资助的内容。有关更多信息,请查看我们的隐私政策。我们使用Google reCaptcha来保护我们的网站,适用Google的隐私政策和服务条款。

电子报推广后

在过去的四年里,联邦反垄断监管机构分别起诉了Meta平台、亚马逊和苹果,称这些公司非法维持了垄断地位。微软曾在2004年就在Windows用户上强行推广其Internet Explorer网络浏览器的指控与司法部达成和解。

探索更多关于这些主题的内容

谷歌

Alphabet

法律(美国)

新闻

分享

重用此内容



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Facebook上一半的加密货币广告是诈骗或违反Meta政策,消费者监管机构指控

More than half of cryptocurrency-related ads on Facebook analysed by Australia’s consumer regulator were scams or violated Meta’s policies, a court has heard.The Australian Competition and Consumer Commission (ACCC) took Meta to court over celebrity scam ads in 2022, alleging the company had engaged in false, misleading or deceptive conduct in publishing the ads, and aiding and abetting the false conduct by the advertisers.Scammer paid Facebook 7c per view to circulate video of deepfake Jim Chalmers and Gina RinehartRead moreIn a ruling issued last week, it was revealed the ACCC has alleged that since at least January 2018, “Meta has been aware that a significant proportion of cryptocurrency advertisements on the Facebook Platform have used misleading or deceptive promotional practices”.

在澳大利亚的消费者监管机构分析的Facebook上,一半以上与加密货币相关的广告均为诈骗或违反Meta的政策。


法庭听证会显示,澳大利亚竞争与消费者委员会(ACCC)在2022年就名人诈骗广告起诉Meta,指控该公司在发布广告中从事虚假、误导或欺诈行为,并在广告商的虚假行为中进行教唆。

Sign up for Guardian Australia’s free morning and afternoon email newsletters for your daily news roundup
The court heard a preliminary analysis of cryptocurrency ads by the ACCC revealed that 58% of the ads and landing pages for those ads reviewed violated Meta’s “advertising policies or, potentially, involved scams”.Celebrities falsely used in the ads to promote the scams include David Koch, Dick Smith, Mike Baird, Andrew Forrest, Waleed Aly, Celeste Barber, Chris Hemsworth, Justin Hemmes, Harry Triguboff, Travers Beynon, Karl Stefanovic, Mark Ferguson, Mel Gibson, Mike Amor, Nicole Kidman, Mike Cannon‑Brookes, Scott Pape, Eddie McGuire, Daniel Ricciardo, Chris Brown, Liam Hemsworth, Anthony Pratt, Frank Lowy, Russell Crowe and James Packer.The ACCC said it may find further names after the discovery process in the case. Initially it identified 600 ads as part of the claim but is now focused on 234 ads.The regulator has alleged that, while Meta stops the individual ads and pages once complaints are received, and sometimes bans all associated accounts, the company has continued to show and earn revenue from similar ads featuring the same celebrity or other public figures.Reality TV star Gamble Breaux knew she’d been hacked. Then the deepfakes of the prime minister began to appearRead moreMeta has failed to adopt reasonable safeguards to prevent or significantly reduce the prevalence of the ads, the ACCC alleges, and Meta “has had the technical ability, or could have developed technology – which could place a warning on advertisements to the effect that users should exercise care as advertisements on the Facebook Platform have falsely suggested that the public figure concerned endorses a money-making scheme or a Trading Scheme – but has not given such warnings.”A Meta spokesperson said scams are a complex threat that target, deceive and manipulate across industries.“Scammers use every platform available to them and constantly adapt to evade enforcement. Meta doesn’t want scams on its platforms and we will continue to work tirelessly to prevent them and protect our users.”In response to questions from members of parliament on the social media inquiry last month, Meta outlined that in addition to suspending and deleting accounts, pages and ads, it has also taken legal action against bad actors violating the company’s terms.It said between January 2023, and January 2024, it had taken action against hundreds of thousands of accounts targeting countries including Australia.“When a scam occurs, typically our services represent only one part of the attack chain, meaning we do not have visibility of the scam from end to end,” Meta said in a written response to MP questions.Meta announced in June that new advertisers on the platform may need to verify a phone number associated with their account before advertising.Of the 433 cases related to 10,294 ads between January 2023 and February 2024 that were reported to Meta through the ACCC’s scam reporting channel, all were reviewed and found to be violating and were taken down, the company said.Scamwatch reports that so far in 2024, there have been reported losses of over $13m as a result of investment scams promoted on social media, compared with $134m in reported losses to scams overall.A hearing date has yet to be set for the case.

目前,还没有这个案件的听证会日期确定。

Explore more on these topicsMetaScamsCryptocurrenciesFacebookDeepfakeConsumer affairsShareReuse this content。请先将这篇文章翻译为中文,并且按照如下Makedown格式标准输出。

Concerning the case, a hearing date has yet to be set.

进一步了解这些话题MetaScamsCryptocurrenciesFacebookDeepfakeConsumer affairsShareReuse this content.

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

电力线的曲线和意外诗歌

Re pylons (Letters, 12 August), 作为那些具有优美悬挂曲线的重要生命线的敬仰者,我经常想起威廉·惠维尔博士(1794-1866)在他的《力学初步论文》中的话:“因此,没有任何力量,无论多么强大,都无法将细绳牵伸成准确笔直的水平线:总会有向下弯曲的线。


”Ian Forman,North Yorkshire 的 Bishopthorpe

你们的报道(英格兰议会可能获得购买绿地的权力,但不要支付过高价格,8月12日)使我想起1998年约翰·普雷斯科特议员在一次采访中说的话:“绿地带是工党的成就 - 我们打算继续发展它。”Anne J Palmer,Hertfordshire 的 Shillington

在国际撇号日(8月15日),我将向我们当地的炸鱼薯条店致敬,那里的撇号是一个小鱼,还有镇上的一个面包店,它有一个小型发动机房撇号,庆祝雷德鲁斯的锡矿业历史(8月6日的信件)。Sally Smith,Cornwall 的 Redruth

大学校长并不会做出愚蠢的决定 - 那是一个名誉职位(8月13日的信件)。负责的是大学副校长,他们拥有完全独立的咨询委员会,告诉他们应该得到多少报酬。这个“副”是很重要的。Peter Brooker,London 的 West Wickham

阅读 Marina Hyde 关于马斯克和特朗普的文章时,我一直在笑,我想:是不是命名决定论可以解释他们为什么都很糟糕?Sally Goldsmith,Sheffield

你对《卫报》今天任何文章有意见吗?请给我们发电子邮件,您的来信将被考虑刊登在我们的信件版块中。

探索更多关于这些主题的内容
工程学
简短信件
物理学
能源
约翰·普雷斯科特
住房
语言
大学
信件
分享

重复使用此内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

输电线路的曲线和意外诗歌

在 pylons 问题中(来信,8月12日),作为这些重要生命线的崇拜者,我经常想起威廉·惠威尔博士(1794-1866年)在他的《力学初步论》中的话:“因此,任何强大的力量都无法将一根精细的绳子拉成准确笔直的水平线:它总是会向下弯曲。


”Ian Forman,北约克郡比舍普索尔思思丝·帕尔默上议员约翰·普雷斯科特(John Prescott)在1998年的一次采访中说道:“绿地带是工党的成就——我们打算继续建设。”安妮·J·帕尔默,赫特福德郡国际撇号日,8月15日,我将向我们当地的炸鱼薯条店致敬,这家店的撇号是一个小鱼,并且市镇中有一家面包店拥有小小的发动机房撇号,庆祝雷德鲁斯的锡矿业历史。萨利·史密斯,康沃尔雷吉茨大学校长们不会做愚蠢的决定——那是一个荣誉职位(来信,8月13日)。副校长们负有责任,他们有完全独立的咨询委员会告诉他们应该得到多高的薪水。“副”很重要。彼得·布鲁克,伦敦韦斯特·威克姆肖翁_delaydy海德在对马斯克和特朗普(Opinion,8月13日)的一篇文章中笑个不停,我想:主格决定论是否可以解释他们为何都如此臭?莎莉·戈德史密斯,谢菲尔德你对《卫报》今日所看内容有何看法?请给我们发电子邮件,您的来信有望发表在我们的来信版块。在这些话题上探索更多信息:工程学,简短来信,物理学,能源,约翰·普雷斯科特,住房,语言,大学,来信分享,再利用此内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

美国考虑在非法垄断裁决后拆分谷歌,报告称

一周前,一位法官裁定这家科技巨头非法垄断了在线搜索市场后,美国司法部据报道正在考虑包括拆分市值约2万亿美元的字母表旗下的谷歌在内的选项。


报道来自《纽约时报》和彭博新闻。

报道称,司法部律师经常讨论的解决方案之一是剥离安卓操作系统。官员们还在考虑试图强制可能出售谷歌的广告程序AdWords,以及可能分拆其Chrome网络浏览器。

一位司法部发言人表示,正在评估法院的裁决,并将根据法院的指示和适用的反垄断补救法律框架评估适当的下一步措施。发言人表示尚未做出决定。一名谷歌发言人拒绝置评。谷歌计划上诉这一裁决。该公司面临另一起即将进入审理程序的美国司法部反垄断诉讼。

报道称,司法部的其他选项包括强制谷歌与竞争对手共享数据,并实施措施防止其在人工智能产品中获得不公平优势,引述知情人士的话。

在审判期间,曝光了谷歌在2021年单单向包括苹果在内的公司支付了超过260亿美元,以保持在Safari中的搜索默认设置。法官发现,这些协议使谷歌构建了搜索的垄断地位,并不公平地打压了竞争。法官做出裁决后不久,竞争搜索引擎DuckDuckGo提议禁止这些独家协议。

上周下达的裁决认定,谷歌违反了反垄断法,耗费数十亿美元建立了一个非法的垄断并成为全球默认搜索引擎。这一裁决被视为联邦当局挑战大型科技公司市场主导地位的第一大胜利。

跳过电子报刊促销

注册TechScape
免费每周通讯

Alex Hern每周深入探讨技术如何影响我们的生活

输入您的电子邮件地址
注册
隐私声明:通讯可能包含有关慈善机构、在线广告和由外部机构资助的内容的信息。有关更多信息,请参阅我们的隐私政策。我们使用Google reCaptcha保护我们的网站,适用Google隐私政策和服务条款。

电子报刊促销之后
在过去的四年里,反垄断监管机构曾起诉过Meta Platforms、亚马逊和苹果,指控这些公司非法维持垄断地位。2004年,微软就曾与司法部就强制其Internet Explorer网络浏览器对Windows用户达成和解。

探索更多这些主题
谷歌
字母表
法律(美国)
新闻

分享
转载此内容。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB