GPTNB · AI资讯与技术分享站

2024-07-13发表2025-03-21更新 ByteAILab 15 分钟读完 (大约2274个字)

李开复曾提到过一个AI界流传的“骗子又来了曲线”。人会不断给机器进行“是否具有人类智能”的鉴定，而这个过程，总是从被人工智能在某些领域的惊艳表现震撼，到逐渐认识到当时的人工智能还有各种局限，以至于产生巨大心理落差。

近来，人形具身智能机器人在WAIC世界人工智能大会上密集亮相，我们在现场所感受到的就是“人类要毁灭了”与“骗子又来了”，两种声音同时存在的复杂现象。

具体来说，认为“人类要毁灭了”，大多是不明觉厉的普通观众，而冷静甚至不看好人形机器人的多为AI、机器人领域的业内人士。比如猎豹移动董事长兼CEO、猎户星空董事长傅盛就表示，“机器人在今年的展厅里是爆发了，但在日常生活当中，我们并没有看到它在哪个地方被大规模用起来。机器人行业的产业爆发还远远没有到来……对人形机器人的不看好一定会被时间证明”。这两种心态，究竟哪一种才代表人形机器人产业的真相呢？其实并没有什么真相。不同的心态，是由不同的判定标准而产生的。大众、从业者和技术专家，都有一张“我心中的人形机器人”打分表，评价尺度各不相同。而关于人形机器人的期待，在人形、大模型、具身三个标准上，大众的预期、媒体的宣传、产业的实际进展等都有比较大的分野。这构成了当前，人形机器人的理想与现实。“变形金刚”的理想与现实“他们怎么不动啊，不表演有什么必要插电源？”“插电亮着好看。”本届WAIC最吸睛的，就是中央展厅的“十八金刚”了。18个人形机器人同台而立，几乎每个参观者都聚集在展台前打卡拍照，在展台旁边，我听到了这段对话。大众理想中，人形机器人就是变形金刚、机甲战士那样，走路又稳又快，行动灵活，随意移动，无论是工厂上班、护理老人还是投递包裹，都手拿把掐。但产业现实中，WAIC上的人形机器人大多数时间都待在展台上，在特定时间表演一些拿苹果、端杯子之类的手部动作，特斯拉的机器人甚至始终待在玻璃展柜中一动不动。和全场溜达的机器狗相比，人形机器人显得“内向”很多。由此可见，到底需不需要“双足行走”，成了目前公众和从业者对人形机器人，最大的认知差异。总的来说，双足人形机器人是“机器人的皇冠”，是终极方向，才是大众期待的“变形金刚”。但至少要走过三步：双足行走、执行复杂任务、规模商用。而目前，仅仅是第一步“双足行走”，在技术和商业上都并不是最佳状态。一方面，稳定的行走，需要系统拥有极高的鲁棒性。机器人在面临各种异常情况和输入时，仍然能快速通过运动控制模块调整姿态，保持正常运行。要提升系统的鲁棒性（或者说稳健性），依赖于机器人与人类、物理世界的真实交互，来积累高质量数据。如果遇到训练环境中没有出现过的问题，机器人就可能出现异常或“死机”，系统研发效率是比较低的。另外，商业上“双足行走”也并不是刚需。比如特斯拉、Figure等都宣布要让人形机器人“进厂打工”，从事电池分拣等工作。但实际上，制造环节80%以上生产作业动作，其实很少用到下肢，用到躯干，主要是靠手来完成的。这种上肢为主的简单系统，可以减少控制难度，降低投入成本，并且更容易规模化量产，因为只需要将最重要的一部分功能（手部）进行复制。一旦加上四肢、躯干，控制难度、续航、成本都会大幅提升。所以，目前能够规模化应用的机器人形态，都是以机器狗、机械手等单一、极简形态。满足大众期待的“变形金刚”，要在迈过很多步之后，才能带来极大产业效应。几年之内，我们应该都会更常在展台和展柜中看见人形机器人，而非零距离互动。“大模型”的理想与现实“现场机器人好多，我都感觉主题有点跑偏了”，一位计算领域的从业者对我说道。智能机器人在人工智能大会上遍地开花，根本逻辑是——大模型为具身智能开启了新的解决方案的大门。传统的人工智能系统，受限于缺乏先验知识，理解力与泛化能力捉襟见肘，导致机器人难以像人类一样拥有基本的常识判断能力，这严重制约了高级别具身智能的发展。机器人执行任务时，往往需要人类工程师将复杂指令拆解为一系列简化的、程序化的步骤，再由机器人（如机械臂）逐一执行。显然，这种“智能水平”并不算很高，还需要人来做大量的代码和开发工作。理想中，大模型会为人形机器人的“智能水平”，带来颠覆性的变革。大模型相较于传统机器学习方法，拥有更加强大的泛化能力，可以为人形机器人的大量任务，比如复杂任务解析、流畅连续对话、零样本推理等，提供全新的解决方案。举个例子，告诉人形机器人“我饿了”，它会自动分析这句话背后的需求，并拆解为可执行的具体动作，通过观察物理环境，从冰箱里拿出一个苹果给你吃，不需要人来拆分指令。但现实中，大模型给人形机器人带来的变革，仍然停留在初级的“自然语言交互”。目前绝大多数人形机器人，更多是拥有了类ChatGPT的“嘴”。这种结合，虽然能提供更自然生动的交互体验，但只是将现有的语音交互进行了升级，并非“端到端”任务执行能力的颠覆式突破。无需人工参与的高度自动化，为什么有了大模型也没能快速实现呢？究其根本，机器人是一个非常复杂的学科，涉及精密机械、自动控制、电气电子、计算科学，最后呈现出一个非常复杂智能机电一体化系统。从有监督机器学习到大语言模型，是计算领域的技术突破，可以在交互、规划、决策等环节发挥作用。然而，从机械化到高度自动化，人形机器人的再进化，还需要感知技术、驱动与传动技术、万兆网络等的技术和资源支持。“国产机器人崛起”的理想与现实“美国公司负责忽悠概念，中国公司负责让机器人落地、商用，把价格打下来，让人人实现机器人自由。”此次WAIC大会，国产人形机器人的表现确实要比海外公司亮眼很多。无论是特…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-13发表2025-03-21更新 ByteAILab 4 分钟读完 (大约542个字)

根据 The Information 最新报道，英伟达竞敌 Groq 预计将在未来两周内完成由贝莱德领投的 3 亿美元融资，估值达到 22 亿美元。相较于 2021 年，由 Tiger Global Management 和 D1 Capital 领投的 11 亿美元估值翻了一倍。

Groq 创始人是谷歌专用芯片 NPU 发明者之一 Jonathan Ross。今年 2 月，Groq 发布了演示视频，展示了其 AI 芯片如何在几分之一秒内运行 LLM。此后，Groq 受到了大量开发者的关注。对于那些难以找到并负担得起 Nvidia 昂贵 GPU 的 AI 开发者来说，这种速度尤其有吸引力。据悉，Groq 的芯片速度如此之快，是因为它们专门针对 LLM 底层架构而设计。然而，速度和灵活性之间存在权衡。例如，Nvidia 芯片如此受欢迎的一个原因是，它们可以更轻松地用于不同类型的 AI 模型。此外，Nvidia 另一个优势在于其广受欢迎的 Cuda 软件，开发人员对该软件更为熟悉，并且仅适用于 Nvidia 芯片。今年 4 月，CEO Ross 表示，Groq 不再试图直接向客户销售硬件，而是转向向开发者提供云计算服务。这是因为客户自己购买和设置 Groq 的芯片成本太高，风险太大。此外，Groq 还面临着来自其他众多开发运行 LLM 芯片的初创公司的激烈竞争，例如 Etched 和 Taalas。

7 月 10 日，硅谷知名投资机构 Index 宣布推出 23 亿美元（人民币约 165 亿）新基金，包括规模 8 亿美元的第 12 期基金和 15 亿美元的第 7 期基金。1996年，Index 成立，总部设在旧金山和伦敦，并在纽约、柏林和特拉维夫设有办公室。作为一只全球化基金，…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-13发表2025-03-21更新 ByteAILab 11 分钟读完 (大约1645个字)

北京算力巨头，掏150亿收购

文章来源：21世纪商业评论

作者 | 何己派
编辑 | 鄢子为

一笔150亿的重磅交易，又有风吹草动。
6月28日，紫光股份连发多条公告，披露收购进度。

其中，对深交所问询函的回复公告，篇幅长达37页，对交易定价合理性、资金筹措、偿债能力等，做了详细解读。
1个多月前，该公司表示，将斥资21.43亿美元现金，约合人民币151.8亿元，收购新华三30%股权。

交易所涉三方，紫光股份、新华三以及HPE，皆是巨头。
紫光股份总部位于北京，市值超600亿元；HPE是美国知名IT厂商；新华三为国内ICT龙头。
这场并购大戏引人瞩目。
按计划，股份交割将于8月底前完成，最多宽限至10月21日。
收购只差临门一脚。

01. 一波三折

百亿级的“科技豪门”交易，一路变数频生。
早在2016年，紫光股份就从惠普手里，接下新华三51%股权，成为其控股股东。这为后续收购埋下伏笔。最早，公司计划的是定增与收购同步，由全资子公司紫光国际，向新华三股东HPE实体合计支付35亿美元，拿下49%股权。

按当时汇率，这笔交易得耗资247亿元人民币，资金压力不小，好处是能一步到位，将整个新华三收入囊中，使其成为全资子公司。
于是，紫光股份发起定增，拟募资不超过120亿元，全部用于支付收购款。
4个月后，其突然宣布，收购暂缓，定增先行。
对叫停原因，紫光股份称，本次交易交割的先决条件之一，就是需获得证监会定增注册。
公司考虑，先终止重大资产重组相关事项，待完成向特定对象发行股票后，再推进。之后，定增迟迟未获批。紫光换打法，放弃定增，下调收购比例，从49%降至30%，每股价格不变，为735.99美元/股。定增终止，紫光股份将通过支付现金，完成收购，增厚利润的同时，也不会引起股权稀释。

02. 筹措资金

一口气拿出来150多亿元现金，紫光股份得“精打细算”。
在问询函的回复公告里，公司就如何筹措资金，进行了补充说明。按规划，其中的65亿元，用的是紫光国际自有资金。截至6月20日，作为交易收购主体的紫光国际，单体层面货币资金余额为67.45亿元。也就是说，拿出来65亿，几乎掏空了腰包。剩余资金，紫光国际则会从银行贷款。截至目前，已有4家银行出具贷款意向函并完成审批，还有多家银行在持续沟通，后续会通过组建银团的方式，完成最终放款。

紫光股份表示，公司拟向银行申请不超过100亿元人民币贷款，本次交易涉及的金额大，若未能筹措到足额资金，可能导致交易失败。
截至去年末，公司可自由支配的货币资金，约148.5亿元。
按此测算，未来三年，上市公司合并报表层面，存在18.59亿元的资金缺口。

对此，紫光股份强调，鉴于盈利状况较好，预期相关收益留存，可以完全覆盖资金缺口。这笔世纪大交易带来的债务压力，也不可忽视。

截至2023年末，其资产负债率为54.11%，交易完成后，猛升至83.16%。
至于后续的还款安排，紫光股份提到，依托新华三的分红，偿还银行贷款，其他子公司的盈利，也是重要补充。
此外，其还考虑进行多元股权融资，降低资产负债率。

03. 重要筹码

交易状况百出，紫光股份却坚定推进，想把“下金蛋的老母鸡”，牢牢握在手里。
新华三净利润稳定保持在30亿以上，撑起了紫光股份的半壁江山，一年能贡献总收入近七成。

去年，紫光股份实现归母净利润21亿元，离不开新华三的输血。
盘点其手头核心子公司，紫光数码、紫光软件去年的净利润，均不到3亿，较新华三差得远，紫光云则未摆脱亏损。

此次交易拿下30%的股权，紫光股份盈利能力增强。
该公司未对新华三设置业绩承诺，但对其寄予厚望。
据预测，2024年-2030年，新华三累计净利润，可达到约410.66亿元。
现实的压力，摆在面前。
新华三的业绩增长放缓，去年收入增速仅4.4%，净利润同比下降2.5%。
去年11月，新华三总裁兼CEO于英涛发内部信，包括他本人在内，中高层干部及高级别员工，主动降薪10%-20%，执行期为一年。

持续降本增效，提振效果显现。一季度，新华三的收入增速回归两位数轨道，达到14%，净利润同比增长8%。
当下，公司脚步向外，正加快打造海外市场为收入增长的第二曲线。
4月的投资者交流会上，以于英涛为代表的管理层提到，去年H3C品牌产品及服务的海外收入达到14.1亿元，同比增长62%。
于英涛一直有跨入“千亿级俱乐部”的梦想。公司提出，到2025年，要实现1000亿营收的目标。
志存千里，待重组完成，紫光及新华三，肩上的担子仍不轻。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-13发表2025-03-21更新 ByteAILab 5 分钟读完 (大约762个字)

落幕再谈，「WAIC 2024」的一些细节与预判

在这次的世界人工智能大会上，百度CEO李彦宏提到的一句话吸引了很多关注。他说，没有应用，光有基础模型，不管是开源还是闭源都一文不值。

「大家不要去卷模型了，要去卷应用」。这句话虽然有些极端，但是在当下的阶段有几分代表性。正如这句话所表达的，如果说去年的WAIC上，各家厂商还在展示自己的大模型本身实力，今年的WAIC的主要观赏点则已经集中在应用上。一众AI厂商从去年的「占位」秀，来到了新阶段。应用成为新赛点。大模型厂商应用大规模试错。技术本身是抽象的，但应用却是具象的。在今年的WAIC现场，凝聚在观众心中的共识，从往年的对前沿科技的好奇，变成了「看看AI到底能做什么事」的好奇。这一点体现在观众人数创新高上。据官方数据，截至7月6日下午2时，大会线下参观人数突破30万人次，同比上届增长90%，创历史新高。从实际的参展体验上看也是，入馆排队时间创下新高，馆区开始实行限流，直到WAIC结束前的最后一天下午，还有人在社交平台上询问哪里可以买到新放出来的WAIC会场门票。在参展参会过程中，许多论坛都呈现观众爆满状态，会议室门外树立着「本场观众已满」的标志。
…
写在最后
年复一年，一些公司消失在了WAIC会场，一些公司一步步从边缘的小展台逐渐走向了中央。在2024年的WAIC会场，往日的「AI四小龙」只有商汤科技仍在，但更多的具身智能机器人公司、更多的大模型厂商开始出现。作为中国人工智能界最大的盛会，每一届WAIC都是AI公司新的比武场，也在无形中记录着中国AI行业的发展变迁。当下，即使留给AGI的命题仍然有很多，除了接下来最值得关注的具身机器人的进展、大模型商业化落地究竟会带来怎样的变局两个问题，在这届WAIC上，端侧AI、AI安全治理等方面的议程开始逐渐浮出水面。2024WAIC已然落幕，AI厂商们也重新鸣枪起跑，我们期望在明年，更多的好奇心和热情仍然凝聚在这里。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-13发表2025-03-21更新 ByteAILab 17 分钟读完 (大约2512个字)

18个月326项能力，这家大厂猛猛上新生成式AI，如今纯靠Prompt就搞定企业级应用了

构建生成式 AI 应用，现在只需要几分钟。
「生成式 AI 的半衰期只有六个月，」亚马逊云科技全球 AI 产品副总裁 Matt Wood 说道。

2024 开启下半年，人们发现，生成式技术和落地之间的距离，已经不能用「远」或「近」完全概括。
狂热的百模大战之后，即使生成式 AI 技术展现出了前所未有的能力，为何一部分企业还没有投身到新技术的变革之中？技术门槛和高昂的研发投入、应用成本是它们保持谨慎态度的主要影响因素。
今天凌晨，亚马逊云科技给全世界带来了解决方案。一系列生成式 AI 技术的重磅发布，将全球最先进的大模型技术与千万企业用户的需求巧妙连接了起来。
从 2023 年到现在，不到两年的时间里，亚马逊云科技已经发布了多达 326 个生成式 AI 功能。横向对比一下，过去十八个月，亚马逊云科技正式发布的机器学习和生成式 AI 功能的数量是其他主要供应商总和的两倍多，用一骑绝尘来形容也不为过。
在这其中，既有顶尖创业公司的基础模型，也有能给非技术人员带来大模型开发能力的实用工具。每款都是生成式 AI 落地应用中的神器。而且，这些模型和能力的数字还在不断增加。
现在，很多复杂的企业级工作，仅用一段 Prompt，AI 就能自己完成了。
没错，这家长期以来为无数企业提供数字基础设施的公司，让生成式 AI 技术的应用门槛一降再降。企业用户需要花在「学习使用大模型」上的时间，也越来越少了。
在这场亚马逊云科技纽约峰会上，从基础设施层的 GPU 算力、基础模型的工具层再到应用层，亚马逊云科技的三层生成式 AI 技术栈迎来了一次焕新升级。
大模型微调实现深层定制
Amazon Bedrock 全面升级
一直以来，为了实现基础模型与企业用户需求的「双向奔赴」，亚马逊云科技通过基础模型平台 Amazon Bedrock 不断地「做加法」，在模型能力、安全隐私、负责任的 AI 等方面向企业用户靠拢。
迄今，Amazon Bedrock 支持的基础模型数量已有 33 个，分别出自 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 、Mistral AI 等全球顶级大模型厂商以及亚马逊自己。鉴于 Amazon Bedrock 允许企业用户通过微调来定制模型，强大的基础模型有了自定义的加持，更能实现与企业用户需求的紧密结合。
在今天这场年度峰会上，亚马逊云科技宣布了最新成果：「Claude 3 Haiku 微调」发布了预览版。作为 Claude 3 系列模型中的「小杯」，Claude 3 Haiku 的速度最快、最紧凑，而 Amazon Bedrock 是第一个能让用户对 Claude 3 Haiku 模型进行微调的完全托管服务。
纵观当前的大模型赛道，Claude 系列是对 OpenAI 旗下大模型追得最紧的竞争对手。基于亚马逊云科技与 Anthropic 的深度合作关系，企业用户们可以期待在 Amazon Bedrock 上与更强大的 Claude 模型很快见面。
微调让大模型更加灵活，而检索增强生成（RAG）则能进一步使模型专业化和个性化。利用 RAG，企业用户能够使用未见过的数据对模型进行专业化和个性化设置，这些数据可以是机密信息、最新数据、模型训练后生成的信息以及天气等实时数据。
这时，提升将这些数据引入模型的能力变得至关重要。在这方面，亚马逊云科技的利器是 Amazon Bedrock 上的知识库（Knowledge bases）。
过去数月，亚马逊云科技持续向知识库加入嵌入模型、向量存储和基础模型。现在，知识库有了 Expanded Data Connectors（预览版）。除了 Amazon S3 对象存储服务之外，企业用户可以将自定义 web 域、Confluence、SharePoint、Salesforce 等作为数据源连接到 RAG 应用，从而可以提供更相关、更准确、更定制的响应。
大模型除了好用、个性化，另一个人们关注的热点话题是「安全」。Amazon Bedrock 平台上的「Guardrails」正是为解决这一需求而设的。亚马逊云科技全球 AI 产品副总裁 Matt Wood 表示，Guardrails for Amazon Bedrock 可以阻止高达 85% 的有害内容。
如今，Guardrails for Amazon Bedrock 又迎来了两项更新。
一个是「上下文基础检查」（Contextual Grounding Checks），它根据参考源和用户查询来检测模型响应中的幻觉，最高可以过滤掉 75% 的 RAG 幻觉响应和摘要工作负载。
另一个是「Guardrails API」，企业用户可以在任何基础模型中使用 Guardrails，即使是 Amazon Bedrock 不支持的模型。这也意味着企业用户还可以利用该 API 在生成式 AI 应用的不同阶段独立评估用户输入和模型响应，为应用开发提供更强的灵活性。
最后还有智能体，Agents for Amazon Bedrock 能力也是本场峰会的焦点，它是生成式 AI 应用跨不同系统和数据源运行多步骤任务的关键。
数月来，亚马逊云科技都在对 Agent 的创建和配置进行简化，Agents for Amazon Bedrock 预览版这次引入了两个全新的功能。
第一个新功能是「Memory retention for Agents」，可以在多次交互中保留记忆。有了该功能， Agent 现在可以保留与每个用户的对话摘要，并提供流畅、自适应的体验。以后，对于预定航班或处理保险索赔这类复杂的多步骤任务，可以自动化高效地处理了。
第二个新功能是「Code interpretation for Agents」，它允许 Agent 在安全的沙盒环境中动态生成并运行代码片段，高效地解决数据分析、数据可视化、文本处理、求解方程等复杂用例。同时为了使客户使用起来更轻松，现在还可以直接将文档上传给 Agent 了。
一番新功能看下来，Amazon Bedrock 已经构筑起了从基础模型、自定义、检索增强、智能体，到安全防护于一体的完整服务体系，为接下来更深入的应用落地打好了基础。
生成式AI助手 Amazon Q 初体验
冲刺生成式 AI 落地赛道
还得看亚马逊云科技
不到两年时间，人工智能技术的进展颠覆了全世界的认知。
最近一段时间，大模型领域热度不减，不过人们谈论它的话题已经逐渐从模型技术，转向了解决方案。
这并不是一件比新技术突破更容易的事。要想实现新技术的大规模落地，人们面临着一系列新的挑战 —— 不仅需要大模型服务背后的 AI 算法能力必须优秀，而且还是一场从算力到数据，框架到模型，开发到部署的全流程技术体系的考验。
这份略显「沉重」的压力，最终还是被亚马逊云科技扛住了。
从 AI 基础设施的角度看，如果说生成式 AI 时代，英伟达是卖铲子公司里最火的，亚马逊云科技就是使用英伟达芯片的基础设施里面效率最高的，高效率的应用为更多企业引入新技术打开了大门。
从模型部署和应用开发的角度来看，能够让企业用户感觉「面面俱到」的选择其实并不多。亚马逊云科技提供的生成式 AI 体系因为拥有广泛的部署实践和成熟的生态，一直排名前列。有 Amazon Bedrock 的 30 多个顶尖大模型，企业用户能以极地的试错成本拓展业务赛道，有了 Amazon Q 这样的 AI 助手和 320 多项生成式 AI 能力的加持，企业的生产力提升显得「易如反掌」。
短短一年多时间，亚马逊云科技的三层技术栈已经「枝繁叶茂」。当然，这种从简单到复杂的迅速成长，与大模型在各行各业的落地经验反哺是分不开的。而在生成式 AI 技术栈持续迭代的基础上，先进 AI 技术的潜力会被充分挖掘，最终转化出的生产力，推动着各行各业向前走进价值增长的「快车道」。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-13发表2025-03-21更新 ByteAILab 17 分钟读完 (大约2614个字)

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

论老黄卖铲子的技术含量。

2019 年 2 月，OpenAI 发布了 GPT-2，因为在文本生成上的优异表现，以及对于预训练 Transformer 架构的充分运用，被认为是如今大预言模型的「始祖」。

五年后的今天，训练 GPT-2 这样 15 亿参数的大模型，只需要花费 672 美元，在一个 8XH100 的 GPU 节点上跑 24 个小时就可以搞定了。

本周四，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 在他纯 C 语言复现 GPT-2 大模型的项目「llm.c」的最新进展中分享了他的训练心得：

令人难以置信的是，由于计算硬件（英伟达 H100 GPU）、软件（CUDA、cuBLAS、cuDNN、FlashAttention 等）和数据质量（例如 FineWeb-Edu 数据集）的改进，过去 5 年间，大语言模型的训练成本大幅下降。Karpathy 表示，对于此次实践，算法遵循 GPT-2/3 论文基本保持原样不变。

当年 OpenAI 训练 GPT-2 花费了多少钱？这是个至今仍然未知的数字。Karpathy 粗略地估算认为是这回成本的 100 倍，大概要到 10 万美元的量级。

基本相同的任务，运行效率却有天壤之别，这体现了近几年来 AI 领域和算力基础设施的飞速发展。

由于 llm.c 是在 C/CUDA 中 GPT 训练的直接实现，因此要求其实很少 —— 不需要 conda 环境、Python 解释器、pip 安装等。如果你也要尝试，可以启动云 GPU 节点（例如在 Lambda 上），可选择安装 NVIDIA cuDNN、NCCL/MPI，下载 .bin 数据分片，编译并运行，几分钟后即可开始。

然后，你就可以等待 24 小时，然后欣赏通用大语言模型的能力了。

「对于 llm.c 项目来说，这是一个非常好的节点。因为整个项目都是从我考虑为教育视频重现 GPT-2 开始的。我遇到一些 PyTorch 的东西时卡住了，然后愤怒地退出，再用 C/CUDA 从头开始编写整个项目，」Karpathy 表示。「这让我踏上了比预想更长的旅程。但它非常有趣，我学到了更多的 CUDA，一路上结交了朋友，现在的 llm.c 真的很棒。它有大约 5000 行代码，编译和步骤非常快，几乎不需要等待。它具有恒定的内存占用，它以混合精度进行训练，使用 NNCL 分布在多节点上。它是按位确定性的，并且徘徊在 MFU 的 50% 左右。所以它很 ok。」

对于 llm.c 项目而言，越做似乎挖得坑越大。Andrej Karpathy 对目前的运行结果仍然不是 100% 满意 —— 他认为评估应该更好，训练应该更稳定，尤其是在较长时间运行的较大模型尺寸下。

他还预告了一些有趣的新方向：fp8（即将推出）、推理、微调、多模态（VQVAE 等）、更现代的架构（Llama/Gemma）。llm.c 的目标仍然是为功能齐全的 LLM 智能体提供简单、最小、干净的训练堆栈，直接使用 C/CUDA，并包含配套的教育材料，可以让许多初学者快速了解这个令人敬畏的领域。

说完了这么多，该看看 24 小时训练 GPT-2 的成果了：Karpathy 使用更长的 400B token GPT-2 运行（从 33B token 增加），效果良好，直到 330B（达到 61% HellaSwag，远高于这个大小的 GPT-2 和 GPT-3），然后在这个图之后不久爆炸了。目前作者还在继续进行研究。

GitHub 地址：https://github.com/karpathy/llm.c/discussions/677

训练。使用 llm.c 训练 GPT-2 非常简单，因为它是用 C/CUDA 编写的，因此不需要 minconda、Python、PyTorch 等。你只需一个 8XH100 GPU box，Karpathy 建议从 Lambda Labs 购买一个。

不过 llm.c 在计算上很灵活，如果你只有 1 个 GPU，仍然可以训得 GPT-2，这时你需要等待 8 天而不是 1 天。如果你有 16 个 GPU（例如使用新的 Lambda 1 Click Clusters），则能够训练多节点，这时只需等待 12 小时。启动节点后，以下是训练 GPT-2 的完整说明：

# install cudnn so we can use FlashAttention and run fast (optional)
# https://developer.nvidia.com/cudnn-downloads
# for me, CUDA 12 (run `nvcc --version`) running on Linux x86_64 Ubuntu 22.04
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install libcudnn9-dev-cuda-12
# "install" cudnn-frontend to ~/
git clone https://github.com/NVIDIA/cudnn-frontend.git
# install MPI (optional, if you intend to use multiple GPUs)
# (you might also have to install NVIDIA NCCL if it doesn't come with your setup)
sudo apt -y install openmpi-bin openmpi-doc libopenmpi-dev
# download and enter llm.c repo
git clone https://github.com/karpathy/llm.c.gitcd llm.c
# download the "starter pack" (~1GB download)
# contains GPT2-124M weights (used in tests), tokenizer, eval data .bin s
./dev/download_starter_pack.sh
# download the training dataset (FineWeb-Edu 100B token) .bin data shards
# note: this is a total of 1001 data shards. If you only want to test things
# out and don't want to do an actual run, feel free to append the number of
# training shards to download (e.g. for just 10 shards: ./edu_fineweb.sh 10)
# the full dataset is ~200GB, we can store it here in dev/data directory.
cd dev/data
./edu_fineweb.sh
# compile (~1 min 1st time for cuDNN mostly, few sec from then on)
cd ../../
make train_gpt2cu USE_CUDNN=1
# and train! (wait 24 hours here)
mpirun -np 8 ./train_gpt2cu \
    -i "dev/data/edu_fineweb100B/edu_fineweb_train_*.bin" \
    -j "dev/data/edu_fineweb100B/edu_fineweb_val_*.bin" \
    -o "log_gpt2_1558M" \
    -v 250 -s 300000 -g 384 \
    -h 1 \
    -b 16 -t 1024 \
    -d 1048576 \
    -r 0 \
    -z 1 \
    -c 0.1 \
    -k "cosine" \
    -l 0.0006 \
    -q 0.1 \
    -u 700 \
    -n 2000 \
    -x 32000 \
    -ge 1 \
    -y 1 \
    -e "d48"

开始优化：

num_parameters: 1557686400 => bytes: 3115372800
allocated 2971 MiB for model parameters
batch_size B=16 * seq_len T=1024 * num_processes=8 and total_batch_size=1048576
=> setting grad_accum_steps=8
created directory: log_gpt2_1558M
allocating 40409 MiB for activations
val loss 11.129390
allocating 2971 MiB for parameter gradients
allocating 742 MiB for AdamW optimizer state m
allocating 742 MiB for AdamW optimizer state v
allocating 742 MiB for master copy of params
step    1/32000 | loss 11.133732 (+nanz)| norm 52.9732 (+nanz)| lr 8.57e-07 | 3056.36 ms | 42.6% bf16 MFU | 343080 tok/s
step    2/32000 | loss 10.539388 (+nanz)| norm 43.5996 (+nanz)| lr 1.71e-06 | 2747.19 ms | 47.4% bf16 MFU | 381690 tok/s
step    3/32000 | loss 9.894109 (+nanz)| norm 23.2229 (+nanz)| lr 2.57e-06 | 2753.25 ms | 47.3% bf16 MFU | 381259 tok/s
step    4/32000 | loss 9.566241 (+nanz)| norm 28.4920 (+nanz)| lr 3.43e-06 | 2741.47 ms | 47.5% bf16 MFU | 381690 tok/s
step    5/32000 | loss 9.482848 (+nanz)| norm 23.7817 (+nanz)| lr 4.29e-06 | 2752.07 ms | 47.3% bf16 MFU | 381507 tok/s
step    6/32000 | loss 9.332832 (+nanz)| norm 15.9113 (+nanz)| lr 5.14e-06 | 2751.01 ms | 47.3% bf16 MFU | 381431 tok/s
step    7/32000 | loss 9.165650 (+nanz)| norm 10.5941 (+nanz)| lr 6.00e-06 | 2753.03 ms | 47.3% bf16 MFU | 381327 tok/s
step    8/32000 | loss 9.132234 (+nanz)| norm 16.2733 (+nanz)| lr 6.86e-06 | 2748.91 ms | 47.3% bf16 MFU | 381348 tok/s
step    9/32000 | loss 9.097384 (+nanz)| norm 12.1342 (+nanz)| lr 7.71e-06 | 2748.73 ms | 47.3% bf16 MFU | 381367 tok/s
step   10/32000 | loss 9.072879 (+nanz)| norm 10.5923 (+nanz)| lr 8.57e-06 | 2749.40 ms | 47.3% bf16 MFU | 381369 tok/s

每一步大约需要 2.75 秒，共有 32000 步，所以现在我们等待 24 小时左右。在每一步中，训练运行都会占用约 100 万个 FineWeb-EDU token（这些来自互联网的教育网页），并更新模型的 15.58 亿个权重，使其能够更好地预测序列中的下一个 token。最后将总共处理 32000 * 1048576 = 33.6B 个 token。随着更好地预测下一个 token，损失会下降。范数将稳定在 0.1-1 左右，学习率在前面几步预热。

等待 24 小时后，就可以使用 dev/vislog.ipynb jupyter 笔记本可视化 main.log 日志文件。为此，你还需要安装 Python 和 matplotlib。

参数指南。OpenAI 发布的 GPT-2 包含模型权重，但细节很少；而 GPT-3 版本没有权重，但细节很多。因此，在许多情况下，我们遵循 GPT-3 论文超参数，因为 GPT-2 论文的信息非常少。具体参见原项目。

内存指南。大多数人可能面临的最大限制是他们的 GPU 没有 80GB。没关系，你仍然可以运行上面的所有内容，只是运行速度会更慢。因此如果模型不适配，你会怎么做？最重要的是微批大小 - b。尝试减小它，但将其保持在合适的数字，例如 16 → 8 → 4 → 2 → 1。从那里开始，尝试使用重计算设置 -r，即 0（最快且有大量内存）、1（稍微慢一点，但节省大量内存）或 2（稍微慢一点，节省较少内存）。

你可以做的下一件事是禁用 fp32 中的主权重，可以使用 - w 0 （默认值 1）来执行此操作。我们不会维护 fp32 参数副本。根据经验，在之前的几次运行中，这似乎没问题，可能是因为使用了随机舍入。如果还不适合，则可以尝试使用 -t 来减少最大序列长度，默认值为 1024，你可以将其降低到 512、256 等。但现在你会让模型变得更糟，因为它的最大注意力跨度正在减少。

代码。Karpathy 对 llm.c 略有偏爱，认为它非常漂亮：

它只需要基本的 CUDA 依赖项即可运行。
它是 C/CUDA 中直接、最小且易读的实现。llm.c 共有约 5,000 行 C/CUDA 代码。这里尝试主要使用 C，而不是 C++，以保持简单。神经网络训练只是对单个浮点数组进行相同的简单算术运算（如 +、-、、/）的一个 while 循环，它实际上不应该那么复杂。
它编译和运行非常快（几秒钟），因此可以进行更多步进和更短等待。
它在开始时一次性分配其所有 GPU 内存，从那时起在训练期间具有完全恒定的内存占用。因此，一旦开始步进，就可以在剩余的运行中表现良好并且不会内存用完。
它是按位确定的。
它非常高效，略低于～50% 的 MFU。

主要入口点和大部分代码位于文件 train_gpt2.cu 中。它包含 GPT-2 模型定义和约 2,000 LOC 的训练 loop，并从 llmc 目录导入了一堆带有各种实用程序和各个层实现的辅助文件。最后 cloc ll

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-13发表2025-03-21更新 ByteAILab 11 分钟读完 (大约1666个字)

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文论文一作是南开大学统计与数据科学学院研二硕士生杨雨辰，指导老师为南开大学统计与数据科学学院的徐君副教授。徐君老师团队的研究重点是计算机视觉、生成式 AI 和高效机器学习，并在顶级会议和期刊上发表了多篇论文，谷歌学术引用超过 4700 次。

自从大型 Transformer 模型逐渐成为各个领域的统一架构，微调就成为了将预训练大模型应用到下游任务的重要手段。然而，由于模型的尺寸日益增大，微调所需要的显存也逐渐增加，如何高效地降低微调显存就成了一个重要的问题。此前，微调 Transformer 模型时，为了节省显存开销，通常的做法是使用梯度检查点（gradient checkpointing，也叫作激活重算），以牺牲训练速度为代价降低反向传播（Backpropagation, BP）…

论文：Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation
论文链接：https://arxiv.org/abs/2406.16282
项目链接：https://github.com/yyyyychen/LowMemoryBP

文章提出了两种反向传播改进策略，分别是 Approximate Backpropagation（Approx-BP）和 Memory-Sharing Backpropagation（MS-BP）。Approx-BP 和 MS-BP 分别代表了两种提升反向传播中内存效率的方案，可以将其统称为 LowMemoryBP。无论是在理论还是实践意义上，文章都对更高效的反向传播训练提供了开创性的指导。

在理论显存分析中，LowMemoryBP 可以大幅降低来自激活函数和标准化层的激活显存占用，以 ViT 和 LLaMA 为例，可以对 ViT 微调降低 39.47% 的激活显存，可以对 LLaMA 微调降低 29.19% 的激活显存。

在实际实验中，LowMemoryBP 可以有效地使包括 ViT, LLaMA, RoBERTa, BERT, Swin 在内的 Transformer 模型微调峰值显存占用降低 20%~30%，并且不会带来训练吞吐量和测试精度的损失。

Approx-BP

在传统反向传播训练中，激活函数梯度的反向回传是严格对应其导函数的，对于 Transformer 模型中常用的 GELU 和 SiLU 函数，这意味着需要将输入特征张量完整地存入激活显存中。而本文的作者提出了一套反向传播近似理论，即 Approx-BP 理论。在该理论的指导下，作者使用分段线性函数逼近激活函数，并用分段线性函数的导数（阶梯函数）替代 GELU/SiLU 梯度的反向回传。这个方法导出了两个非对称的内存高效激活函数：ReGELU2 和 ReSiLU2。这类激活函数由于使用 4 段阶梯函数进行反向回传，从而使得激活存储只需要使用 2bit 数据类型。

MS-BP

BP 网络每一层通常都会将输入张量存入激活显存以用作反向传播计算。作者指出如果可以将某一层的反向传播改写成依赖输出的形式，那么这一层和后一层就可以共享同一个激活张量，从而降低激活存储的冗余。

而文章指出 Transformer 模型中常用的 LayerNorm 和 RMSNorm，在将仿射参数合并到后一层的线性层之后，可以很好地符合 MS-BP 策略的要求。经过重新设计的 MS-LayerNorm 和 MS-RMSNorm 不再产生独立的激活显存。

实验结果

作者对计算机视觉和自然语言处理领域的若干个代表模型进行了微调实验。其中，在 ViT，LLaMA 和 RoBERTa 的微调实验中，文章提出的方法分别将峰值显存占用降低了 27%，29% 和 21%，并且没有带来训练效果和训练速度的损失。注意到，作为对比的 Mesa（一个 8-bit Activation Compressed Training 方法）使训练速度降低了约 20%，而文章提出的 LowMemoryBP 方法则完全保持了训练速度。

结论及意义

文章提出的两种 BP 改进策略，Approx-BP 和 MS-BP，均在保持训练效果和训练速度的同时，实现了激活显存的显著节省。这意味着从 BP 原理上进行优化是非常有前景的显存节省方案。此外，文章提出的 Approx-BP 理论突破了传统神经网络的优化框架，为使用非配对导数提供了理论可行性。其导出的 ReGELU2 和 ReSiLU2 展现了这一做法的重要实践价值。

欢迎大家阅读论文或者代码去了解算法的详细细节，LowMemoryBP 项目的 github 仓库上已经开源相关的模块。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-13发表2025-03-21更新 ByteAILab 12 分钟读完 (大约1764个字)

英伟达又赚到了！FlashAttention3来了：H100利用率飙升至75%

740 TFLOPS！迄今最强 FlashAttention 来了。

随着大型语言模型（LLM）加速落地，扩展模型上下文窗口变得越来越重要。

然而，Transformer 架构的核心 —— 注意力层的时间复杂度和空间复杂度与输入序列长度的平方成正比。这使得扩展模型上下文窗口存在挑战。

2022 年，一种快速、内存高效的注意力算法 ——FlashAttention 问世，该算法无需任何近似即可加速注意力并减少内存占用。

FlashAttention 对注意力计算进行重新排序的算法，并利用 tiling 和重计算来显著加快计算速度，将内存使用量从序列长度的二次减少到线性。

2023 年，研究团队宣布推出 FlashAttention-2，在算法、并行化和工作分区等方面有了显著改进。

现在，来自 Meta、英伟达、Together AI 等机构的研究者宣布推出 FlashAttention-3，它采用了加速 Hopper GPU 注意力的三种主要技术：

通过 warp-specialization 重叠整体计算和数据移动；
交错分块 matmul 和 softmax 运算；
利用硬件支持 FP8 低精度的不连贯处理。

FlashAttention-3 的速度是 FlashAttention-2 的 1.5-2.0 倍，高达 740 TFLOPS，即 H100 理论最大 FLOPS 利用率为 75%。使用 FP8，FlashAttention-3 的速度更是接近 1.2 PFLOPS。

FlashAttention-3 的改进将带来：

更高效的 GPU 利用率：H100 理论最大 FLOPS 利用率为 75%，而之前仅为 35%。这使得 LLM 的训练和运行速度比以前的版本快得多。
较低精度下更好的性能：FlashAttention-3 可以在保持精度的同时使用较低精度的数字 (FP8)。这可以实现更快的处理速度并可能降低内存使用量，从而为运行大规模人工智能操作的客户节省成本并提高效率。
能够在 LLM 中使用更长的上下文：通过加速注意力机制，FlashAttention-3 使 AI 模型能够更有效地处理更长的文本片段。这使得应用程序能够理解并生成更长、更复杂的内容而不会减慢速度。

论文标题：FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

论文地址：https://tridao.me/publications/flash3/flash3.pdf

论文作者之一、FlashAttention1-3 版本的参与者 Tri Dao 表示：FlashAttention 被广泛用于加速 Transformers，已经使注意力速度提高了 4-8 倍，但尚未利用现代 GPU。因而他们发布了 FlashAttention-3：在 FP16 上速度提高了 1.5-2 倍，在 H100 上高达 740 TFLOPS（75% 实用性），FP8 接近 1.2 PFLOPS！

Hopper GPU 硬件特性：WGMMA、TMA、FP8

虽然 FlashAttention-2 在 Ampere (A100) GPU 上可以实现 70% 的理论最大 FLOPS，但它尚未利用 Hopper GPU 上的新功能来最大限度地提高性能。接下来文章描述了一些新的 Hopper 特定功能，以及它们为何如此重要。

首先是 WGMMA（Warpgroup Matrix Multiply-Accumulate），该功能利用了 Hopper 架构上新的张量内核，比 Ampere 架构具有更高的吞吐量。

然后是 TMA（Tensor Memory Accelerator），这是一个特殊的硬件单元，可以加速全局内存和共享内存之间的数据传输，用于处理所有索引计算和边界外预测。这样一来寄存器就释放了，寄存器是增加 tile 大小和效率的宝贵资源。

低精度 FP8，让 Tensor Core 吞吐量翻了一倍。

FlashAttention-3 充分利用了 Hopper 架构的所有这些新功能。

异步：GEMM 和 Softmax 重叠

注意力机制主要有两个操作，GEMM 和 softmax。为什么要将它们重叠？

问题在于在现代加速器上，非矩阵乘法（matmul）运算比矩阵乘法运算慢。特殊函数如指数运算（如 softmax 函数）的吞吐量甚至低于浮点乘加操作；这些运算是由多功能单元处理的，这是一个与浮点乘加或矩阵乘加不同的单元。

理想情况下，研究者希望矩阵乘法和 softmax 能够并行操作。当 Tensor Cores 忙于矩阵乘法时，多功能单元应当在计算指数运算！

Inter-warpgroup 重叠

重叠 GEMM 和 softmax 最简单的方法是什么都不做，warp 调度程序会免费完成部分重叠。下图说明了 pingpong 调度，其中相同的颜色表示相同的迭代。

Intra-warpgroup 重叠

即使在一个 warpgroup 中，研究者也可以在运行该 warpgroup 的 GEMM 时运行 softmax 的某些部分。如图所示，相同的颜色表示相同的迭代。

这种 pipeline 流程可以将 FP16 注意力前向传播的吞吐量从大约 620 TFLOPS 提高到 640-660 TFLOPS，但代价是更高的寄存器压力，因而需要更多的寄存器来同时保存 GEMM 的累加器以及 Softmax 的输入 / 输出。

低精度：使用非相干处理减少量化误差

激活 LLM 可能存在一些极端值，导致量化困难，从而产生较大的量化误差。本文采用非相干处理（incoherent processing），该技术通过将查询和键与一个随机正交矩阵相乘来「分散（spread out）」极端值，从而减少量化误差。特别地，该研究使用了 Hadamard 变换，它可以在每个注意力头中以 O (d log d) 的时间复杂度完成，而不是 O (d^2)，其中 d 是头部维度。

研究者发现非相干处理可以将量化误差减少很多，具体的数值误差比较见下表。

实验

文中展示了 FlashAttention-3 的一些结果，并将其与 FlashAttention-2 以及 Triton 和 cuDNN 中的实现进行了比较（两者都已经使用了 Hopper GPU 的新硬件功能）。

在 FP16 精度下，FlashAttention-3 的速度是 FlashAttention-2 的 1.5-2.0 倍。

对于 FP8，FlashAttention-3 接近 1.2 PFLOPS。

扩展阅读：

参考链接：

https://tridao.me/blog/2024/flash3/

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-12发表2025-03-21更新 ByteAILab 7 分钟读完 (大约1096个字)

苹果开放iPhone付款系统以解决欧盟反垄断案

欧盟周四接受了苹果承诺开放其“触碰付款”iPhone付款系统给竞争对手的承诺，以解决一起反垄断案，避免可能遭到巨额罚款。

欧盟委员会，即欧盟的行政部门和最高反垄断执法机构，表示批准了苹果今年早些时候提出的承诺，并将使其具有法律约束力。监管机构指控苹果在2022年滥用其主导地位，限制了对其移动支付技术的访问。苹果则在今年1月提出，允许第三方移动钱包和支付服务提供商访问其iOS操作系统中的非接触式支付功能。经过苹果根据测试和反馈调整其提议后，委员会表示这些“最终承诺”将解决其竞争担忧问题。“今天的承诺结束了我们对Apple Pay的调查，”欧盟执行委员会执行副主席玛格丽特·维斯塔格在布鲁塞尔的新闻发布会上表示。“这些承诺为苹果在欧洲的运营带来了重要变化，让竞争对手和消费者受益。”苹果在一份准备好的声明中表示，它正在“为欧洲经济区的开发者提供一个选项，以启用 NFC（近场通信）非接触式支付和非接触式交易”，用于汽车钥匙、公司徽章、酒店钥匙和音乐会门票等用途。美国和欧洲的竞争监管机构一直在调查苹果的付款技术。三月份提起的一起广泛的司法部诉讼指控该公司在智能手机领域制造了非法垄断，包括指控其限制对第三方数字钱包的非接触支付访问。

欧盟的交易承诺给欧洲用户带来了更多选择。维斯塔格表示，iPhone用户将能够设置自己选择的默认钱包，而移动钱包开发者将能够使用重要的iPhone验证功能，如Face ID。委员会指控公司拒绝他人访问Apple Pay，称后者是市场上最大的基于NFC的移动钱包。移动钱包依赖NFC，使用芯片与商家的支付终端无线通信。分析师表示，对公司而言，使用自己的钱包而不让苹果充当中间商将带来巨大的财务激励，这将带来节省成本，从而惠及消费者。根据司法部的诉讼，苹果为透过Apple Pay进行的每笔信用卡交易向银行收取0.15%的费用。苹果必须在欧盟27个国家以及冰岛、挪威和列支敦士登于7月25日之前在这些国家开放其付款系统。

欧盟的违反竞争法规可以导致公司年度全球收入的最高10%的罚款，对于苹果来说，这可能会达到数十亿欧元。“支持iPhone上的另一款选择来替代Apple Pay的发卡银行的主要优势是降低所承担的费用，这可能是相当可观的，”研究和咨询公司Omdia的首席分析师菲利普·本顿说。为了鼓励iPhone用户从Apple Pay转向另一款移动钱包，“费用降低需要部分通过类似返现或忠诚度奖励的方式转移给消费者”，他表示。银行和消费者也可以从其他方面获益。
如果公司使用自己的应用程序进行触碰支付，他们将获得“对客户交易的全面可见性，”CCS Insight的首席分析师本·伍德说。这些数据将使他们能够“建立品牌忠诚度和信任，并直接向用户提供更个性化的服务、奖励和促销活动”，他表示。

探索更多有关这些主题的内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-07-12发表2025-03-21更新 ByteAILab 8 分钟读完 (大约1219个字)

Microsoft and Apple back away from OpenAI board

Microsoft和Apple已决定不再加入OpenAI的董事会。{ width=50% }

这一决定是在监管机构加大对大型科技公司参与AI开发和部署的审查力度之时做出的。

据7月10日彭博社报道，援引一位知情人士消息，微软已正式通知OpenAI撤出董事会。此举发生在这家总部位于雷德蒙德的公司于2023年4月向OpenAI进行了130亿美元的重大投资大约一年之后。

微软在致OpenAI的备忘录中表示：“在过去的八个月里，我们见证了新成立的董事会取得的重大进展，并对公司的发展方向充满信心。”这家科技巨头补充说：“我们不再认为我们作为观察员的有限角色是必要的。”

与最近有报道称苹果将成为OpenAI董事会的观察员角色有关的相反，从微软的退出开始，看来OpenAI将不会再有董事会的观察员。

对于这些发展，OpenAI对微软表达了感谢之情，称“我们感谢微软对董事会和公司发展方向的信心，并期待继续成功的合作。”

这些主要科技公司退出董事会参与在监管压力不断加大的背景下发生。有关大型科技对AI开发和行业主导地位潜在影响的担忧，促使全球范围内的监管机构加大了审查力度。

6月，欧盟监管机构宣布，OpenAI可能面临欧盟反垄断调查，原因是其与微软的合作。欧盟竞争事务首席执行官玛格丽特·韦斯塔格（Margrethe Vestager）还透露计划，让当地监管机构寻求额外的第三方意见，并调查微软、谷歌、Meta和字节跳动旗下的TikTok等公司关于他们的AI合作。

微软和苹果决定退出OpenAI董事会的决定可能被解释为一项为了减轻潜在监管挑战的战略性举措。通过保持与这家AI公司更加疏远的关系，这些科技巨头可能试图避免被指控对AI开发产生不当影响或控制。

Fladgate的一位竞争合伙人Alex Haffner表示：

“很难不得出结论，微软的决定受到了其（以及其他主要科技公司）通过OpenAI等新兴AI公司获得影响力的持续竞争/反垄断审查的重大影响。
微软在这方面取得了‘胜利’，就在六月底，欧盟委员会宣布放弃对微软和OpenAI的合并控制调查，这是在OpenAI重新调整董事会结构、同一时期山姆·阿尔特曼离开公司的时候宣布的。
然而，委员会确认仍在关注双方之间更广泛安排的竞争影响，很明显监管机构非常关注大科技公司与AI提供商之间创造的复杂关系网络，因此微软和其他公司需要仔细考虑如何合理构建这些安排。”

随着AI在技术进步和社会变革中发挥越来越关键的作用，创新、竞争和监管之间的平衡对于行业参与者和政策制定者都是一个复杂的挑战。
未来几个月将可能继续看到AI合作伙伴关系和投资的持续审查，全球监管机构将努力确保公平竞争和负责任的AI开发。
（安德鲁·尼尔拍摄）

另请参阅：英伟达：法国反垄断监管部门向全球最有价值公司提出指控

想要从行业领袖那里了解更多关于AI和大数据的知识吗？查看将在阿姆斯特丹、加利福尼亚和伦敦举行的AI & Big Data Expo。这一综合性的活动与其他领先活动同地举办，包括智能自动化大会、BlockX、数字转型周和网络安全与云博览会。
在此处探索由TechForge推动的其他即将到来的企业技术活动和网络研讨会。

tags: ai，苹果，人工智能，董事会，道德，欧盟，欧盟，微软，OpenAI，监管，社会

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

01. 一波三折

02. 筹措资金

03. 重要筹码

主要入口点和大部分代码位于文件 train_gpt2.cu 中。它包含 GPT-2 模型定义和约 2,000 LOC 的训练 loop，并从 llmc 目录导入了一堆带有各种实用程序和各个层实现的辅助文件。最后 cloc ll

链接

分类

最新文章

归档

标签

订阅更新