「肢解」谷歌帝国!Chrome安卓或遭剥离,AI训练数据被迫共享

文章来源:新智元

【导读】反垄断案败诉,谷歌或将面临「分家」,一旦与Chrome和安卓操作系统解绑,谷歌该何去何从?

谷歌刚热热闹闹地开完「谷歌制造」发布会,一个晴天霹雳就打到谷歌头上——
违反反垄断法,全球搜索引擎霸主可能面临强制分拆!
一个商业帝国的兴起,往往伴随着不断的吞并和收购,谷歌亦是如此。没有巨大的财富饥渴,就不会有今天的「谷歌帝国」。


现任CEO劈柴手握谷歌的第2个接力棒,史无前例地处于风暴中心,这次他还能否力挽狂澜?

上周,谷歌搜索被判垄断,让整个科技行业都受到了震动。牵一发而动全身,更何况是谷歌这样的巨头。
不仅搜索引擎的市场格局会发生显著变化,也会对苹果等公司的财务健康造成影响。
谷歌败诉,对于反垄断司法是一次史诗般的胜利,对谷歌而言,却是一次巨大的生存危机。
据悉,在法官做出裁决之后,司法部正在计划下一步行动,其中可能包括拆分谷歌——将谷歌剥离安卓或Chrome浏览器。
如果谷歌难逃此劫,这将是自80年代美国电信巨擘AT&T分拆以来最重大的企业分拆。
谷歌反垄断案的影响不止于它自身,也是对其他大型科技巨头,如亚马逊、苹果和Meta的一次警告。

搜索霸主
尽管谷歌不是唯一一家拥有搜索引擎的公司,但它已经成为网络搜索的代名词。
网络流量分析公司Statcounter的数据显示,截至7月份,谷歌的搜索引擎市场份额约为91%。事实上,从2009年以来,它就一直保持着约90%的市场份额。
谷歌的第二大竞争对手是微软的Bing,Bing的市场份额是多少呢?只有不到4%。
下面这张图更加直观地诠释了为什么谷歌会迎来拆分危机,其他搜索引擎的生存空间被极限压缩到不足10%。

凭借具有主导地位的搜索引擎,再结合广告业务,带动了其年收入超过3000亿美元,使得谷歌及其母公司Alphabet成为世界上最有价值的公司之一。
谷歌占有这么庞大的市场份额,手段也很赤裸,那就是向苹果和三星等公司支付数百亿美元,将谷歌搜索作为设备和浏览器中预装的默认选项。
这让谷歌获得了如日中天的发展,也为…
(图片链接展示需要保留,具体内容请查看原文链接)

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

确定,台积电170亿收购

来源:内容来自经济日报。

图片来源:由GPTNB生成

群创(南科四厂)厂房确定卖给台积电。


台积电昨(15)日公告,以171.4亿元购买群创南科四厂,主要供营运与生产使用。群创同步公告相关资产处分案,估计卖厂收益约147亿元。外界预期,双方最快8月底完成交易相关作业。
本报12日独家披露,台积电将买下群创南科四厂,原传出会在台积电13日董事会拍板后宣布,惟消息曝光后,「好事多磨两天」,昨天晚间两家公司先后公告交易拍板。
市场传出群创南科厂底价180亿元,台积电以200亿元成交,昨天公布实际交易金额比市场预期低。根据群创公告,先前委由两家估价公司估价后,估值各开出177.7亿元与183.3亿元,此次实际交易金额比两家估价公司分别低3.5%、6.4%。
根据群创公告,与台积电签订出售厂房及附属设施合约,座落于台南市新市区新科段416-424、498、504等共11笔建号(台南市新市区环西路一段3号),建物面积31万7,444.93平方公尺(约96,027.09坪),交易总金额171.4亿元,处分利益约147亿元,将用于挹注公司营运及未来发展动能,充实营运资金。
群创现正处于办理减资换发新股作业的股票停止交易期,以减资后实收资本额798.91亿元股本计算,此次卖厂获利147亿元,约可贡献每股纯益1.84元。群创上半年每股净损0.33元,这笔交易获利可望助攻群创2024年全年转亏为盈。
台积电并未对买下群创南科四厂用途多做说明,仅透过公告指出供营运与生产使用。业界认为,南科空置厂办已不多,台积电主要看准群创厂房离台积厂区车程仅五分钟,可能作为先进封装后续扩产备案、研发新型态封装后续导入量产的备案用地,甚至后续3纳米以下先进制程在南科扩充时的弹性用地等。
台积电CoWoS先进封装需求持续强劲,先前在法说会表示持续扩产,期盼2025年供给吃紧缓解,2026年供需平衡,业界认为可能优先用于先进封装扩产规划,或更先进制程的备用后援基地。
至于交易完成时间,群创表示,需待南部科学园区管理局核准转让,厂房相关抵押权涂销后始得转让。南科管理局昨晚表示,乐见此项厂房转售活化案,估计相关程序可在一周内走完。外界预期,群创最快8月底即可完成出售交易作业。
群创南科四厂原本主要生产笔电及监视器用面板,因群创内部策略考量,于2023年关闭,并陆续传出美国记忆体芯片大厂美光、台积电有意买下,昨天拍板花落台积电。

台积电获准继续建设 CoWoS 设施
台积电在嘉义科学园区兴建2座CoWoS先进封装厂,5月底挖到疑似遗迹依文资法暂停施工,经县府文资委员会审议开挖保存,台积电委托考古厂商挖掘,并持续建厂施工,上月厂商公告应征考古挖掘人员,引发热烈回响,因被外界误为台积电雇工紧急喊停,朴子就业服务中心证实考古厂商恢复雇工挖掘作业。
因应台积电进驻工程土石方大量增加,环境部昨天环评大会审查「南部科学园区嘉义园区开发计划环境影响差异分析报告」,在环委同意开发单位承诺的区外土方暂置和再利用规画下修正通过,县长翁章梁出席,展现对台积厂进度嘉义的重视。
台积电建厂进度受关注,遗址开挖及环评解决后,目前考古挖掘与建厂加快同步进行,第1座厂开挖的太保农场遗址,是距今3500年至4500年之间绳纹陶文化遗址,开挖发现绳纹陶片、陶环等碎片,还有灰坑、贝冢等。
南科管理局说,当初南科园区开发,包括台积电18厂动工都挖到遗址,南科开挖发现13处遗址、800多万件文物,台湾史前文化博物馆为此设南科考古馆,收藏研究文物展示,建厂与文资保存不冲突。
考古厂商应征考古挖掘人员60名,无经验可,农民佳、耐热,工作内容为挖土,工作时间为早上8点到下午5点,周休二日需配合加班,其中1天算加班费出勤,日薪1700元,含劳保,健保可视需求加保。朴子就服中心说,台积电避免外界误为台积电雇工,厂商低调悄悄雇工。
县府文观局说,台积电厂区发掘计划所有出土与采集标本将全数留置嘉义地区为原则,发掘期间出土遗物存放台积电提供工务所空间,整理期间将遗物置放台大人类学系所管理考古空间,或南科管理局管理处所。计划完成后,所有标本将点交文观局。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

「肢解」谷歌帝国!Chrome安卓或遭剥离,AI训练数据被迫共享

图片来源:由GPTNB生成

【导读】反垄断案败诉,谷歌或将面临「分家」,一旦与Chrome和安卓操作系统解绑,谷歌该何去何从?

谷歌刚热热闹闹地开完「谷歌制造」发布会,一个晴天霹雳就打到谷歌头上——违反反垄断法,全球搜索引擎霸主可能面临强制分拆!一个商业帝国的兴起,往往伴随着不断的吞并和收购,谷歌亦是如此。没有巨大的财富饥渴,就不会有今天的「谷歌帝国」。


现任CEO劈柴手握谷歌的第2个接力棒,史无前例地处于风暴中心,这次他还能否力挽狂澜?

image

上周,谷歌搜索被判垄断,让整个科技行业都受到了震动。牵一发而动全身,更何况是谷歌这样的巨头。不仅搜索引擎的市场格局会发生显著变化,也会对苹果等公司的财务健康造成影响。谷歌败诉,对于反垄断司法是一次史诗般的胜利,对谷歌而言,却是一次巨大的生存危机。据悉,在法官做出裁决之后,司法部正在计划下一步行动,其中可能包括拆分谷歌——将谷歌剥离安卓或Chrome浏览器。如果谷歌难逃此劫,这将是自80年代美国电信巨擘AT&T分拆以来最重大的企业分拆。谷歌反垄断案的影响不止于它自身,也是对其他大型科技巨头,如亚马逊、苹果和Meta的一次警告。

搜索霸主

尽管谷歌不是唯一一家拥有搜索引擎的公司,但它已经成为网络搜索的代名词。网络流量分析公司Statcounter的数据显示,截至7月份,谷歌的搜索引擎市场份额约为91%。事实上,从2009年以来,它就一直保持着约90%的市场份额。谷歌的第二大竞争对手是微软的Bing,Bing的市场份额是多少呢?只有不到4%。下面这张图更加直观地诠释了为什么谷歌会迎来拆分危机,其他搜索引擎的生存空间被极限压缩到不足10%。

image

凭借具有主导地位的搜索引擎,再结合广告业务,带动了其年收入超过3000亿美元,使得谷歌及其母公司Alphabet成为世界上最有价值的公司之一。谷歌占有这么庞大的市场份额,手段也很赤裸,那就是向苹果和三星等公司支付数百亿美元,将谷歌搜索作为设备和浏览器中预装的默认选项。这让谷歌获得了如日中天的发展,也为今天的败诉埋下了祸根。

谷歌败诉

在谷歌与司法部和州总检察长进行了长达一年的司法斗争后,美国司法部胜诉,联邦法官正式裁定谷歌违反反垄断法。也就是说,谷歌输掉了二十多年来第一起重大科技反垄断诉讼。

image

最确凿的证据包括,谷歌向苹果公司支付了180亿美元,阻止苹果扩张搜索业务,确保谷歌在2021年继续成为默认搜索引擎。

image

裁决书地址:https://assets.bwbx.io/documents/users/iqjWHBFdfxIU/rZ1UlL.0yQbo/v0

并且,通过独家分销协议垄断手机端和浏览器的服务,谷歌能够肆无忌惮地让在线广告不断涨价,而不会产生任何后果。谷歌表示将对此裁决提出上诉,Mehta已下令双方开始进入诉讼…

阅读原文

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

波士顿动力技术揭秘:后空翻、俯卧撑与翻车,6年经验、教训总结

为什么波士顿动力的人形机器人能完成跑酷、后空翻等高难度动作?为什么有时候它会翻车?工程师从中总结的经验、教训都在这里了。

今年 4 月,著名机器人公司波士顿动力跟全世界开了一个玩笑,先是官宣人形机器人 Atlas 退役,狠狠来了一波回忆杀。


图片

紧接着,就在第二天,他们又放出了一个新的人形机器人视频。新机器人也叫 Atlas,不过由原来的液压改为了电动,身材更为小巧、灵活。

图片

此时,外界才反应过来,原来波士顿动力并不是要放弃人形机器人,而是转变了研发方向,让机器人更加适应工业环境。该公司表示,这个电动版的 Atlas 将于明年初在韩国现代汽车工厂里开始进行试点测试,并会在几年后全面投产。

自公布后,这个机器人鲜少露面。直到最近,在机器人顶会 RSS 的一场技术分享上,大家才知道,原来新的 Atlas 已经进化到可以做俯卧撑、倒立行走的地步了。

图片

图片

这个技术分享来自波士顿动力机器人工程师 Robin Deits。他是 MIT 博士,2018 年至今一直在波士顿动力工作,研究 Atlas 人形机器人的控制。

个人主页:http://robindeits.com

在分享中,他介绍了 Atlas 机器人过去几年的研发历程,以及从中学到的经验、教训,对机器人行业从业者可能很有启发。机器之心将在这篇文章中进行系统梳理。

Atlas 控制器的核心 ——MPC

在演讲开头,Robin Deits 首先介绍了波士顿动力这家公司。

波士顿动力现在是韩国现代汽车公司旗下的人形机器人公司,员工大概有八九百人,其代表性的机器人有 Spot(机器狗)、Stretch(仓库搬运机器人)和 Atlas(人形机器人)。目前,Atlas 主要还是一个研发平台,波士顿动力正慢慢将其转化为产品。

接下来,Robin Deits 介绍了他们如何将 MPC 用于 Atlas,包括怎么用、遇到了哪些挑战、还有哪些问题没有解决等。

MPC 指的是 Model Predictive Control(模型预测控制),这是一种高级控制策略,通过使用数学模型来预测系统在未来一段时间内的行为,然后优化控制输入,以实现系统性能的最佳化。MPC 的一个关键优势是它能够处理多变量系统,并且可以显式地考虑约束条件(例如输入和状态的限制)。在机器人领域,MPC 通常用于路径规划、运动控制、姿态控制等任务中,因为它能在动态和复杂的环境下提供鲁棒的控制解决方案。

Robin Deits 表示,他们从 2019 年以来实现的所有机器人动作都是依靠 MPC 来完成的,包括跑酷、体操、跳舞、后空翻等等。最近,他们还展示了 MPC 用于操纵物体的效果。2024 款纯电驱动的 Atlas 新版本也是由 MPC 驱动的。

所有版本 Atlas 的 MPC 都有一些共同特点,包括:

1、非线性动力学、成本和约束

Deits 指出,所有 MPC 版本从一开始就包含非线性动力学,非线性无处不在,特别是接触点的位置与接触点施加力的大小之间的耦合。他们选择接受这一点:如果一切都是非线性的,他们不会找到一个完美的线性近似系统。

2、迭代线性化并求解 QP

他们通过迭代地线性化来解决这个问题。这包括从一个初始猜测开始,然后解决一个 QP(二次规划问题),围绕那个 QP 的解进行线性化。

3、从不运行到收敛

他们对收敛不感兴趣,因为 Deits 认为收敛并不能很好地预测机器人是否真的有效。如果机器人在等待过程中摔倒了,那么为了等待收敛到某个阈值而花费上百倍的时间并不值得。

4、利用问题结构提高速度

他们做了很多工作,利用问题结构来提高速度,尽可能保留由 MPC 问题结构带来的稀疏性。

5、不将求解器视为黑盒

他们尝试打开求解器,重写其内部,以提高性能,而不是简单地将求解器视为一个无法更改的黑盒。因为最终,他们需要尽可能快地解决最大的 MPC 问题。

自进入波士顿动力以来,Deits 所在的团队已经在机器人(硬件)上解决了大约 1000 万个 QP 问题,在模拟环境中则解决了 100 亿个。但这些还远远不够。

把机器人看成长了四肢的「土豆」

为了简化模型,他们首先把机器人想象成一个土豆。机器人存在诸多非线性因素,比如力的位置和大小之间的耦合,以及旋转动力学等。通过简化模型,专注于重心动力学,他们成功实现了 Atlas 机器人的 360 度旋转、后空翻等动作。

但是,归根结底,机器人不是土豆,它有可以移动的四肢,因此他们转向了分阶段优化:首先考虑土豆的重心动力学,然后在独立的运动学上做一些下游优化,以找到与「土豆」一致的运动学行为。这种方法效果很好,帮 Atlas 实现了单手支撑跳过平衡木的动作。在这一过程中,他们使用手和脚来操纵重心动力变化,但是以一种跟踪参考轨迹的方式移动四肢,使其清楚地避开平衡木。

但问题是,一旦「土豆」想做一些四肢做不到的事情(「土豆」以为能跳到那么远,而四肢其实不能),Atlas 就会贡献翻车片段。二者之间不够协调。

所以,从这时起,波士顿动力调整策略,开始将 Atlas 视为一个运动学 - 重心动力学耦合的系统(a Kinodynamic System)。这个系统可以让 Atlas 完成 540 度的转体空翻,这是以前的分阶段优化系统做不到的。

此时,他们也意识到,增加模型的复杂性似乎总能在某种程度上提升机器人的性能,尽管这确实会让计算过程变得更加复杂,软件也更加庞大。他们在 MPC 问题中加入的每一个正确元素,都有助于改善机器人的表现,但这同时也意味着需要更强大的计算能力和更精细的软件实现。他们尚未发现一个临界点。

为了让机器人能够操纵物体,他们采取了类似的耦合方法,将机器人和物体的状态放到一个 MPC 问题中去解决,因为二者的运动互相约束。这使得 Atlas 能够做到扔工具包、搬运木板、操纵较重物体等动作。

不过,这些动作都是在非常结构化的环境中完成的,波士顿动力需要考虑机器人实际所处的世界。这让问题变得更大、更难,引入了感知驱动的约束之类的东西。

他们采用像体素地图这样的世界表示

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

一年秀一次!稚晖君的人形机器人上新了,还有开源、免费彩蛋

一年一秀,稚晖君的第二代人形机器人来了。

灵巧小手,正在麻将桌上叱咤风云:

image1

不对不对,让我们先看看整体气质:

image2

然后是常规家务,能看出来也是非常熟练:

image3
image4
image5
image6

在大模型风靡的 2024 年,如果说 AI 领域什么最火,「具身智能」这个方向必定位列其中。


视线放到国内,「智元机器人」这家具身智能公司备受瞩目。自 2023 年 2 月成立以来,「智元机器人」已马不停蹄地完成了 6 轮融资,迅速成为机器人创业圈的「顶流项目」。

创业半年,稚晖君和团队就拿出了首款产品「远征 A1」。一出道,「远征 A1」的行走能力和人机互动就是业界领先水平。不过,在「远征 A1」初次亮相之后,我们似乎再也没听说过它的下一步消息,甚至没有放出任何整活视频。

但今天的发布会之后,我们知道了,智元机器人在「闷声干大事」。

在这场发布会中,稚晖君一口气推出了三款远征系列机器人产品:交互服务机器人「远征 A2」、柔性智造机器人「远征 A2-W」、重载特种机器人「远征 A2-Max」。最后的 One more thing 环节,智元 X-Lab 孵化的模块化机器人系列产品「灵犀 X1」和「灵犀 X1-W」也作为「彩蛋」正式亮相。

相比上一代,五款机器人采用了家族化设计语言,对机器人的外形进行了系列化的规整,结合轮式与足式两种形态,覆盖交互服务、柔性智造、特种作业、科研教育和数据采集等应用场景。

关于量产进度,智元机器人也透露了最新消息:2024 年预估发货量将达到 300 台左右,其中双足 200 台左右,轮式 100 台左右。

新一代远征 A2

从「远征 A1」开始,智元在机器人产品上的落地方向就已经很清晰:「进厂打工」。今年的「远征 A2」更是为批量「进厂打工」做了更充分的准备。

我们来看下这个家族的成员:

image7

「远征 A2」是一款交互服务机器人,全身具备超过 40 个主动自由度的关节和仿人的灵巧双手,能够模拟出丰富和复杂的人类工作。它拥有一个可以持续学习的大脑,由大语言模型加持。此外,它还具备多模态的感知,输入系统,可以通过视觉感知交互者的情绪。

「远征 A2-Max」是一款重载特种机器人,既力大无穷又具备灵巧作业的优势,在开场的情景剧中,它轻松地搬动了 40kg 的航空箱,目前「远征 A2-Max」还处于产品研发阶段。

「远征 A2-W」是一款柔性智造机器人,它的两条手臂既可以独立操作,也可以协同工作。它采用了轮式底盘,结合机身搭载的 rgbd 激光雷达、全景相机、为全域安全配置的传感器等等构件,使得它可以在各种环境中快速而平稳的移动。

在发布会前,「远征 A2-W」的表现简直像钢铁侠的「贾维斯」走进了现实。在听懂稚晖君的指令后,它完全自主地打开了可乐瓶子,在榨汁机中放入葡萄,按下榨汁机,一滴没撒地把榨汁机里的饮料倒进了杯子,给稚晖君端上了一杯「萄气可乐」。

除了颜值提升,「远征 A2」系列机器人更是内外兼修。对于机器人的核心零部件,「智元机器人」创新…

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

给RAG系统做一次全面「体检」,亚马逊开源RAGChecker诊断工具

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

亚马逊上海人工智能研究院成立于 2018 年,已成为深度学习研究领域的领先机构之一,共发表了~90 篇论文。研究领域包括深度学习的基础理论、自然语言处理、计算机视觉、图机器学习、高性能计算、智能推荐系统、欺诈检测与风险控制、知识图谱构建以及智能决策系统等。研究院率先研究和开发了世界领先的深度图学习库 Deep Graph Library (DGL),结合了深度学习和图结构表示的优势,影响许多重要应用领域。

检索增强生成(Retrieval-Augmented Generation, RAG)技术正在彻底革新 AI 应用领域,通过将外部知识库和 LLM 内部知识的无缝整合,大幅提升了 AI 系统的准确性和可靠性。然而,随着 RAG 系统在各行各业的广泛部署,其评估和优化面临着重大挑战。现有的评估方法,无论是传统的端到端指标还是针对单一模块的评估,都难以全面反映 RAG 系统的复杂性和实际表现。特别是,它们只能提供一个最终打分报告,仅反映 RAG 系统的性能优劣。

人生病了需要去医院做检查,那 RAG 系统生病了,如何诊断呢?

近日,亚马逊上海人工智能研究院推出了一款名为 RAGChecker 的诊断工具为 RAG 系统提供 细粒度、全面、可靠 的诊断报告,并为进一步提升性能, 提供可操作的方向。本文详细介绍了这个 RAG 的 “显微镜”,看看它如何帮助开发者们打造更智能、更可靠的 RAG 系统。


RAGChecker: RAG 系统的全面诊断工具

想象一下,如果我们能对 RAG 系统进行一次全面的 “体检”,会是什么样子?RAGChecker 就是为此而生的。它不仅能评估系统的整体表现,还能深入分析检索和生成两大核心模块的性能。

RAGChecker 的主要特点包括:

  1. 细粒度评估:RAGChecker 采用基于声明(claim)级别的蕴含关系检查,而非简单的回复级别评估。这种方法能够对系统性能进行更加详细和微妙的分析,提供深入的洞察。

  2. 全面的指标体系:该框架提供了一套涵盖 RAG 系统各个方面性能的指标,包括忠实度(faithfulness)、上下文利用率(context utilization)、噪声敏感度(noise sensitivity)和幻觉(hallucination)等。

  3. 经过验证的有效性:可靠性测试表明,RAGChecker 的评估结果与人类判断有很强的相关性,其表现超过了其他现有的评估指标。这保证了评估结果的可信度和实用性。

  4. 可操作的洞察:RAGChecker 提供的诊断指标为改进 RAG 系统提供了明确的方向指导。这些洞察能够帮助研究人员和实践者开发出更加有效和可靠的 AI 应用。


RAGChecker 的核心指标

RAGChecker 的指标体系可以用下图直观的理解:

RAGChecker指标体系

这些指标被分为三大类:

  1. 整体指标:

 

  • Precision(精确率):模型回答中正确陈述的比例
  • Recall(召回率):模型回答中包含的标准答案中陈述的比例
  • F1 score(F1 分数):精确率和召回率的调和平均数,提供平衡的性能度量
  1. 检索模块指标:

 

  • Context Precision(上下文精确率):在所有检索块中,包含至少一个标准答案陈述的块的比例
  • Claim Recall(陈述召回率):被检索块覆盖的标准答案陈述的比例
  1. 生成模块指标:

 

  • Context Utilization(上下文利用率):评估生成模块如何有效利用从检索块中获取的相关信息来产生正确的陈述。这个指标反映了系统对检索到的信息的利用效率。

开始使用 RAGChecker


在 LlamaIndex 中使用 RAGChecker


结语

RAGChecker 的推出为 RAG 系统的评估和优化提供了一个新的工具。它为开发者提供了一把 “显微镜”,帮助他们深入了解、精准优化 RAG 系统。无论你是正在研究 RAG 技术的学者,还是致力于开发更智能 AI 应用的工程师,RAGChecker 都将是你不可或缺的得力助手。读者可以访问 https://github.com/amazon-science/RAGChecker 获取更多信息或参与到项目的开发中来。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

给RAG系统做一次全面「体检」,亚马逊开源RAGChecker诊断工具

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

亚马逊上海人工智能研究院成立于 2018 年,已成为深度学习研究领域的领先机构之一,共发表了~90 篇论文。研究领域包括深度学习的基础理论、自然语言处理、计算机视觉、图机器学习、高性能计算、智能推荐系统、欺诈检测与风险控制、知识图谱构建以及智能决策系统等。研究院率先研究和开发了世界领先的深度图学习库 Deep Graph Library (DGL),结合了深度学习和图结构表示的优势,影响许多重要应用领域。

检索增强生成(Retrieval-Augmented Generation, RAG)技术正在彻底革新 AI 应用领域,通过将外部知识库和 LLM 内部知识的无缝整合,大幅提升了 AI 系统的准确性和可靠性。然而,随着 RAG 系统在各行各业的广泛部署,其评估和优化面临着重大挑战。现有的评估方法,无论是传统的端到端指标还是针对单一模块的评估,都难以全面反映 RAG 系统的复杂性和实际表现。特别是,它们只能提供一个最终打分报告,仅反映 RAG 系统的性能优劣。

人生病了需要去医院做检查,那 RAG 系统生病了,如何诊断呢?

近日,亚马逊上海人工智能研究院推出了一款名为 RAGChecker 的诊断工具为 RAG 系统提供细粒度、全面、可靠的诊断报告,并为进一步提升性能,提供可操作的方向。本文详细介绍了这个 RAG 的 “显微镜”,看看它如何帮助开发者们打造更智能、更可靠的 RAG 系统。

RAGChecker: RAG 系统的全面诊断工具

想象一下,如果我们能对 RAG 系统进行一次全面的 “体检”,会是什么样子?RAGChecker 就是为此而生的。它不仅能评估系统的整体表现,还能深入分析检索和生成两大核心模块的性能。

RAGChecker 的主要特点包括:

  1. 细粒度评估:RAGChecker 采用基于声明(claim)级别的蕴含关系检查,而非简单的回复级别评估。这种方法能够对系统性能进行更加详细和微妙的分析,提供深入的洞察。
  2. 全面的指标体系:该框架提供了一套涵盖 RAG 系统各个方面性能的指标,包括忠实度(faithfulness)、上下文利用率(context utilization)、噪声敏感度(noise sensitivity)和幻觉(hallucination)等。
  3. 经过验证的有效性:可靠性测试表明,RAGChecker 的评估结果与人类判断有很强的相关性,其表现超过了其他现有的评估指标。这保证了评估结果的可信度和实用性。
  4. 可操作的洞察:RAGChecker 提供的诊断指标为改进 RAG 系统提供了明确的方向指导。这些洞察能够帮助研究人员和实践者开发出更加有效和可靠的 AI 应用。

RAGChecker 的核心指标

RAGChecker 的指标体系可以用下图直观的理解:

这些指标被分为三大类:

  1. 整体指标:

    • Precision(精确率):模型回答中正确陈述的比例
    • Recall(召回率):模型回答中包含的标准答案中陈述的比例
    • F1 score(F1 分数):精确率和召回率的调和平均数,提供平衡的性能度量
  2. 检索模块指标:

    • Context Precision(上下文精确率):在所有检索块中,包含至少一个标准答案陈述的块的比例
    • Claim Recall(陈述召回率):被检索块覆盖的标准答案陈述的比例
  3. 生成模块指标:

    • Context Utilization(上下文利用率):评估生成模块如何有效利用从检索块中获取的相关信息来产生正确的陈述。这个指标反映了系统对检索到的信息的利用效率。
    • Noise Sensitivity(噪音敏感度):衡量生成模块在回答中包含来自检索块的错误信息的倾向。这个指标帮助识别系统对不相关或错误信息的敏感程度。
    • Hallucination(幻觉):测量模型生成既不存在于检索块也不在标准答案中的信息的频率。这就像是捕捉模型 “凭空捏造” 信息的情况,是评估模型可靠性的重要指标。
    • Self-knowledge(模型内部知识):评估模型在未从检索块获得信息的情况下,正确回答问题的频率。这反映了模型在需要时利用自身内置知识的能力。
    • Faithfulness(忠实度):衡量生成模块的响应与检索块提供的信息的一致程度。这个指标反映了系统对给定信息的依从性。

这些指标就像是 RAG 系统的 “体检报告”,帮助开发者全面了解系统的健康状况,并找出需要改进的地方。

开始使用 RAGChecker

对于想要尝试 RAGChecker 的开发者来说,上手过程非常简单。以下是快速入门的步骤:

  1. 环境设置:首先,安装 RAGChecker 及其依赖:

    1
    2
    pip install ragchecker
    python -m spacy download en_core_web_sm
  2. 准备数据:将 RAG 系统的输出准备成特定的 JSON 格式,包括查询、标准答案、模型回答和检索的上下文。数据格式应如下所示:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    {
    "results": [
    {
    "query_id": "< 查询 ID>",
    "query": "< 输入查询 >",
    "gt_answer": "< 标准答案 >",
    "response": "<RAG 系统生成的回答 >",
    "retrieved_context": [
    {
    "doc_id": "< 文档 ID>",
    "text": "< 检索块的内容 >"
    },
    ...
    ]
    },
    ...
    ]
    }
  3. 运行评估:

    使用命令行:

    1
    2
    3
    ragchecker-cli \
    --input_path=examples/checking_inputs.json \
    --output_path=examples/checking_outputs.json

    或者使用 Python 代码:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    from ragchecker import RAGResults, RAGChecker
    from ragchecker.metrics import all_metrics

    # 从 JSON 初始化 RAGResults
    with open ("examples/checking_inputs.json") as fp:
    rag_results = RAGResults.from_json (fp.read ())

    # 设置评估器
    evaluator = RAGChecker ()

    # 评估结果
    evaluator.evaluate (rag_results, all_metrics)
    print (rag_results)
  4. 分析结果:RAGChecker 会输出 json 格式的文件来展示评估指标,帮助你了解 RAG 系统的各个方面表现。

通过分析这些指标,开发者可以针对性地优化 RAG 系统的各个方面。例如:

  • 较低的 Claim Recall(陈述召回率)可能表明需要改进检索策略。这意味着系统可能没有检索到足够多的相关信息,需要优化检索算法或扩展知识库。
  • 较高的 Noise Sensitivity(噪音敏感度)表明生成模块需要提升其推理能力,以便更好地从检索到的上下文中区分相关信息和不相关或错误的细节。这可能需要改进模型的训练方法或增强其对上下文的理解能力。
  • 高 Hallucination(幻觉)分数可能指出需要更好地将生成模块与检索到的上下文结合。这可能涉及改进模型对检索信息的利用方式,或增强其对事实的忠实度。
  • Context Utilization(上下文利用率)和 Self-knowledge(模型内部知识)之间的平衡可以帮助你优化检索信息利用和模型固有知识之间的权衡。这可能涉及调整模型对检索信息的依赖程度,或改进其综合利用多种信息源的能力。

通过这种方式,RAGChecker 不仅提供了详细的性能评估,还为 RAG 系统的具体优化方向提供了清晰的指导。

在 LlamaIndex 中使用 RAGChecker

RAGChecker 现在已经与 LlamaIndex 集成,为使用 LlamaIndex 构建的 RAG 应用提供了强大的评估工具。如果你想了解如何在 LlamaIndex 项目中使用 RAGChecker,可以参考 LlamaIndex 文档中关于 RAGChecker 集成的部分。

结语

RAGChecker 的推出为 RAG 系统的评估和优化提供了一个新的工具。它为开发者提供了一把 “显微镜”,帮助他们深入了解、精准优化 RAG 系统。无论你是正在研究 RAG 技术的学者,还是致力于开发更智能 AI 应用的工程师,RAGChecker 都将是你不可或缺的得力助手。读者可以访问 RAGChecker 项目地址 获取更多信息或参与到项目的开发中来。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

一年秀一次!稚晖君的人形机器人上新了,还有开源、免费彩蛋

一年一秀,稚晖君的第二代人形机器人来了。

灵巧小手,正在麻将桌上叱咤风云:

image1

不对不对,让我们先看看整体气质:

image2

然后是常规家务,能看出来也是非常熟练:

image3

image4

image5

在大模型风靡的 2024 年,如果说 AI 领域什么最火,「具身智能」这个方向必定位列其中。


视线放到国内,「智元机器人」这家具身智能公司备受瞩目。自 2023 年 2 月成立以来,「智元机器人」已马不停蹄地完成了 6 轮融资,迅速成为机器人创业圈的「顶流项目」。

创业半年,稚晖君和团队就拿出了首款产品「远征 A1」。一出道,「远征 A1」的行走能力和人机互动就是业界领先水平。不过,在「远征 A1」初次亮相之后,我们似乎再也没听说过它的下一步消息,甚至没有放出任何整活视频。

[Mardown格式太长,请向下查看]

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

埃隆·马斯克表示X将在“审查令”后从巴西撤出

埃隆·马斯克周六宣布,由于巴西法官亚历山德罗·德·莫拉埃令其封锁某些帐户,社交媒体平台X将“立即生效”关闭其在巴西的运营,称这是因为“审查令”。


X声称,莫拉埃秘密威胁其在这个南美国家的一名法律代表,称如果不遵守从其平台取下某些内容的法律令,将会被逮捕。巴西最高法院,莫拉埃的任职地,未立即回应置评请求。

由于在巴西“司法”@亚历山德罗要求我们违反(秘密)巴西、阿根廷、美国和国际法的要求,𝕏别无选择,只能关闭我们在巴西的本地运营。他对司法是个彻头彻尾的耻辱。https://t.co/yAvX1TpuRp— 埃隆·马斯克 (@elonmusk) August 17, 2024

昨晚,亚历山德罗·莫拉埃以秘密命令方式威胁我们在巴西的法律代表,称如果不遵守其审查令,将被逮捕。我们在此分享这个命令,以揭露其行为。

埃隆·马斯克的地位平台表示,X服务仍然向巴西人民开放。

今年早些时候,莫拉埃命令X封锁某些帐户,他正在调查所谓的“数字民兵”,这些人被指控在极右翼前总统贾伊尔·博索纳罗执政期间传播虚假新闻和仇恨言论。

莫拉埃今年早些时候对马斯克进行了调查,此前,马斯克表示将重新激活X上一些被法官命令封锁的帐户。马斯克称莫拉埃关于X的决定“违宪”。

在马斯克提出质疑后,X代表转变立场,并告诉巴西最高法院,这家社交媒体巨头将遵守法律裁决。

今年4月,代表X在巴西的律师告诉最高法院,“操作性错误”导致被要求封锁的用户仍能在社交媒体平台上活跃,此后莫拉埃要求X解释为何据称未完全遵守其决定。

探讨更多关于这些主题的内容
埃隆·马斯克
X
巴西
美洲
互联网
新闻
分享

内容共享声明。请注意:本文为中文翻译稿件。原文文本链接:https://www.theguardian.com/technology/article/2024/aug/17/elon-musk-x-brazil



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Elon Musk表示,X将在“审查令”后撤出巴西

埃隆·马斯克于周六宣布,社交媒体平台X因巴西法官亚历山德罗·德莫拉斯的所谓“审查令”,将立即关闭在巴西的运营。


“审查令”要求X屏蔽某些账户,因其调查假新闻和仇恨言论。X声称德莫拉斯秘密威胁该公司在南美国家的一名法律代表,称如果不遵守法律命令从平台上删除某些内容,就将逮捕该代表。德莫拉斯是巴西最高法院法官之一,该法院尚未立即回应置评请求。由于巴西“正义”@Alexandre要求我们(秘密)违反巴西、阿根廷、美国和国际法律,𝕏别无选择,只能立即关闭我们在巴西的本地业务。他对司法体系的行径是彻头彻尾的耻辱。https://t.co/yAvX1TpuRp— 埃隆·马斯克 (@elonmusk) 2024年8月17日昨晚,亚历山德罗·德莫拉斯以一项秘密指令威胁了我们在巴西的法律代表,如果我们不服从他的审查令,将逮捕我们的代表。我们在此分享该指令以揭露他的行径。尽管我们发起多次上诉要求最高法院审理,… pic.twitter.com/Pm2ovyydhE— 全球政府事务 (@GlobalAffairs) 2024年8月17日亿万富翁埃隆·马斯克的平台表示,X服务仍然对巴西民众开放。今年早些时候,德莫拉斯命令X屏蔽了某些账户,因其在极右翼前总统雅伊尔·博尔索纳罗执政期间被指控传播假新闻和仇恨言论。德莫拉斯于今年早些时候对马斯克展开了调查,因为后者表示将重新激活X上该法官命令屏蔽的账户。马斯克称德莫拉斯就X的决定是“违宪”的。在马斯克提出质疑后,X代表改弦易辙,并告诉巴西最高法院,这家社交媒体巨头将遵守法律裁定。X在巴西的律师在今年4月告诉最高法院,“操作失误”导致被命令屏蔽的用户仍可以在社交媒体平台上活跃,德莫拉斯要求X解释为何据称未完全遵守他的决定。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB