Galileo发布新的幻觉指数

Galileo发布了最新的“幻觉指数”,这是该公司第二次举办的指数活动。图片{ width=60% }


该指数排名了排名前22位领先的语言模型,将Anthropic的Claude 3.5 Sonnet列为在所有任务上表现最好的模型。

Galileo是企业生成式人工智能开发领域的领导者,今天宣布推出最新的幻觉指数,这是一个以检索增强生成(RAG)为重点的评估框架,评估了22个领先的生成式人工智能(Gen AI)大型语言模型(LLMs),这些模型来自OpenAI、Anthropic、Google和Meta等品牌。

今年的指数框架新增了11个模型,代表了过去8个月中开源和闭源LLMs迅速增长的趋势。随着各大品牌竞相创建更大、更快、更准确的模型,幻觉仍然是部署可投入生产的Gen AI产品的主要障碍。

最佳表现的LLM是Anthropic的Claude 3.5 Sonnet。这款闭源模型在短、中、长上下文场景下超过了竞争对手的表现。Anthropic的Claude 3.5 Sonnet和Claude 3 Opus在各个类别中持续接近完美分数,击败了去年的获奖者GPT-4o和GPT-3.5,特别是在较短的上下文场景中表现出色。

成本最佳表现的模型是Google的Gemini 1.5 Flash。由于在所有任务上的出色表现,这款Google模型在成本方面排名最佳。

最佳开源模型是阿里巴巴的Qwen2-72B-Instruct。这款开源模型在短和中等上下文中表现最佳。

Galileo的首席执行官兼联合创始人Vikram Chatterji表示:“在当今快速发展的人工智能领域,开发人员和企业面临一个关键挑战:如何在平衡成本、准确性和可靠性的情况下利用生成式人工智能的力量。目前的基准往往基于学术用例,而非真实世界的应用。我们的新指数旨在通过在需要LLMs检索数据的真实用例中测试模型来解决这一问题,这在企业人工智能实施中是一个常见做法。”

主要发现和趋势:

  • 开源正在缩小差距:像Claude-3.5 Sonnet和Gemini 1.5 Flash这样的闭源模型仍然是排名前几位的模型,得益于专有训练数据,但类似Qwen1.5-32B-Chat和Llama-3-70b-chat等开源模型正迅速缩小差距,改进了幻觉表现,并且具有比闭源对手更低的成本壁垒。
  • 长上下文长度的整体改善:当前的RAG LLMs,如Claude 3.5 Sonnet、Claude-3-opus和Gemini 1.5 pro 001 在扩展上下文长度方面表现特别出色,而不会失去质量或准确性,反映了在模型训练和架构方面所取得的进展。
  • 大模型并非始终最佳选择:在某些情况下,较小的模型表现优于更大的模型。例如,Gemini-1.5-flash-001胜过了更大的模型,这表明在模型设计中的效率有时可能胜过规模。
  • 从国内到全球关注:来自美国以外的LLMs,如Mistral的Mistral-large和阿里巴巴的qwen2-72b-instruct,正在成为该领域新兴的参与者,并继续增长其知名度,代表着创造高效语言模型的全球推动。
  • 有待改进:虽然谷歌的开源Gemma-7b表现最差,但他们的闭源Gemini 1.5 Flash模型始终位居前列。

查看Galileo的完整幻觉指数结果,请点击这里。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Compatio AI推出先进配置器产品

Compatio AI,一家领先的高级产品配置和推荐解决方案提供商,推出了其最新突破:Compatio Configure。图片{ width=60% }


Configure被视为电气和工业自动化行业的首选配置工具,为产品兼容性和应用相关性提供了其他系统无法提供的洞察力。
针对满足制造商和分销商供应技术零部件和系统的复杂需求进行了优化,Compatio Configure旨在转变行业对引导销售的方法。它使员工能够配置符合技术规格、复杂的产品间兼容性以及销售历史要求的解决方案,无论其经验水平如何。Configure建立在Compatio AI专有的Product eXpert Engine图数据库之上,该数据库集成了人工智能、数据科学和人类专业知识,创造了Real Intelligence™,为复杂产品配置提供了最先进的技术兼容性计算。
Compatio AI的Configure的关键特性包括:
库存感知:Configure保持实时库存感知,确保所有产品推荐不仅在技术上兼容,而且当前可用以便及时交付。这种互动贯穿产品利用和推广,提供一个连贯丰富的拥有过程。集成优化推荐:利用先进算法,Configure提供满足每位客户具体需求的优化推荐,提高效率和满意度。整合知识库:一个全面的知识库支撑Configure,使其能够在整个企业范围内做出知情的配置和兼容性的推荐。
“Compatio的新配置器解决方案以前所未有的方式赋予制造商和分销商权力,优化效率、参与度和兼容性,”Compatio AI的创始人兼首席执行官Tim Baynes表示。Configure体现了以客户为中心的创新,赋予消费者控制权,最小化退货,并提供无与伦比的便利性。
另外,Compatio AI很高兴宣布推出专为工业自动化行业设计的四个预构建配置器。这些配置器包括用于面板、外壳、变频驱动器(VFD)和电机控制的配置器。每个预构建配置器都经过量身定制,旨在简化配置过程,确保复杂工业系统的精确高效设置。
在一个速度、准确性和效率至关重要的市场环境中,Compatio AI的Configure凭借强大的性能脱颖而出。它将强大性能与易维护性相结合,确保低总拥有成本,并为技术卓越树立了一个新标准,而不具备其他产品中经常出现的缺点。
Configure满足制造商和分销商协助客户构建复杂解决方案的迫切需求,融合了人类编码知识和AI/ML技术。这种创新产品相对于仅依赖单一制造商零部件或昂贵技术人员推荐的解决方案具有明显优势,使其成为行业领导者和有利选择。
要了解有关Compatio Configure的更多信息,或安排演示,请访问www.compatio.ai,或联系sales@compatio.ai。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Thumos Care提出市场友好的全面基本医疗保健

Thumos Care,一家领先的人工智能健康优化平台,今天发布了2024年人工智能增强全面健康与预防法案(AIUHP Act)的提议。图片{ width=60% }


该立法旨在促进美国范围内公平获取人工智能增强预防性健康服务,利用现有的医疗保健基础设施和私营部门的创新。该提案与最近监管机构在医疗保健领域关注的人工智能竞争和生命周期管理密切相关。

提议的AIUHP法案的关键方面包括:

  • 促进所有美国居民对人工智能增强预防性健康服务的平等获取,构建在现有的医疗保险覆盖基础上。
  • 支持公私合作伙伴关系,加速人工智能增强预防性医疗保健领域的创新。
  • 支持社区实施,以解决健康差距问题,并促进当地的健康倡议。
  • 健全的隐私和数据保护措施,解决人工智能在医疗保健领域所面临的独特挑战。
  • 成立人工智能公平委员会,以确保公平执行并防止算法偏见。

Thumos Care的联合创始人Shan Rizvi表示:“我们提出的法案与反垄断策略执行者关于人工智能竞争问题的联合声明保持一致。我们致力于培育一个促进公平交易、互操作性和消费者选择的生态系统,这些原则在联合声明中得到了强调。通过促进对Thumos Care等创新工具的平等获取,我们有可能在提高所有美国人的医疗保健成本节省数十亿美元的同时改善结果。”

该提案的设计是具有成本效益的,主要促进人工智能增强健康工具的采用,而不是创建新的政府项目。它利用现有的医疗保险覆盖年度健康检查,最小化额外成本。

Thumos Care的联合创始人Dr. Maryam Baqir强调了该法案与最近FDA指南的一致性:“我们的提案包含了FDA最近发布的人工智能生命周期概念的关键要素。我们特别关注强大的数据管理、模型验证和现实世界表现评估。此法案创建了一个在医疗保健领域负责任整合人工智能的框架,确保患者安全和道德实践。”

该提议的立法包括促进公私合作伙伴关系以推动人工智能增强医疗保健领域的创新和研究。它还强调了基于社区的倡议的重要性以及解决健康差距问题。

针对潜在的隐私担忧,Rizvi补充说:“我们已注意到监管机构对于人工智能技术的消费者通知和披露的关注增加。我们的法案包括有关透明与用户进行关于人工智能在其医疗保健中的参与的通信的强有力规定,与新兴政策趋势保持一致。”

公司目前正在征求医疗保健专业人士、决策者和患者倡导团体的反馈,以完善该提案。Thumos Care邀请公众就这种创新的医疗保健方法进行讨论,并欢迎所有利益相关者提出意见。

有关2024年人工智能增强全面健康与预防法案和Thumos Care倡议的更多信息,请访问www.thumoscare.com/universal-basic-health。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

刚刚,OpenAI正式进军搜索!发布SearchGPT:专挑谷歌不会的问题演示

刚刚,OpenAI正式进军搜索,发布SearchGPT原型。

奥特曼直言:我们认为今天的搜索还有改进空间。


官方演示中的问题比较有特色,并不是搜索一些泛泛的知识,而是与具体的时空有关联。

这周末什么时间可以在半月湾(旧金山附近)看到海兔?

SearchGPT的回答也不是干巴巴的信息呈现,而是延续了对话形式:

想看的话,你应该在退潮时去,因为海兔经常出现在潮间带和岩石海岸,以下是这周的退潮时间段……

同时辅以图片展示,和参考链接。

最后还提醒用户去查询本地潮汐预测网站,以应对可能的变化。

在追问模式中,OpenAI演示了一个口语化的简短提问“会很热吗?”

SearchGPT这次也没有废话,直接给出一张未来一周当地天气表格。

如宣传文案所说,“通过清晰且相关的来源为您提供快速及时的答案”。

OpenAI表示,现在SearchGPT还处于原型阶段,收集反馈改进后将集成到ChatGPT。

注意了,这次想加入试用的话,要手动点击加入排队。

这种复古玩法也是很久没见了,上一次还是上一次。(报名地址在文末获取)

SearchGPT与谷歌对比如何?

根据提问中首字母和“i”不大写,合理怀疑这就是奥特曼自己搜的。(doge)

OpenAI挑这样一个问题来演示,除了展示SearchGPT自身能力特点之外,很难说不是专挑谷歌回答不好的例子。

同样的问题在谷歌搜索,并没有触发AI总结,且搜索结果第一页的链接时效性都不强。

排第一的页面也是2个多月前了,“本周末”这个信息点是一点不看。

AI搜索领域另一大竞争者,Perplexity表现如何呢?

也没能像SearchGPT一样给出具体时间段,只是推荐在退潮期,倒是在其他相关注意事项上补充的很全。

有最佳观赏打卡点,应该携带什么物品,安全、环保须知,以及可能看到的物种……

其他AI搜索引擎表现与Perlexity大致相同。

这波你更青睐哪种搜索结果?

另外把问题换成中文,在百度倒是能搜出用户撰写的实用攻略,而且是我们自己的山东威海半月湾了,倒是也很合理。

(用英文原问题搜索百度,会触发翻译)

一步得到答案

说回到SearchGPT本身,主打的就是更快、更轻松地找到正在寻找的内容。

打破过去在网络上获取答案可能需要付出很多努力,通常需要多次尝试才能获得相关结果。

另一项演示中也是与时间地点相关:“北卡Boone八月的音乐节”。

这里也可以看到可以看到整个界面的布局,点击“展开链接”后,AI总结会出现在右边,而更多链接出现在左边。

不过这一页的搜索结果,被眼尖的网友挑出几处错误。

喔吼,当初谷歌就是因为在发布会上演示Bard错误回答,股价大跌,不过OpenAI没有股价可跌。

左侧边栏中看起来像图库的按钮,这次并未展示具体功能。

此外一些鼠标指向AI总结中的参考链接,可以预览页面标题。

初始提问和后续追问共享上下文。演示例子是“最好种的番茄品种”→”这里哪些是现在可以种的?”

最后,OpenAI还强调了和版权方、内容创作者的合作关系。

与SearchGPT一起,还推出了一种让提供方管理内容在SearchGPT中的显示方式的方法。

此外搜索索引和大模型训练数据是分开的,即使一家网站选择不允许把数据用于AI训练,也可以选择在搜索结果中展示页面。

那么SearchGPT究竟什么时候能大规模开放使用呢?

鉴于年初的Sora,五月的《Her》都还没有影,悲观的网友预测明年能用就不错了……

总之先排个队吧。

排队地址:
https://chatgpt.com/search

参考链接:
[1] https://openai.com/index/searchgpt-prototype/
[2] https://x.com/sama/status/1816551657158877187



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

老外都在用!盘点全球最高效的十大办公AI工具

尽管人们担心人工智能会取代人类,但大部分“打工人”还是在工作中积极拥抱AI来提高工作效率。根据FlexOS收集的Similarweb网站流量数据,5月份,OpenAI的ChatGPT使用量增长了74%,网站访问量从4月份的18亿次增至31亿次。


ChatGPT是5月份全球工作中使用最多的生成式人工智能工具,紧随其后的竞争对手包括谷歌Gemini和Anthropic的Claude。
根据FlexOS,以下是全球工作中最常使用的十大AI工具,按照使用频率从低到高排序。

10. ElevenLabs

ElevenLabs开发的AI模型可以生成音频语音、声音和音效,适用于包括有声书和视频游戏角色在内的内容,并且支持29种语言。据该公司称,其人工智能音频模型还被用于帮助失声者和特殊需求者。根据Similarweb的数据,从4月到6月,ElevenLabs在全球的总访问量为6387万次.
ElevenLabs

09. Poe

Poe由问答网站Quora创建,允许用户在一个平台上与ChatGPT和Claude等人工智能聊天机器人互动。根据Similarweb的数据,从3月到5月,该网站在全球的总访问量达到了1.48亿次.
Poe

08. Claude

Anthropic表示,Claude由人工智能初创公司Anthropic开发,是一款“为工作而生”的人工智能助手。根据Similarweb的数据,从3月到5月,该助手在全球的总访问量达到了1.86亿次.
Claude

07. GitHubCopilot

GitHubCopilot是一款面向软件开发人员的编程和编码辅助工具。根据FlexOS的数据,它是5月份增长速度第十快的人工智能工作工具.
GitHubCopilot

06. Suno

Suno是一款人工智能音频生成器,允许用户从文本中生成音乐。它和另一家人工智能音乐初创公司Udio正被环球音乐集团(UMG)、索尼音乐娱乐公司(SonyMusicEntertainment)和华纳唱片公司(WarnerRecords)等大型唱片公司起诉,指控它们未经同意使用艺术家的作品.
Suno

05. PerplexityAI

Perplexity是一个人工智能聊天机器人搜索引擎,旨在与谷歌一较高下。根据Similarweb的数据,这家自称为“传统搜索引擎替代品”的初创公司在3月至5月期间的全球总访问量达到了2.174亿次.
PerplexityAI

04. QuillBot

QuillBot是一款人工智能驱动的写作和编辑工具,有助于专业写作。根据Similarweb的数据,该网站6月份的总访问量为5270万次.
QuillBot

03. GoogleGemini

根据FlexOS的数据,谷歌人工智能聊天机器人Gemini是ChatGPT在大型语言模型(LLM)类别中最接近的竞争对手。它占据了5月份LLM流量的11%,也就是近4.19亿次访问.
GoogleGemini

02. CanvaAISuite

根据FlexOS的数据,CanvaAI套件被列入图像生成器和编辑器类别,占5月份100大人工智能工作工具流量的6%。该套件包括图片、视频和演示文稿生成器.
CanvaAISuite

01. ChatGPT

根据Similarweb的数据,OpenAI的ChatGPT是5月份全球最受欢迎的人工智能工作工具,网站访问量达31亿次。FlexOS指出,OpenAI在5月份将ChatGPT从原来的子域转移到了一个新域,但在3月份就已经开始重定向流量。
据FlexOS称,虽然美国是ChatGPT的最大市场,但印度、印度尼西亚和巴西也是ChatGPT使用率最高的国家。该聊天机器人还占据了工作AI工具100强67%的流量.



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

刚刚,OpenAI正式进军搜索!发布SearchGPT:专挑谷歌不会的问题演示

刚刚,OpenAI正式进军搜索,发布SearchGPT原型。

奥特曼直言:我们认为今天的搜索还有改进空间。


官方演示中的问题比较有特色,并不是搜索一些泛泛的知识,而是与具体的时空有关联。

这周末什么时间可以在半月湾(旧金山附近)看到海兔?

SearchGPT的回答也不是干巴巴的信息呈现,而是延续了对话形式:

想看的话,你应该在退潮时去,因为海兔经常出现在潮间带和岩石海岸,以下是这周的退潮时间段……

同时辅以图片展示,和参考链接。

最后还提醒用户去查询本地潮汐预测网站,以应对可能的变化。

在追问模式中,OpenAI演示了一个口语化的简短提问“会很热吗?”

SearchGPT这次也没有废话,直接给出一张未来一周当地天气表格。

如宣传文案所说,“通过清晰且相关的来源为您提供快速及时的答案”。

OpenAI表示,现在SearchGPT还处于原型阶段,收集反馈改进后将集成到ChatGPT。

注意了,这次想加入试用的话,要手动点击加入排队。

这种复古玩法也是很久没见了,上一次还是上一次。(报名地址在文末获取)

SearchGPT与谷歌对比如何?

根据提问中首字母和“i”不大写,合理怀疑这就是奥特曼自己搜的。(doge)

OpenAI挑这样一个问题来演示,除了展示SearchGPT自身能力特点之外,很难说不是专挑谷歌回答不好的例子。

同样的问题在谷歌搜索,并没有触发AI总结,且搜索结果第一页的链接时效性都不强。

排第一的页面也是2个多月前了,“本周末”这个信息点是一点不看。

AI搜索领域另一大竞争者,Perplexity表现如何呢?

也没能像SearchGPT一样给出具体时间段,只是推荐在退潮期,倒是在其他相关注意事项上补充的很全。

有最佳观赏打卡点,应该携带什么物品,安全、环保须知,以及可能看到的物种……

其他AI搜索引擎表现与Perlexity大致相同。

这波你更青睐哪种搜索结果?

另外把问题换成中文,在百度倒是能搜出用户撰写的实用攻略,而且是我们自己的山东威海半月湾了,倒是也很合理。

(用英文原问题搜索百度,会触发翻译)。

一步得到答案

说回到SearchGPT本身,主打的就是更快、更轻松地找到正在寻找的内容。

打破过去在网络上获取答案可能需要付出很多努力,通常需要多次尝试才能获得相关结果。

另一项演示中也是与时间地点相关:“北卡Boone八月的音乐节”。

这里也可以看到可以看到整个界面的布局,点击“展开链接”后,AI总结会出现在右边,而更多链接出现在左边。

不过这一页的搜索结果,被眼尖的网友挑出几处错误。

喔吼,当初谷歌就是因为在发布会上演示Bard错误回答,股价大跌,不过OpenAI没有股价可跌。

左侧边栏中看起来像图库的按钮,这次并未展示具体功能。

此外一些鼠标指向AI总结中的参考链接,可以预览页面标题。

初始提问和后续追问共享上下文。演示例子是“最好种的番茄品种”→”这里哪些是现在可以种的?”

最后,OpenAI还强调了和版权方、内容创作者的合作关系。

与SearchGPT一起,还推出了一种让提供方管理内容在SearchGPT中的显示方式的方法。

此外搜索索引和大模型训练数据是分开的,即使一家网站选择不允许把数据用于AI训练,也可以选择在搜索结果中展示页面。

那么SearchGPT究竟什么时候能大规模开放使用呢?

鉴于年初的Sora,五月的《Her》都还没有影,悲观的网友预测明年能用就不错了……

总之先排个队吧。

排队地址:
https://chatgpt.com/search

参考链接:
[1] https://openai.com/index/searchgpt-prototype/
[2] https://x.com/sama/status/1816551657158877187


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Sam Altman:为防止中国超越,美国应加强AI的4大投入

OpenAI联合创始人兼首席执行官Sam Altman在华盛顿邮报,最新发布了一篇名为《Who will control the future of AI?》的深度长文。

**Sam认为,谁能掌控AI的创新和持续发展,谁就能统治未来的世界。


** 目前,美国依靠ChatGPT、Copilot 等产品,在生成式AI、大模型领域取得领先地位,但这只是阶段性并不稳固。

而中国在生成式AI领域进行了大量投资,包括基础建设(电厂、算力集群)、监管条例、技术生态以及场景化应用等,已经成为美国的头号竞争对手,并且在未来很可能会超越美国。

所以,Sam建议美国应该联合英国、德国、日本、韩国等盟友,打造一个“世界级AI联盟”实现统一的战略目标,来对抗那些信仰、价值观不同的国家,从而获得领先的主导地位。可以从以下4个方面入手。

1、制定强大的安全措施: Sam强调了网络防御和数据中心的安全创新的重要性。以防止黑客窃取大模型权重和AI训练数据等重要知识产权。

可以通过AI来自动识别和阻挠潜在的网络威胁,同时还要确保这些防御措施可以快速适应不断演变的网络攻击手段。

2、基础设施建设: 主张通过建立公私合作伙伴关系来,投资必要的物理基础设施,这包括算力中心、网络光纤、发电厂等,这些基础设施对于AI的长期发展和技术创新至关重要。在建造这些基础设施的同时,还能提供全新的就业机会是一个多赢的举措。

3、商业出口管控: 可以制定明确的出口管制和外国投资规则的重要性,以及在全球范围内构建AI系统的指导方针。包括处理数据本地化的敏感问题,确保AI技术的健康发展和应用不受到政治和地理的限制。作为实际行为,OpenAI前不久刚停止了对中国API的支持。

4、全球模式: 需要创新地思考全球如何建立AI发展和部署的规范,特别是要关注安全问题,并确保历史上被忽视的南方和其他国家能够参与进来。但这需要像处理其他全球重要问题一样,与中国进行接触并持续对话。

Sam认为,可以建设一个类似国际原子能机构的组织,将日本、英国等国家正在建立的AI安全研究所网络联合起来,并设立一个投资基金,那些遵守民主AI协议的国家可以从中获得资金,以扩大他们国内的AI算力从而获取更多的盟友支持。

关于这篇文章有478个评论,多数人认为,Sam写这篇文章只是一个“自保”的行为,希望美国政府不要把OpenAI作为眼中钉肉中刺,总是三番五次的调查、制裁他们,应该集中火力一致对外。

同时他也非常有政治头脑,知道“中美对抗”是一个非常热门且正确的话题,他通过移花接木的方式把苗头转向第三方,从而降低自身所受到的伤害。

以下是部分网友对这篇文章的评论。

Sam Altman的立场并不诚实。他只关心其开发的产品能带来哪些名利和财富,对这项技术所带来的裁员等负面消息丝毫不关心。

即便你所谓的大语言模型也并不是真正的AI,你只是在模仿、抄袭别人的东西,然后再此基础之上进行二次创新。

我有一个小型的电子商务网站,需要不停阻止OpenAI的网络爬虫,因为它行为非常糟糕。所以,我对Sam Altman持怀疑态度,因为一个真正的好人,是不可能创建这么一个极端不负责任的网络爬虫。

我同意Sam的许多观点,但他过去的行为告诉我们他不值得信任。他会说什么是明智的,什么是人们爱听的,但他所说的与行动不一致。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

陶哲轩点评谷歌AlphaProof:AI在数学竞赛中展现「超凡智慧」

在奥数问题面前,AI 的「智商」往往不太够用。
不过,这已经是过去式了。


谷歌 DeepMind 用 AI 做出了今年国际数学奥林匹克竞赛 IMO 的真题,并且距拿金牌仅一步之遥。对于 AI 来说,奥数不再是问题了。
IMO 2024 中六个问题的每一个问题满分为 7 分,总分最高 42 分。DeepMind 的系统最终得分为 28 分,意味着解决的 4 个问题都获得了满分 —— 相当于银牌类别的最高分。

图片

DeepMind 文章连接:https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

常用 AI 辅助证明的数学家陶哲轩近期正处在出差的忙碌中,对问题求解引擎 AlphaProof 和 AlphaGeometry2 还未完全消化。但他在自己的博客上对 DeepMind 的 AI 系统参加 IMO 竞赛这件事表达了自己的看法。

图片

陶哲轩谈到,这是一项非常伟大的工作, 再次改变了我们对哪些基准挑战可以通过 AI 辅助或完全自主的方法实现的期望。
例如,IMO 级别的几何问题现在对于专用的 AI 工具来说已基本解决。现在看来,通过强化学习过程可以找到形式化证明的 IMO 问题至少在某种程度上可以被 AI 攻克。虽然目前每个问题需要相当大的计算量,并且在形式化方面需要人类的帮助。

在陶哲轩看来,这种方法还有一些「buff 加成」,它能使形式化数学更容易自动化,这反过来可能会促进包含形式化成分的数学研究方法。如果更公开地共享由此产生的形式证明数据库,它可能是一个有用的资源。

这种方法(更多地基于强化学习而非大型语言模型,有点类似 AlphaGo 的精神,且强调整体方法)非常聪明,事后来看很有道理。正如「AI 效应」所言,一旦解释清楚,它不会给人一种展示人类智能的感觉;但它仍然是我们 AI 辅助问题解决工具集能力的扩展。

图片

「AI 效应」是指当人工智能技术取得进展或解决问题时,人们往往会认为这些成就并不是真正的人工智能或者不具备真正的智能。换句话说,一旦某项技术被理解或普及,它就不再被认为是智能的。这种现象表明,人们对 “智能” 的定义和期望会随着技术的进步而不断提高。

本月月初,陶哲轩在自己的博客中发布 AI 数学奥林匹克竞赛(AIMO 进步奖)的初步成绩已公布的消息。 其中,获得第一名的是 Numina 的团队。
他在最新博客中表示,DeepMind 的这些新工具无法与最近赢得 AIMO 进步奖的 NuminaMath 模型直接比较。NuminaMath 模型完全自动化且资源效率高出数个数量级,并且采用了完全不同的方法(使用大型语言模型生成 Python 代码,以蛮力解决区域竞赛级别的数值答案问题)。这个模型也是完全开源的。这也是非常不错的工作,展示了尝试使用 AI 来辅助或自动化数学问题解决过程的不同部分的多维挑战。

其实 DeepMind 在数学推理方面有着不懈的努力。在今年年初,它的人工智能算法就已经在数学奥林匹克竞赛(IMO)上取得了重大成绩突破。 论文《Solving olympiad geometry without human demonstrations》向世人介绍了 AlphaGeometry,还登上了国际权威期刊《自然》杂志。专家表示,这是人工智能朝着具有人类推理能力方向迈进的重要一步。

图片

论文链接:https://www.nature.com/articles/s41586-023-06747-5

未来 DeepMind 还将带给我们怎样的惊喜,我们拭目以待。

参考链接:
https://mathstodon.xyz/@tao/112850716240504978

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Sam Altman:为防止中国超越,美国应加强AI的4大投入

OpenAI联合创始人兼首席执行官Sam Altman在华盛顿邮报,最新发布了一篇名为《Who will control the future of AI?》的深度长文。

**Sam认为,谁能掌控AI的创新和持续发展,谁就能统治未来的世界。


** 目前,美国依靠ChatGPT、Copilot 等产品,在生成式AI、大模型领域取得领先地位,但这只是阶段性并不稳固。

而中国在生成式AI领域进行了大量投资,包括基础建设(电厂、算力集群)、监管条例、技术生态以及场景化应用等,已经成为美国的头号竞争对手,并且在未来很可能会超越美国。

所以,Sam建议美国应该联合英国、德国、日本、韩国等盟友,打造一个“世界级AI联盟”实现统一的战略目标,来对抗那些信仰、价值观不同的国家,从而获得领先的主导地位。 可以从以下4个方面入手。

1、制定强大的安全措施: Sam强调了网络防御和数据中心的安全创新的重要性。以防止黑客窃取大模型权重和AI训练数据等重要知识产权。 可以通过AI来自动识别和阻挠潜在的网络威胁,同时还要确保这些防御措施可以快速适应不断演变的网络攻击手段。

2、基础设施建设: 主张通过建立公私合作伙伴关系来,投资必要的物理基础设施,这包括算力中心、网络光纤、发电厂等,这些基础设施对于AI的长期发展和技术创新至关重要。 在建造这些基础设施的同时,还能提供全新的就业机会是一个多赢的举措。

3、商业出口管控: 可以制定明确的出口管制和外国投资规则的重要性,以及在全球范围内构建AI系统的指导方针。 包括处理数据本地化的敏感问题,确保AI技术的健康发展和应用不受到政治和地理的限制。 作为实际行为,OpenAI前不久刚停止了对中国API的支持。

4、全球模式: 需要创新地思考全球如何建立AI发展和部署的规范,特别是要关注安全问题,并确保历史上被忽视的南方和其他国家能够参与进来。 但这需要像处理其他全球重要问题一样,与中国进行接触并持续对话。

Sam认为,可以建设一个类似国际原子能机构的组织,将日本、英国等国家正在建立的AI安全研究所网络联合起来,并设立一个投资基金,那些遵守民主AI协议的国家可以从中获得资金,以扩大他们国内的AI算力从而获取更多的盟友支持。

关于这篇文章有478个评论,多数人认为,Sam写这篇文章只是一个“自保”的行为,希望美国政府不要把OpenAI作为眼中钉肉中刺,总是三番五次的调查、制裁他们,应该集中火力一致对外。

同时他也非常有政治头脑,知道“中美对抗”是一个非常热门且正确的话题,他通过移花接木的方式把苗头转向第三方,从而降低自身所受到的伤害。

以下是部分网友对这篇文章的评论。

Sam Altman的立场并不诚实。他只关心其开发的产品能带来哪些名利和财富,对这项技术所带来的裁员等负面消息丝毫不关心。

即便你所谓的大语言模型也并不是真正的AI,你只是在模仿、抄袭别人的东西,然后再此基础之上进行二次创新。

我有一个小型的电子商务网站,需要不停阻止OpenAI的网络爬虫,因为它行为非常糟糕。所以,我对Sam Altman持怀疑态度,因为一个真正的好人,是不可能创建这么一个极端不负责任的网络爬虫。

我同意Sam的许多观点,但他过去的行为告诉我们他不值得信任。他会说什么是明智的,什么是人们爱听的,但他所说的与行动不一致。


[block:9

[block:9

[block:9

[block:9

[block:9

[block:9

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

沉浸式观看巴黎奥运会,这家融资3.5亿的公司做到了

“行业观察者”是我们针对人工智能、XR、元宇宙和Web3等前沿科技而设立的专栏,主要分享这些领域中的新兴企业或者创业者们的故事。“Infinite Reality是一家通过人工智能和沉浸式技术为下一代数字媒体和电子商务提供动力的创新公司,于2024年7月9日宣布获得高达3.5亿美元的少数股权融资,并同时以4.5亿美元收购沉浸式网络公司Landvault。


该公司持续开发IR元宇宙的背后有着怎样的商业构想?以下是我们的第20期内容,以下Enjoy。疫情点燃了元宇宙之火,它实现了超越现实空间的面对面交互,让许多人得到了精神慰藉。然而现在,在很多人眼里,元宇宙行业如“焚后枯木”。再过两天,万众瞩目的巴黎奥运会就要开幕了。作为后疫情时代的第一场奥运赛事,人们期待着在这场盛会里重燃集体热情。在官方运用阿里AI技术实现“最环保”的同时,国内的视频巨头们也没有闲着,纷纷开始上线沉浸式观赛直播间,致力于提供更多维更立体的比赛效果。而这些数媒空间,正代表着元宇宙的“新生”。Infinite Reality从没有停下拓展元宇宙的脚步,它将联合Landvault,运用最新融资的3.5亿美元探索沉浸式技术这项业务更广阔的未来。01.1分钟项目速览1.项目名称:Infinite Reality2.成立时间:2019年3.产品简介:专注开发元宇宙技术,主要从事数字媒体和电子商务平台的开发,同时为企业开发沉浸式体验提供最先进的工具和服务。4.创始人团队:首席执行官:John Acunto首席创新官:Elliott Jobe首席商务官:Amish Shah5.融资情况:2024年7月9日,Infinite Reality宣布完成3.5亿美元的A轮融资。02.沉浸式数字环境的引领者自成立以来,Infinite Reality有着从一而终的使命——成为沉浸式技术的全球领导者品牌。该公司希望通过他们所提供的沉浸式体验去促进人类创造力和人际关系的发展,并为那些致力于提高未来受众参与度和培养商业品牌的公司创造无限的价值。正因如此,Infinite Reality选择了元宇宙,也对开放式的元宇宙提出了相对应的愿景:让每个品牌、创作者及观众都能掌握自己的数字体验、数据以及分发内容、商业化创作和建立社区的方式。Infinite Reality的引擎以创建端到端Web框架而闻名,这些框架使Infinite Reality能够开发出具有卓越用户界面的虚拟空间,以此进一步推进其愿景与品牌发展。凭借在设计和创建数字空间方面的丰富经验,Infinite Reality可以改进其内容创作、付费媒体和整体参与策略。与此同时,Infinite Reality的创新团队利用公司技术团队的平台开发专业知识,为定制元宇宙空间的客户提供咨询、设计、管理和监督等相应的帮助。为了巩固其引领沉浸式数字环境革命的基础,Infinite Reality在最近几年里一直积极地推进海外并购项目,而这些被并购的公司在元宇宙方面都拥有一定的成绩。Infinite Reality希望通过强强联手,整合自己的团队,在扩张公司业务范围的同时,不断提高自身在数字媒体领域的竞争力,从而达成成为全球领导者品牌的使命。03.沉浸式产品的无限运用Infinite Reality的产品主要通过创建逼真的虚拟环境,来增强观众的参与度和品牌忠诚度。其技术的核心在于提供高质量的虚拟体验,这些体验可以在电脑、手机、平板和智能电视等多种设备上观看和体验。iR的产品不依赖特定硬件,使得其应用范围更广,用户体验更灵活。Infinite Reality凭借着优质产品,其创新团队早已得到了iR Studios的欣赏和强力支持。iR Studios是一家位于加利福尼亚的1.5万平方英尺的制作工作室,此前曾获得艾美奖。拥有14个录音棚、8K分辨率的XR舞台、电子竞技竞技场、动作和体积捕捉舞台等全套的广播和制作设备。iR Studios与Infinite Reality的创新团队紧密合作,共同研发元宇宙创作和体验的专有技术。此外,通过收购TalentX Entertainment,Infinite Reality获得了一个顶级的社交媒体变现和人才发展公司。TalentX的人才管理风格与Infinite Reality在电子竞技、传统体育、音乐和娱乐领域的专业知识相结合,进一步巩固了iR在创作者经济中的领导地位。在内容创作方面,Infinite Reality提供全面的内容营销策略和执行。通过赞助编辑内容、引人入胜的品牌和促销视频、定制网站、社交媒体管理等手段来提升品牌影响力。Infinite Reality还计划和管理虚拟现场活动,包括为最大的AAA游戏发布、行业活动如E3和圣地亚哥漫画展以及主要电子竞技锦标赛提供活动支持。Infinite Reality的产品通过以下几个步骤实现其沉浸式体验:创意构思:与客户合作,确定项目目标和期望的用户体验;技术实现:利用iR Studios的先进设备和技术,如8K分辨率的XR舞台和动作捕捉技术,创建逼真的虚拟环境;内容开发:开发与品牌和用户体验相匹配的内容,包括视频、图像和互动元素;用户体验设计:确保用户在各种设备上都能获得一致且流畅的体验;发布与推广:通过社交媒体、在线广告和其他渠道推广虚拟体验,吸引观众参与。在实际应用方面,Infinite Reality可以为电子竞技赛事提供一个虚拟的观赛平台,观众可以通过VR设备或智能电视在家中享受到身临其境的观赛体验。同理,Infinite Reality也可以为E3游戏展提供虚拟展览空间,参展商可以在其中展示他们的游戏和产品。观众可以通过虚拟环境与游戏互动,体验游戏的沉浸感。当然,漫展、车展等也不在话下。04.收购Landvault:迈向全球市场的重要一步近日,Infinite Reality获得了3.5亿美元的融资,并宣布以4.5亿美元的价格收购Landvault,迄今为止公司在2024年的交易总额达到8亿美元。Infinite Reality联合创始人兼首席执行官John Acunto表示,“现在,通过与Landvault联手和这笔融资,我们拥有强大的资本化、财务灵活性和坚实的地位,可以成功执行我们的全球市场战略。”Infinite Reality在决定收购Landvault之前,进行了深入的市场调研。Landvault是一家在虚拟现实和增强现实领域具有重要影响力的公司,特别是在元宇宙建设方面有着丰富的经验和资源。通过收购Landvault,Infinite Reality不仅能够迅速进入这一新兴市场,还可以利用其现有的技术和客户基础,加速自身的市场扩张。收购完成后,Infinite Reality迅速将Landvault的技术和资源整合到其现有产品线中,推出了一系列新的VR和AR解决方案。这些解决方案涵盖娱乐、教育、商业等多个领域,满足了不同客户的需求。尤其是在娱乐领域,Infinite Reality推出了多款受欢迎的VR游戏和体验项目,迅速吸引了大量年轻用户,提升了市场份额。与此同时,Infinite Reality积极参加全球各大科技展会和行业论坛,展示其最新的VR和AR产品,并分享成功案例和技术创新。这些活动不仅提高了品牌知名度,还增强了公司在行业内的影响力和话…
【声明】:未经允许严禁转载,如需转载请联系我们,文章版权和最终解释权归元宇宙之心所有。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB