GPTNB · AI资讯与技术分享站

2024-06-18发表2025-03-21更新 ByteAILab 2 分钟读完 (大约289个字)

通过算法层面的创新，未来大语言模型做数学题的水平会不断地提高。

这几天，17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。

而同时，AI 挑战赛的成绩显示，在所有 563 支 AI 参赛队伍中，最高分 34 分，平均分 18 分，赶上了人类选手平均水平。…

不过，在将 MCTS 与 LLM 集成过程中存在一些技术挑战。传统的 MCTS 策略可能与 LLM 输出的随机性和生成性不太吻合，后者通常涉及无限、连续的潜在动作空间。这种不一致需要在 MCTS 框架内采用定制的期望计算和反向传播方法，以更好地适应 LLM 的特有属性。…

方法概览

MCTSr 架构图如图 1 所示：…

详见原文。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-18发表2025-03-21更新 ByteAILab 10 分钟读完 (大约1439个字)

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。

在这个过程中，模态的对齐是通过文本 token 隐式实现的，如何做好这一步的对齐非常关键。

针对这一问题，武汉大学、字节跳动豆包大模型团队和中国科学院大学的研究人员提出了一种基于对比学习的文本 token 筛选方法（CAL），从文本中筛选出与图像高度相关的 token，并加大其损失函数权重，从而实现更精准的多模态对齐。

CAL 有以下几个亮点：

可以直接嵌套到训练过程，无需额外预训练阶段。
在 OCR 和 Caption benchmarks 上获得了明显的提升，从可视化中可以发现 CAL 使得图片模态对齐效果更好。
CAL 使得训练过程对噪声数据抵抗能力更强。

研究动机

目前视觉语言模型依赖于图片模态的对齐，如何做好对齐非常关键。目前主流的方法是通过文本自回归的方式进行隐式对齐，但是每个文本 token 对图像对齐的贡献是不一致的，对这些文本 token 进行区分是非常有必要的。

CAL 提出，在现有的视觉语言模型（VLM）训练数据中，文本 token 可以被分为三类：

与图片高度相关的文本：如实体（例如人、动物、物体）、数量、颜色、文字等。这些 token 与图像信息直接对应，对多模态对齐至关重要。
与图片低相关度的文本：如承接词或可以通过前文推断出的内容。这些 token 实际上主要是在训练 VLM 的纯文本能力。
与图片内容相悖的文本：这些 token 与图像信息不一致，甚至可能提供误导信息，对多模态对齐过程产生负面影响。

在训练过程中，后两类 token 整体而言实际上占据了较大比例，但由于它们并不强依赖于图片，对图片的模态对齐作用不大。因此，为了实现更好的对齐，需要加大第一类文本 token，即与图片高度相关部分 token 的权重。如何找出这一部分 token成为了解决这个问题的关键所在。

方法

找出与图片高度相关 token 这个问题可以通过 condition contrastive 的方式来解决。

具体来说，在训练过程中，CAL 将图文序列和单独的文本序列分别输入到大语言模型（LLM）中，得到每个文本 token 的 logit。通过计算这两种情况下的 logit 差值，可以衡量图片对每个 token 的影响程度。logit 差值越大，说明图片对该 token 的影响越大，因此该 token 与图像越相关。

CAL 在 LLaVA 和 MGM 两个主流模型上进行了实验验证，在不同规模的模型下均实现了性能提升。

包含以下四个部分的验证：

使用 CAL 的模型在各项基准测试指标上表现更佳。
通过按比例随机交换两个图文对中的文本来制造一批噪声数据（图文错配），并用于模型训练，CAL 使得训练过程具有更强的数据抗噪性能。
对 QA case 中的答案部分计算其与图片 token 的注意力分数分布，并将其绘制在原图上，CAL 训练的模型拥有更清晰的注意力分布图。
将每个图片 token映射为它最相似 LLM 词表中的文本 token，将其绘制到原图上，CAL 训练的模型映射内容更接近图片内容。

团队介绍：

字节跳动豆包大模型团队成立于 2023 年，致力于开发业界最先进的 AI 大模型技术，成为世界一流的研究团队，为科技和社会发展作出贡献。

豆包大模型团队在 AI 领域拥有长期愿景与决心，研究方向涵盖 NLP、CV、语音等，在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源，在相关领域持续投入，已推出自研通用大模型，提供多模态能力，下游支持豆包、扣子、即梦等 50 + 业务，并通过火山引擎开放给企业客户。目前，豆包 APP 已成为中国市场用户量最大的 AIGC 应用。欢迎加入字节跳动豆包大模型团队。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-18发表2025-03-21更新 ByteAILab 5 分钟读完 (大约800个字)

高质量3D生成最有希望的一集？GaussianCube在三维生成中全面超越NeRF

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在三维生成建模的研究领域，现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器，要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人员提出了 GaussianCube，这是一种具有强大拟合能力的显式结构化三维表示，并且可以无缝应用于目前主流的 3D 扩散模型中。

GaussianCube 首先采用一种新颖的密度约束高斯拟合算法，该算法能够对 3D 资产进行高精度拟合，同时确保使用固定数量的自由高斯。随后，借助最优传输算法，这些高斯被重新排列到一个预定义的体素网格之中。得益于 GaussianCube 的结构化特性，研究者无需复杂的网络设计就能直接应用标准的 3D U-Net 作为扩散建模的主干网络。

更为关键的是，本文提出的新型拟合算法极大地增强了表示的紧凑性，在 3D 表示拟合质量相似的情况下所需的参数量仅是传统结构化表示所需参数量的十分之一或百分之一。这种紧凑性大幅降低了 3D 生成建模的复杂性。研究人员在无条件和条件性 3D 对象生成、数字化身创建以及文本到 3D 内容合成等多个方面开展了广泛的实验。

数值结果表明，GaussianCube 相较之前的基线算法实现了最高达 74% 的性能提升。如下所示，GaussianCube 不仅能够生成高质量的三维资产，而且还提供了极具吸引力的视觉效果，充分证明了其作为 3D 生成通用表示的巨大潜力。

表 1. 在 ShapeNet Car 上不同的三维表示关于空间结构、拟合质量、相对拟合速度、使用参数量的数值比较。* 表示不同物体共享隐式特征解码器。所有方法均以 30K 次迭代进行评估。

图 1. 无条件生成的结果。本文的方法可以生成高质量、多样化的三维模型。

…

图 12. 基于输入文本创建三维资产的定性比较。本文的方法可以根据输入文本实现高质量三维资产生成。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-18发表2025-03-21更新 ByteAILab 6 分钟读完 (大约862个字)

计算效率提升100倍以上，上交李金金团队开发基于Transformer的大模型用于从头算分子动力学

精确模拟原子与分子的动态行为对于开发新一代高效能材料至关重要。
然而，传统的从头算分子动力学（AIMD）模拟虽然提供了高精度的预测能力，但由于其高昂的计算成本和漫长的模拟时间，大大限制了研究的进度。

例如，完成一个含 100 个原子的材料系统的 30 皮秒模拟，常常需要数月时间，这对于需要快速迭代和优化的新材料研发构成了巨大挑战。
在这种背景下，一个能够显著加快这一过程的人工智能模型具有重要价值。
面对这些挑战，上海交通大学人工智能与微结构实验室（AIMS-lab）开发了名为 T-AIMD 的革命性人工智能模型。
该模型采用了先进的 Transformer 网络架构，不仅能够大幅降低计算成本，同时也能快速准确地预测任何离子在任何晶体结构中的行为。
通过这种方式，T-AIMD 模型将传统的 AIMD 模拟速度提升了 100 倍以上，显著加速了材料性能的评估过程。
此外，该模型还成功构建了一个庞大的混合离子导体数据库，并在多项电池实验中验证了其预测的准确性。
该方法不仅在分子动力学模型（MD），生物药物分子结合靶标、蛋白质折叠、材料热力学过程和力学性能计算等领域具有广泛的应用潜力。
也为使用生成式人工智能模型在更广泛的科学领域内解决复杂问题提供了新的方法论。
T-AIMD 的成功应用展示了人工智能技术在推动科学研究和技术创新中的巨大潜力，为未来的新材料研发和生物设计开发开辟了新的道路。
该研究以「Transformer enables ion transport behavior evolution and conductivity regulation for solid electrolyte」为题，于 2024 年 6 月 11 日发表在国际著名期刊《Energy Storage Materials》上。
论文的第一作者为上海交通大学人工智能与微结构实验室博士生陶科豪，通讯作者为实验室主任李金金教授。
在人工智能领域，Transformer 模型因其卓越的并行处理能力和出色的性能，已经成为处理复杂序列数据的首选框架。
这种模型特别擅长从大规模数据中学习深层次的模式和关联，因此在语言处理、图像识别以及各类预测任务中得到了广泛应用。
尽管如此，在材料科学特别是从头算分子动力学（AIMD）模拟的应用中， Transformer 的潜力尚未得到充分开发。
传统的 AIMD 模拟在材料科学中非常重要，它能够精确模拟原子和分子的动态行为。然而，这类模拟通常依赖于重复的计算和昂贵的实验，…
…
…

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

2024-06-17发表2025-03-21更新 ByteAILab 4 分钟读完 (大约666个字)

“ChatGPT通过未公布的地形测试”

这篇文章讲述了一个名为ChatGPT的自然语言处理模型在未发布的地形测试中的表现。这

是一个由OpenAI团队开发的人工智能模型，旨在模拟人类对话和理解能力。
首先，作者介绍了地形测试（Geometric Test）的概念。该测试是用于评估人工智能模型在解决复杂问题时的性能的一种方法。在这个测试中，模型需要根据给定的输入来生成一个正确的地图，以便能够找到最短路径到达目标点。
接下来，作者详细介绍了ChatGPT模型的架构和训练方式。该模型使用了一种名为Transformer的神经网络结构，并在大规模的对话数据集上进行了预训练。这使得ChatGPT具备了理解自然语言、生成连贯文本等能力。
然后，作者介绍了地形测试中的一些挑战和限制。首先，这个测试需要模型能够理解并解释给定的输入，并根据其内容来生成正确的地图。此外，该测试还要求模型在处理大量的数据时保持高效性和准确性。
接下来，作者详细介绍了ChatGPT在地形测试中的表现。在这个测试中，ChatGPT通过使用预训练的语言理解能力，并结合一些特定的算法来生成正确的地图。结果表明，ChatGPT在处理复杂问题时具有出色的性能，可以快速准确地找到最短路径。
最后，作者总结了文章中的主要观点和结论。他指出，虽然ChatGPT是一个自然语言处理模型，但它的表现在未发布的地形测试中也非常突出。这表明人工智能技术在解决不同类型的问题时具有广泛的应用潜力。同时，这个结果还为开发者提供了一个有用的参考点，可以帮助他们更好地理解和改进自己的模型。
总之，文章介绍了一种名为ChatGPT的人工智能模型，它通过预训练的语言理解能力在未发布的地形测试中表现出色。这篇文章提醒我们，人工智能技术可以应用于不同类型的问题，并且有望进一步提升其性能和效率。

2024-06-17发表2025-03-21更新 ByteAILab 5 分钟读完 (大约769个字)

过去一年中建立AI代理的经验教训

本文作者是C.P

. Dough，他在过去的一年中通过构建AI代理来学习了一些重要的教训。本文将从以下几个方面进行总结：
1. 选择合适的架构
在构建AI代理时，选择一个合适的架构非常重要。不同的架构有着各自的优缺点，因此需要根据具体情况做出选择。在本文中，作者提到了使用基于模拟环境的强化学习（RL）来训练代理，并且在实际应用中也发现了这种方法的有效性。
2. 了解代理的行为
构建AI代理时，理解代理的行为是至关重要的一步。通过观察和分析代理的行为，可以更好地调整其策略，以达到预期的目标。在本文中，作者提到了使用可视化工具来帮助理解代理的行为，并且在实际应用中也发现了这种方法的有效性。
3. 选择合适的评估指标
在构建AI代理时，选择一个合适的评估指标也是非常重要的一步。不同的任务可能需要使用不同的评估指标，因此需要根据具体情况做出选择。在本文中，作者提到了使用累积奖励（cumulative reward）作为评估指标，并且在实际应用中也发现了这种方法的有效性。
4. 了解代理的局限性
构建AI代理时，理解代理的局限性也是非常重要的一步。通过认识代理的局限性，可以更好地调整其策略，以达到预期的目标。在本文中，作者提到了使用多智能体（multi-agent）系统来解决一些代理无法处理的问题，并且在实际应用中也发现了这种方法的有效性。
5. 了解代理的可解释性
构建AI代理时，理解代理的可解释性也是非常重要的一步。通过认识代理的决策过程，可以更好地调整其策略，以达到预期的目标。在本文中，作者提到了使用可解释强化学习（explainable reinforcement learning）来提高代理的可解释性，并且在实际应用中也发现了这种方法的有效性。
总之，本文通过分享构建AI代理的一年经验教训，提供了一些重要的指导意见。选择合适的架构、了解代理的行为、选择合适的评估指标、理解代理的局限性和可解释性都是构建成功AI代理所必须考虑的问题。在实际应用中，这些建议可以帮助我们更好地设计和训练AI代理，以达到预期的目标。

2024-06-17发表2025-03-21更新 ByteAILab 5 分钟读完 (大约723个字)

“过去一年中建立AI代理的经验教训”

本文作者是C.P

. Dough，他是一名AI研究员，通过过去一年在构建人工智能代理方面的经验和教训来分享他的见解。本文主要讨论了以下几个关键点：
1. 选择合适的人工智能架构：在构建人工智能代理时，我们需要考虑使用哪种架构。常用的架构有强化学习、生成对抗网络（GAN）等。在过去一年中，作者认为强化学习是最为重要的架构之一，因为它可以让代理通过与环境互动来学习和改进自己的行为。
2. 选择合适的人工智能算法：在使用人工智能架构时，我们还需要考虑使用哪种算法。常用的算法有Q-learning、策略梯度等。在过去一年中，作者认为策略梯度是最为重要的算法之一，因为它可以让代理直接学习到最佳行为，而不需要像强化学习那样通过试错来逐渐改进。
3. 选择合适的人工智能环境：在构建人工智能代理时，我们还需要考虑使用哪种环境。常用的环境有游戏、机器人等。在过去一年中，作者认为游戏是最为重要的环境之一，因为它可以提供一个简单而直观的测试平台，让我们能够快速验证和评估代理的性能。
4. 选择合适的人工智能任务：在构建人工智能代理时，我们还需要考虑使用哪种任务。常用的任务有棋类游戏、机器人控制等。在过去一年中，作者认为棋类游戏是最为重要的任务之一，因为它可以提供一个具有挑战性和可解释性的测试平台，让我们能够更好地理解和评估代理的行为。
5. 选择合适的人工智能工具：在构建人工智能代理时，我们还需要考虑使用哪种工具。常用的工具有TensorFlow、PyTorch等。在过去一年中，作者认为TensorFlow是最为重要的工具之一，因为它具有强大的计算能力和丰富的社区支持，可以帮助我们更好地实现和优化代理。
总之，在构建人工智能代理时，我们需要选择合适的人工智能架构、算法、环境、任务以及工具。通过过去一年中作者在这些方面的经验和教训，希望能够为其他研究者提供一些参考和启发。

2024-06-17发表2025-03-21更新 ByteAILab 5 分钟读完 (大约796个字)

人工智能将给我们带来什么样的成本？

这篇文章的标题是“人工智能将给我们带来什么样的成本？”作者通过分析和讨论，提出了一系列关于人工智能（AI）对社会、经济和个人生活产生影响的问题。

首先，作者指出，随着人工智能技术的迅速发展，我们正在进入一个全新的时代。AI已经在许多领域取得了巨大的进展，如自动驾驶汽车、机器翻译、语音识别等，这些应用将会改变我们的日常生活和工作方式。
然而，作者也提醒我们，人工智能带来的成本并不仅限于技术本身的开发和实施。AI对社会经济和个人生活产生的影响可能是深远而持久的，并且可能给我们带来一些意想不到的问题。
首先，人工智能将会改变就业市场。这一方面意味着许多传统工作将被自动化取代，而另一方面也创造了新的机会。然而，这种变革可能导致失业率上升，因为机器可以比人类更快、更准确地完成一些任务。此外，AI还可能加剧社会的不平等现象，因为那些掌握技术和资源的人将会受益，而其他人则可能被边缘化。
其次，人工智能也可能对个人隐私产生影响。随着我们越来越多地使用各种设备和应用程序，我们所提供的数据量也在不断增加。而AI可以利用这些数据进行分析和预测，从而改变我们的行为方式。此外，AI还可能被用于监控和追踪个人的活动，这将会引发隐私权的问题。
此外，人工智能还可能对社会产生一些伦理问题。例如，在自动驾驶汽车领域，我们需要考虑如何处理事故责任，以及在机器决策过程中是否应该给予人类的主观判断。此外，AI也可能被用于武器系统和军事应用，这将会引发道德和安全方面的问题。
最后，作者提醒我们，人工智能技术本身并不是问题所在，而是如何使用和管理它。因此，我们需要制定合适的政策、法律法规以及伦理准则，以确保AI的发展能够为社会带来更多好处，同时避免潜在的问题。
总之，这篇文章提醒我们，人工智能技术的快速发展将会给我们带来许多成本和挑战。然而，我们也可以通过合适的管理、政策制定以及伦理思考来最大化地利用AI的优势，并减少其可能产生的负面影响。

2024-06-17发表2025-03-21更新 ByteAILab 4 分钟读完 (大约564个字)

使用GPT-4 API有效地分析PDF文件

这篇文章介绍了如何使用GPT-4 API来有效地分析PDF文件。G

PT-4是由OpenAI开发的最新一代人工智能语言模型，它具有更强大的自然语言处理能力和生成能力。

首先，作者提到了传统的文本分析方法，如基于规则的方法和机器学习方法，这些方法在处理复杂的PDF文件时可能会遇到困难。相比之下，使用GPT-4 API可以更好地理解和解释PDF中的内容。

接下来，作者详细介绍了如何使用GPT-4 API进行文本分析。首先需要将PDF转换为可读取的文本格式，可以使用Python库如PyPDF2或pdfminer来实现。然后，将文本输入到GPT-4 API中，并设置相应的参数，如模型类型、生成长度等。

接着，作者提供了一些示例代码和API调用方法，以帮助读者更好地理解如何使用GPT-4 API进行文本分析。例如，可以使用以下代码来获取PDF文件中的关键词：

from openai import api

# 将PDF转换为可读取的文本格式
pdf_file = 'example.pdf'
with open(pdf_file, 'rb') as f:
    pdf_text = f.read().decode('utf-8')

# 使用GPT-4 API进行关键词提取
response = api.Completion.create(
    engine='davinci',
    prompt=pdf_text,
    max_tokens=1024,
    n=10,
)
keywords = [r['text'] for r in response.choices]

上述代码使用了OpenAI提供的API来调用GPT-4模型，并设置了生成长度为1024个字符，提取前10个关键词。

最后，作者强调了一些注意事项，如避免过度依赖机器学习方法、确保数据质量和隐私保护等。同时，也提到了未来可能出现的挑战和改进方向，如更好的模型性能、更多的API功能支持等。

总之，这篇文章介绍了使用GPT-4 API进行PDF文本分析的一种有效方法，并提供了一些示例代码和注意事项，帮助读者了解如何利用人工智能技术来处理复杂的文档内容。

2024-06-17发表2025-03-21更新 ByteAILab 4 分钟读完 (大约635个字)

“改变正在来临：探索人工智能对教育行业的影响”

标题：改变正在来临
作者：Arondite
链接：https://medium.c

om/arondite-blog/change-is-coming-f61cc26e633b

在当今社会中，变化是不可避免的。在过去几十年里，我们已经经历了许多巨大的变革，从科技到政治、经济和文化等各个领域。然而，这些改变只是一个开始，因为我们正处于一个前所未有的时代。
首先，科技正在迅速发展并深刻地影响着我们的生活方式。人工智能（AI）、机器学习、大数据分析以及互联网的普及，使得信息获取和传播变得更加便捷、快速和广泛。这一波技术革命已经改变了我们工作、娱乐和社交等各个方面。
其次，全球化趋势也在不断加强。随着国际贸易和跨国合作的增加，我们与世界其他地区之间的联系日益紧密。这种变化不仅带来了经济上的机会，也促进了文化交流和多元性。在这个全球化时代中，每个人都有机会参与到更广泛的社会活动中。
此外，环境问题也成为我们面临的一个重要挑战。气候变化、资源短缺以及生物多样性的丧失等问题日益严重。这一波变革要求我们采取积极行动，以保护我们的地球和未来世代的生存空间。
最后，我们社会中存在着许多不平等现象，包括种族歧视、性别不平等和贫富差距。这些问题需要我们共同努力去解决，并创造一个更加公正和包容的世界。
总之，这个时代充满了变革的机会和挑战。我们必须积极面对并适应变化，以确保我们的社会能够持续发展、繁荣和进步。这是一个改变正在来临，我们每个人都有责任去推动这个过程，并为创造一个更美好的未来而努力。
因此，让我们一起拥抱变革，勇敢地迎接未来的挑战。只有通过合作与创新，我们才能实现一个更加公正、包容和繁荣的世界。

详见原文。

总之，这篇文章介绍了使用GPT-4 API进行PDF文本分析的一种有效方法，并提供了一些示例代码和注意事项，帮助读者了解如何利用人工智能技术来处理复杂的文档内容。

链接

分类

最新文章

归档

标签

订阅更新