百万级ChatGPT对话曝光!AI竟然经常被"调戏"?

近年来,随着ChatGPT、Claude等大型对话模型相继问世,它们已经开始为数以百万计的用户提供服务。这些强大的AI助手可以与人进行流畅的多轮对话,完成写作、编程、分析等各种任务,展现出广阔的应用前景。


然而目前公开的人机对话数据集大多由专家根据特定场景设计生成,与真实用户的自然交互存在差异,导致研究者难以深入了解用户与AI助手的实际交互模式。

最近,艾伦人工智能研究所发布了WildChat数据集,包含100万个真实用户与ChatGPT的对话。研究发现,WildChat涵盖编程、创意写作、数学等多样化主题,支持68种语言,并且用户提问和模型回复的平均长度超过现有数据集。值得关注的是,其中超10%对话涉及不当言论,为研究AI应对恶意输入提供了样本。此外,在WildChat上微调语言模型,可显著提升模型的多轮对话能力。

WildChat为对话AI研究提供了真实而丰富的数据。相信基于该数据集的进一步研究,将有助于打造更智能、安全、贴近用户的AI对话系统,推动人机交互技术发展。

论文标题:WildChat: 1M ChatGPT Interaction Logs in the Wild

论文链接:
https://arxiv.org/pdf/2405.01470

WildChat:对话AI研究的”游戏规则改变者”

不按套路出牌:野生数据打破AI对话固有模式
传统的人机对话数据集,如Alpaca、Dolly等,主要由专家根据特定场景设计问答对生成。这类数据虽然质量较高,但与真实用户的自然交互存在差距。用户在实际使用中的提问方式、语言风格、关注点往往更加多样化,而且对话往往是多轮互动,而非简单的一问一答。
WildChat的出现为对话AI研究带来了新的突破。这个数据集包含了100万个由真实用户与ChatGPT的多轮对话,总token数超过8亿,是目前最大的公开人机对话数据集之一。更重要的是,这些对话都是用户在实际使用中自然产生的,涵盖了编程、写作、数学、角色扮演等…

… (以下省略,原文内容过长,请完整阅读原文)

文章来源:夕小瑶科技说
作者 | Richard

图片来源:由GPTNB生成

图片1
图片2

图片3

图片4

图片5

图片6

图片7

图片8

图片9

图片10

图片11

图片12

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

百万级ChatGPT对话曝光!AI竟然经常被"调戏"?

https://www.gptnb.com/2024/05/15/2024-05-14-auto4-ggxxv7/

作者

ByteAILab

发布于

2024-05-15

更新于

2025-03-21

许可协议