GPT-4o delivers human-like AI interaction with text, audio, and vision integration
OpenAI推出了其新的旗舰模型GPT-4o,无缝集成了文本、音频和视觉输入和输出,承诺增强机器交互的自然性。{ width=50% }
GPT-4o,其中的“o”代表“omni(全能)”,旨在为更广泛的输入和输出模式提供服务。OpenAI宣布:“它可以接受任何文本、音频和图像的组合作为输入,并生成任何文本、音频和图像的组合作为输出。”
用户可以期望快速的响应时间,与人类对话速度相匹配,平均响应时间令人印象深刻,为320毫秒。
开创性功能
GPT-4o的推出标志着它跨越了之前版本的巨大进步,通过一个单一神经网络处理所有输入和输出。这种方法使得该模型能够保留先前在较早版本使用的单独模型管道中丢失的关键信息和上下文。
在GPT-4o之前,“Voice Mode”可以处理音频交互,对于GPT-3.5而言延迟时间为2.8秒,对于GPT-4则为5.4秒。先前的设置涉及三个不同的模型:一个用于将音频转录为文本,另一个用于文本回复,第三个用于将文本转换回音频。这种分段导致丢失了诸如语调、多个发言者和背景噪音等细微差别。
作为一个综合解决方案,GPT-4o在视觉和音频理解方面有明显的改进。它可以执行更复杂的任务,如和声歌曲、提供实时翻译,甚至生成带有笑声和唱歌等表现元素的输出。其广泛功能的示例包括为面试做准备、即时翻译语言以及生成客户服务回复。
Superintelligent的创始人兼首席执行官Nathaniel Whittemore评论道:“产品发布本质上比技术发布更具争议性,因为在实际与其互动之前很难判断产品是否真正不同。尤其是在涉及一个不同的人机交互模式时,对于它的实用性是否高有更多的看法空间。
“也就是说,宣布没有GPT-4.5或GPT-5也让人们分散注意力,而不注意到这是一个本质上是多模态模型。它不是一个带有声音或图像附加功能的文本模型;它是一个多模态的token输入,多模态的token输出。这开启了大量需要一些时间才能被认识到的用例。”
性能和安全性
GPT-4o在英文文本和编码任务方面与GPT-4 Turbo性能水平相匹配,但在非英语语言方面明显优秀,使其成为一个更具包容性和多功能性的模型。它在推理方面设定了一个新的基准,0-shot COT MMLU(通用知识问题)达到了88.7%的高分,5-shot no-CoT MMLU达到了87.2%。
该模型在音频和翻译基准上表现出色,超越了以往的最先进模型,如Whisper-v3。在多语言和视觉评估中,它展示了出色的性能,增强了OpenAI的多语言、音频和视觉能力。
OpenAI通过设计将强大的安全措施纳入到GPT-4o中,包括通过训练数据过滤技术和后期安全保障来细化行为。该模型已通过一套准备框架进行评估,并符合OpenAI的自愿承诺。在领域如网络安全、说服力和模型自主性方面的评估显示,GPT-4o在任何类别中均不超过“中等”风险级别。
进一步的安全评估还涉及在各个领域的70多位专家进行广泛的外部红队测试,包括社会心理学、偏见、公平性和虚假信息。这种全面的审查旨在减轻GPT-4o引入的风险。
可用性和未来集成
从今天开始,GPT-4o的文本和图像功能可在ChatGPT中使用,包括免费版和增强功能版。由GPT-4o提供支持的新Voice Mode将在未来几周内进入ChatGPT Plus的Alpha测试。
开发人员可以通过API访问GPT-4o进行文本和视觉任务,在速度翻倍、价格减半以及与GPT-4 Turbo相比增强速度限制方面受益。
OpenAI计划通过API将GPT-4o的音频和视频功能扩展给一组值得信赖的合作伙伴,预计不久的将来会有更广泛的推出。这种分阶段发布策略旨在确保在将全面功能公开之前进行彻底的安全性和可用性测试。
“他们已经向所有人提供了这个模型的免费试用,同时还把API的价格降低了50%。这增加了它的可访问性,这是一大飞跃,” Whittemore解释道。
OpenAI邀请社区反馈以持续完善GPT-4o的功能,强调用户输入在确定和弥补GPT-4 Turbo可能仍然表现优异的领域中的重要性。
(图片来源:OpenAI)
另请参阅:OpenAI采取措施提升AI生成内容的透明度
想从行业领袖那里了解更多有关AI和大数据的知识吗?查看在阿姆斯特丹、加利福尼亚和伦敦举行的AI & Big Data Expo。这个全面的活动与其他领先的活动同期举行,包括智能自动化会议、BlockX、数码转型周和网络安全与云计算博览会。
探索由TechForge推动的其他即将举行的企业技术活动和网络研讨会。
标签:人工智能、api、人工智能、基准、chatgpt、编码、开发人员、开发、gpt-4o、模型、多模态、openai、性能、编程。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
GPT-4o delivers human-like AI interaction with text, audio, and vision integration