OpenAI推出了新的旗舰模型 GPT-4o,它无缝集成了文本、音频和视觉输入和输出,有望增强机器交互的自然性。
GPT-4o,其中“o”代表“omni”,旨在满足更广泛的输入和输出模式。 OpenAI 宣布:“它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。”
用户预计响应时间可达 232 毫秒,反映了人类对话的速度,平均响应时间高达 320 毫秒,令人印象深刻。
开拓能力
GPT-4o 的推出标志着其前身的飞跃,通过单个神经网络处理所有输入和输出。这种方法使模型能够保留先前在早期版本中使用的单独模型管道中丢失的关键信息和上下文。
在 GPT-4o 之前,“语音模式”可以处理音频交互,GPT-3.5 的延迟为 2.8 秒,GPT-4 的延迟为 5.4 秒。之前的设置涉及三个不同的模型:一个用于将音频转录为文本,另一个用于文本响应,第三个用于将文本转换回音频。这种分割导致了音调、多个扬声器和背景噪声等细微差别的损失。
作为集成解决方案,GPT-4o 在视觉和音频理解方面拥有显着改进。它可以执行更复杂的任务,例如协调歌曲、提供实时翻译,甚至生成具有笑声和歌唱等表现力元素的输出。其广泛功能的示例包括准备采访、即时翻译语言以及生成客户服务响应。
Superintelligent的创始人兼首席执行官纳撒尼尔·惠特莫尔 (Nathaniel Whittemore)评论道:“产品发布本质上会比技术发布更具争议性,因为在你实际与产品互动之前,很难判断产品是否会真正与众不同。尤其是当涉及到不同的人机交互模式时,关于其有用性的不同信念甚至有更大的空间。
“也就是说,没有宣布 GPT-4.5 或 GPT-5 的事实也分散了人们对技术进步的注意力,因为这是一种原生的多模式模型。它不是带有语音或图像添加的文本模型;而是带有语音或图像的文本模型。它是多模式令牌输入和多模式令牌输出。这开辟了大量的用例,需要一些时间才能渗透到人们的意识中。”
性能和安全
GPT-4o 在英语文本和编码任务中与 GPT-4 Turbo 性能水平相当,但在非英语语言中表现明显优于 GPT-4 Turbo,使其成为更具包容性和通用性的模型。它在推理方面树立了新的标杆,在 0-shot COT MMLU(常识问题)上取得了 88.7% 的高分,在 5-shot no-CoT MMLU 上取得了 87.2% 的高分。
该模型在音频和翻译基准方面也表现出色,超越了Whisper-v3等之前最先进的模型。在多语言和视觉评估中表现出优越的性能,增强了OpenAI的多语言、音频和视觉能力。
OpenAI 在设计上将强大的安全措施纳入 GPT-4o 中,纳入了过滤训练数据的技术并通过训练后保障措施细化行为。该模型已通过准备框架进行评估,并符合 OpenAI 的自愿承诺。网络安全、说服力和模型自治等领域的评估表明,GPT-4o 在任何类别中都没有超过“中等”风险级别。
进一步的安全评估涉及广泛的外部红队,由各个领域的 70 多名专家组成,包括社会心理学、偏见、公平和错误信息。这项全面审查旨在减轻 GPT-4o 新模式带来的风险。
可用性和未来集成
从今天开始,GPT-4o 的文本和图像功能可在 ChatGPT 中使用,包括免费套餐和针对 Plus 用户的扩展功能。由 GPT-4o 提供支持的新语音模式将在未来几周内在 ChatGPT Plus 中进入 alpha 测试。
开发人员可以通过API访问 GPT-4o来执行文本和视觉任务,与 GPT-4 Turbo 相比,其速度翻倍、价格减半以及增强的速率限制。
OpenAI 计划通过 API 将 GPT-4o 的音频和视频功能扩展到一组选定的值得信赖的合作伙伴,预计在不久的将来会进行更广泛的推广。这种分阶段发布策略旨在确保在公开提供全部功能之前进行彻底的安全性和可用性测试。
“非常重要的是,他们向所有人免费提供了这个模型,并且 API 的价格便宜了 50%。这是可及性的巨大增加,”惠特莫尔解释道。
OpenAI 邀请社区反馈来不断完善 GPT-4o,强调用户输入在识别和缩小 GPT-4 Turbo 仍可能表现出色的差距方面的重要性。
发表评论