OpenAI 正式宣布推出 GPT-4o

我们宣布推出GPT-4o,这是我们的新旗舰机型,可以实时进行音频、视觉和文本推理。

GPT-4o(“o”代表“o​​mni”)是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在最短 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类的反应时间相似(在新窗口中打开)在对话中。它在英语和代码文本上的表现与 GPT-4 Turbo 相当,在非英语语言文本上的表现有显著改善,同时在 API 上也更快、更便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 交谈,平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的管道:一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着主要的智能来源 GPT-4 会丢失大量信息——它无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌声或表达情感。

借助 GPT-4o,我们端到端地训练了一个新模型,涵盖文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模态的模型,因此我们仍然只是在探索该模型的功能及其局限性方面处于初级阶段。

原文连接

购物车
优惠劵
搜索