OpenAI发布全能模型GPT-4o，原生支持文本、图像、视频和语音输入输出

2024-05-14 03:25#1 标记1

凌晨，OpenAI发布会又搞了一个大新闻，推出了“GPT-4o”，直接将ChatGPT4从“最先进”降到了“先进”。
GPT-4o为多功能模型，支持文本、图像、视频和语音输入输出，并将向所有用户免费开放，未来几周内会先向 ChatGPT Plus 推送。
GPT-4o 发布会速览
亮点：
1. 全能输入输出： GPT-4o实现文本、音频和图像的互转，无需转码。2. 超快语音反应：响应音频输入速度如人类，平均320毫秒。3. 对用户免费：GPT-4o面向所有用户开放。4. API升级：比GPT-4 Turbo快两倍，价格降半。5. 新界面与应用：ChatGPT界面简化，新的桌面应用发布。
GPT-4o能力：
- 近似零延迟的响应，提供更自然的交流体验。- 英文、代码文本性能强大，非英文文本有所提升。- 视觉和音频理解显著优化。
特色功能：
- 实时翻译：能在对话中无缝翻译语言。- 表情识别：通过摄像头解析面部表情和情绪。- 交互自然流畅：允许用户自然打断和接管对话。
GPT-4o新特性：简单说
1. 全才型：GPT-4o不挑剔，能听会说还懂图片和文字，能和你用各种方式聊天。
2. 快：它能迅速回话，打字、说话、处理声音都飞快，平均回答时间只有320毫秒，聊天就像和朋友一样自然。
3. 不要钱： web界面用GPT-4o不花一分钱，所有人都能享受到这样聪明的聊天朋友，而且API用起来比以前便宜一半。
展望与影响：
- 用户可体验GPT-4级智能，获取模型响应、分析数据和交流图片。
- OpenAI的进步预示着人机交互的未来方向，与电影《她》中的AI类似。
- 可能会改变我们与AI的聊天方式。
明天Google的发布会，OpenAI又抢先一天狙击了，为什么又是又呢