直击VivaTech! GPT-4o Mac端现场秀:情绪,语调,视觉 ,语音生成sora视频合成解说




刚刚OpenAI 的开发者体验负责人Romain Huet 在 法国举行的Viva Tech(欧洲最大的年度科技会议)做了一个最新演讲,主要分享了三个内容
OpenAI是如何走到今天的
‍‍‍‍‍‍‍‍‍‍‍‍‍GPT-4o:在mac上的最新体验
‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍OpenAI的未来发展方向
‍‍‍‍‍‍‍‍‍
opencat第一时间带来报道
从ChatGPT到GPT-4o‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
Romain Huet分享ChatGPT并不是OpenAI第一个产品且,发布 ChatGPT,当时只是想进行一次低调的内部研究预览,没想到ChatGPT爆火,用了2个月就突破了1亿注册用户,后来的事大家都知道了,刚刚过去的几周OpenAI推出了GPT-4o‍‍‍‍
这次 Huet分享重点是OpenAI正在加速推进其大型语言模型GPT-4o的多模态化、高效化和本地化进程
GPT-4o‍‍
Mac端现场演示‍‍‍‍‍‍‍‍‍‍‍‍‍‍

Huet用GPT-4o Mac客户端 展示了 在视觉和语音处理上的新能力。
现场最精彩的是OpenAI演示了GPT-4o的实时视频故事创作能力。首先,发送一段语音给 ChatGPT,ChatGPT 基于语音内容用 Sora 生成一段视频并且加上该音频,甚至于你可以选用不同语言的语音,但是保持原始音色不变。接着,GPT-4o能根据视频中的几帧画面,自动生成视觉讲解的脚本文本;最后,就能生成一段有声视频讲解,栩栩如生地呈现19世纪巴黎的繁华景象,体验上佳!
注意,由于Sora视频生成大约需要15分钟,这是这部分是预先生成好的,但其他是实时生成
现场演示中,另一个令人印象深刻的环节是Huet展示了ChatGPT桌面应用的多模态交互能力。他首先对着400多名现场观众,让ChatGPT用法语生成了一段热情洋溢的欢迎致辞。虽然AI的法语口音听起来还是有些"美式"风格,但Huet透露说"我们正在努力让它听起来更像一位法国人在讲话"‍
这个语音模块不仅能切换不同的语调和情绪风格,还允许用户随时打断继续交谈,并拥有出色的上下文理解和推理能力。
最吸引眼球的是,Huet随手在纸上简单勾勒了埃菲尔铁塔和凯旋门的草图,然后打开了桌面应用的摄像头模块。令人惊讶的是,ChatGPT不仅能够准确识别出这两座著名地标,当Huet展示一张地图,询问如何从凡尔赛门出发抵达画中地点时,它还能根据实时对话,规划出详细的火车路线,包括换乘信息和每个停靠站点
OpenAI未来要干啥‍‍‍‍‍
重点关注四个方面的投资:
提升文本智能
降低模型成本,提高运行速度
提供更强大的模型定制能力
赋能开发者构建多模态智能代理
如何为GPT-5做好准备?‍‍‍‍‍‍‍‍‍‍
你可以考虑两种策略:
假设 AI 模型的功能不会有太大变化,继续围绕 GPT-4 及其现有功能进行开发。
相信 AI 模型在未来会变得更加强大,并押注于 AI 的未来。
Huet认为,第二种策略更有可能成为现实
这是劝大家不要做无用功,哈哈,要不然GPT5又会让你一夜回到解放前‍‍‍‍
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

GPT4o科技秀👇👇
到顶部