OpenAI终于上线高级语音功能!网友实测无延迟、如真人般健谈

OpenAI终于上线高级语音功能!网友实测无延迟、如真人般健谈
2024年07月31日 18:20 半导体产业纵横

GPT-4o 高级语音模式虽迟但到,纠口音、做解说、学猫叫……网友们已玩疯。

千呼万唤。

OpenAI 最新模型 GPT-4o 的高级语音模式终于上线了。

对,就是那个让人疯狂联想到电影《Her》的东西。

官方于北京时间今天凌晨宣布这一重大消息。

虽然比预期迟到了约 1 个月,但和 5 月份的发布会预览的真的一样,该模式可以展现出非常自然的对话,既能感知你的情绪,也能富有感情地回复你,并且延迟非常之低。

用网友的话来说,就像放在咱们口袋里的一个真人对讲机。

哦对,随时打断它也没问题。

美中不足的是,目前开放名额有限:

只针对部分 plus 会员(被抽中就会在 ChatGPT 手机端收到邮件)。

剩下的充钱用户呢?至少得再等 1 个月(官方原话「今年秋天」)。

剩下的免费用户呢?那就不知道咯。

但不管咋说,从一部分流出的实测效果来看,「这家伙」是真的很强很健谈呐。

来吧,展示~

GPT-4o 语音实测大赏

首先来看一段法语教学

一声「Hey,ChatGPT」,对话正式开启。

自述正在学法语的小哥,念了一个法语单词说「你帮我听听」。

GPT-4o 先是贴心地评价他已经非常接近了,再随即纠正「可以尝试强调鼻音」,并亲口做了一个示范让小哥模仿它结尾的发音。

活脱一个循循善诱的私人教师。

在另一个单词中,GPT-4o 则建议小哥强调第二个音节,简直不要太细节。

此番引导下,小哥也如有神助,瞬间就纠正了自己的发音。

另一个场景中,一位推特网友则打开摄像头,让 GPT-4o 看看他为新接回来的小猫布置的环境。

谈到小猫没吃没喝也不现身,GPT-4o 非常耐心地安慰他,并解释无需担心,因为小猫到新家需要一些适应的时间。

这位网友感叹:感觉就像与一个知识渊博的朋友面对面交流,回答非常实时。

说到实时,这可是不少人对 GPT-4o 高级语音功能的最大感受。

比如下面这位朋友的第一印象就是「速度非常快,从你说完到它响应之间几乎没有延迟」。

他展示了 GPT-4o 用语音功能扮演足球解说员的效果。当他命令它更激情澎湃一点,简直不要太给力:

(听完感觉自己彷佛在现场,如果打开摄像头搭配现场比赛也能解说那就真的无敌了)

还有一段中文故事,大伙仔细听一听,这口音是不是越听越接地气?

最后,必须给大家按头安利一段 GPT-4o「学猫叫」——各种各类,太通人性。

有人看完直接评价还从未见识过会这种技术的语音机器人。

总的来说,好评如潮,大伙没有失望,有幸获得资格的会员们玩得是那叫不亦乐乎。

推迟一个月发布

GPT-4o 高级语音模式于今年 5 月 14 日正式在 OpenAI 春季发布会上亮相。

一波炫技操作展现出它近乎真实人类的语音对话能力,也让全世界意识到 ChatGPT 的能力边界再被拓宽——

从一个」平面「聊天机器人转变为更为全面的个人虚拟助理

而按照计划,该功能原定于 6 月下旬发布 alpha 版本,但现在来看,足足推迟了一个月。

究其原因,是一直没有达到所谓的「发布标准」,特别是模型检测和拒绝生成某些内容的能力还不够。

如今,历经 100 多位「特种」测试人员横跨 45 门语言的考验之后,终于达标上线。

据介绍,该功能一共提供 4 种预设人声:Juniper、Breeze、Cove 和 Ember,都是与配音演员合作制作的。

此前备受争议、神似斯嘉丽·约翰逊的女声「Sky」则被下线。

自定义人声功能呼声很高,但并不支持,并且由于过滤器的存在,大家也无法用它生成公众人物的声音、有侵权风险的音乐等等也不行。

至于强大的视频和屏幕共享功能(也就是"看"的能力),官方信息显示不在此次推送范围内。

但从前面展示的效果来看,似乎出现了「漏网之鱼」。

最后,除了这一万众期待的语音功能,还有另一个好消息:

GPT-4o 的全面报告也要来了,就在八月。

官方到时会详细介绍其能力、局限性和安全评估结果等等,当然,八成不含技术细节。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部