像真人一样语音聊天，还能实时“秒回”！ChatGPT又升级变更快更强大

　　OpenAI又迎来升级，摇身一变成了人工智能语音助手。

　　北京时间周二凌晨1点，人工智能(AI)巨头OpenAI举行春季发布会。公司首席技术官Mira Murati带来了多项与ChatGPT有关的更新。

　　发布会截图

　　正如前几天， CEO山姆·奥特曼(Sam Altman)在一档播客中预告的一样，OpenAI将改进并提升ChatGPT的语音功能质量，并表示相信语音交互是通向未来交互方式的一个重要途径。

　　奥特曼称：“多模态交互能力非常强大，比如可以问：‘嘿，ChatGPT，我正在看什么’或‘我不太确定这是哪种植物。’”

　　“我期望的是一种始终处于激活状态，且极易使用的设备，可以通过语音、文字，或者更理想的其他状态，来理解我的需求。”奥特曼表示，“设想有个系统能全天辅助我，尽可能多地去收集上下文信息，成为世界上最出色的助理，不断地帮助我提升自我。”

　　OpenAI的发布会上，Mira Murati发布最新GPT-4o多模态大模型，相较于上一代GPT-4 Trubo，速度更快、价格也更便宜。

　　通过响应速度的大幅提升，该模型在语音模式下，已经可以达到“实时”响应的状态，不再需要尴尬地等上几秒钟，等ChatGPT给出一个回答。

　　换句话说，用户可以与ChatGPT像真人一样聊天——在机器人回应的过程中打断它，提出更多的要求(例如转变话题、要求机器人改变语音语调)，再也不需要等待机器人完成上一个问题的回复后，再提出新的问题。

　　发布会上，主持人与ChatGPT寒暄几句，它能够从对方的喘气声中理解“紧张”的含义，并且指导他进行深呼吸。

　　随后，主持人开了摄像头，拍了白纸上一道题目，请ChatGPT实时帮忙解一个一元方程题，又解读了一幅气温图表。除了图像识别和解题能力外，ChatGPT展现了实时根据影像变化，与人们实时互动的能力。

　　发布会截图

　　主持人还展示了和ChatGPT进行意大利语、英语的对话聊天，ChatGPT毫不费力地就能充当两人的现场翻译员，实时准确地翻译出对话内容。

　　发布会截图

　　此外，OpenAI宣布，ChatGPT的免费用户也能用上最新发布的GPT-4o模型(更新前只能使用GPT-3.5)，来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着GPT应用商店的开发者，将面对海量的新增用户。

　　当然，付费用户将会获得更高的消息限制，至少是免费用户的5倍。当免费用户用完消息数量后，ChatGPT将自动切换到 GPT-3.5。另外，OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验，目前GPT-4o的API并不包含语音功能。

　　发布会截图

　　最后，苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用，用户可以通过快捷键“拍摄”桌面并向ChatGP提问，OpenAI表示，Windows版本将在今年晚些时候推出。

　　OpenAI 还表示，ChatGPT 还优化了用户界面，有了全新的界面。OpenAI 的演示显示，用户可以将处于最小化窗口的 ChatGPT 桌面应用与其他程序并排打开。用户可以通过输入或语音的方式向 ChatGPT 提问屏幕上显示的内容，ChatGPT 则能根据其“所见” 进行回答。

　　对于苹果用户，人们可以通过 Option + 空格键向 ChatGPT 提问，并且可以在应用内截取和讨论屏幕截图。

像真人一样语音聊天，还能实时“秒回”！ChatGPT又升级 变更快更强大