OpenAI又迎来升级,摇身一变成了人工智能语音助手。
北京时间周二凌晨1点, 人工智能(AI)巨头OpenAI举行春季发布会。公司首席技术官Mira Murati带来了多项与ChatGPT有关的更新。
发布会截图
正如前几天, CEO山姆·奥特曼(Sam Altman)在一档播客中预告的一样,OpenAI将改进并提升ChatGPT的语音功能质量,并表示相信语音交互是通向未来交互方式的一个重要途径。
奥特曼称:“多模态交互能力非常强大,比如可以问:‘嘿,ChatGPT,我正在看什么’或‘我不太确定这是哪种植物。’”
“我期望的是一种始终处于激活状态,且极易使用的设备,可以通过语音、文字,或者更理想的其他状态,来理解我的需求。”奥特曼表示,“设想有个系统能全天辅助我,尽可能多地去收集上下文信息,成为世界上最出色的助理,不断地帮助我提升自我。”
OpenAI的发布会上,Mira Murati发布最新GPT-4o多模态大模型,相较于上一代GPT-4 Trubo,速度更快、价格也更便宜。
通过响应速度的大幅提升,该模型在语音模式下,已经可以达到“实时”响应的状态,不再需要尴尬地等上几秒钟,等ChatGPT给出一个回答。
换句话说,用户可以与ChatGPT像真人一样聊天——在机器人回应的过程中打断它,提出更多的要求(例如转变话题、要求机器人改变语音语调),再也不需要等待机器人完成上一个问题的回复后,再提出新的问题。
发布会上,主持人与ChatGPT寒暄几句,它能够从对方的喘气声中理解“紧张”的含义,并且指导他进行深呼吸。
随后,主持人开了摄像头,拍了白纸上一道题目,请ChatGPT实时帮忙解一个一元方程题,又解读了一幅气温图表。除了图像识别和解题能力外,ChatGPT展现了实时根据影像变化,与人们实时互动的能力。
发布会截图
主持人还展示了和ChatGPT进行意大利语、英语的对话聊天,ChatGPT毫不费力地就能充当两人的现场翻译员,实时准确地翻译出对话内容。
发布会截图
此外,OpenAI宣布,ChatGPT的免费用户也能用上最新发布的GPT-4o模型(更新前只能使用GPT-3.5),来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着GPT应用商店的开发者,将面对海量的新增用户。
当然,付费用户将会获得更高的消息限制,至少是免费用户的5倍。当免费用户用完消息数量后,ChatGPT将自动切换到 GPT-3.5。另外,OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验,目前GPT-4o的API并不包含语音功能。
发布会截图
最后,苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用,用户可以通过快捷键“拍摄”桌面并向ChatGP提问,OpenAI表示,Windows版本将在今年晚些时候推出。
OpenAI 还表示,ChatGPT 还优化了用户界面,有了全新的界面。OpenAI 的演示显示,用户可以将处于最小化窗口的 ChatGPT 桌面应用与其他程序并排打开。用户可以通过输入或语音的方式向 ChatGPT 提问屏幕上显示的内容,ChatGPT 则能根据其“所见” 进行回答。
对于苹果用户,人们可以通过 Option + 空格键向 ChatGPT 提问,并且可以在应用内截取和讨论屏幕截图。