OpenAI 越来越像互联网公司

　　5 月 13 日，赶在 Google 发布大模型产品动向前一天，OpenAI 发布了新模型 GPT-4o，“o” 意即 “万能(omni)”。从产品本身变化和发布节奏看，这家初心是 AI 实验室的非营利机构，越来越像一个互联网公司——特意挑选发布时间，配上精心准备的产品 Demo，用免费的产品吸引更多用户使用，再想办法把它们转化成付费客户。

　　GPT-4o 的发布，意味着 GPT-5 不会短期到来。尽管 OpenAI 两年前就开发出了 GPT-4。过去一年，同行追了上来。GPT-4o 文本能力提升也有限，显然达不到 CEO 山姆·阿尔特曼设想和公众期待的 GPT-5 水平。

　　新模型有点像科幻电影《她》(Her)里的语音伴侣。产品演示中的最大亮点是它可以实时处理音频，用户说一句话后不用再等几秒。和 GPT-4 版本的 ChatGPT 语音模式相比，GPT-4o 语音处理功能不借助文本转录，而是采用端到端架构：根据用户说话的 “音调”“情绪” 或 “背景噪音”，直接输出 “笑声、歌唱或表达情感”。

　　端到端的架构给 OpenAI 带来一些问题——需要用优质语音训练，这通常在其他大公司版权保护对象。OpenAI 也可以自己收集或者用文本转录，但耗费的时间会远超文本数据。模型最终输入语音，也会导致模型处理困难、防滥用难度也提升。所以这次 OpenAI 发布 GPT-4o 时，语音功能不免费，还要推迟几周上线。

　　根据 OpenAI 博客，GPT-4o 生成图片能力也有很大提升，已经可以精确生成图片中的文字。在此之前，受制于技术路径，生成图片中的文字一直是文生图方向的难题。OpenAI 不仅克服，还能把图片变成 3D 版。视觉理解评估上，GPT-4o 在多个权威评测数据集上大幅领先同行，相当于 GPT-3.5 到 GPT-4 的跨越，但 GPT-4o 仍与人类水平有不小差距。

　　“我很能共情世界上普遍的、对我们这类公司的焦虑和不适…” 阿尔特曼今年 1 月在达沃斯论坛上回应外界对人工智能过于发达、是否会掀起新秩序的担忧，“我们有自己的焦虑”。

　　很难说他指的是哪一种或哪几种，但是时而觉得产品进步太慢的 OpenAI、自己可能正身处一种产品焦虑。

　　焦虑来源很多，例如在 GPT-4 发布之后，备受期待、同等重量级的 GPT-5 迟迟没有消息;文生视频软件 Sora 一直没有向公众开放，真实的交互效果也开始受到质疑;今年 Google 开发者大会前放出要发布搜索引擎的消息(计划发布时间为 5 月 13 日)，似乎也只是吸引注意的幌子。

　　去年 5 月，阿尔特曼一场闭门讨论中表示，OpenAI 不会在 ChatGPT 之外发布更多的产品 —— 这仿佛不妨碍他们今年 2 月发布 Sora 并引起关注。去年也有一些 ChatGPT、OpenAI 流量下跌的新闻，他们可能确实需要隔一段时间发布新产品吸引公众注意力。

　　或许为大模型铺好基础设施的 OpenAI，也逃不过被期待和竞争驱动，做出一些互联网公司般的努力。(实习生徐煜萌贺乾明)