0°

OpenAI 推出语音到文本转录和翻译的 Whisper API

  为了配合ChatGPT API,OpenAI 最近推出了 Whisper API。

  Whisper 的价格为每分钟 0.006 美元,是一种自动语音识别系统,OpenAI 声称它可以“稳健”地转录多种语言,并将这些语言翻译成英语。它接受多种格式的文件,包括 M4A、MP3、MP4、MPEG、MPGA、WAV 和 WEBM。

  无数组织已经开发出功能强大的语音识别系统,这些系统是谷歌、亚马逊和 Meta 等科技巨头的软件和服务的核心。但 Whisper 的不同之处在于,根据 OpenAI 总裁兼主席 Greg Brockman 的说法,它接受了从网络收集的 680,000 小时多语言和“多任务”数据的训练,从而提高了对独特口音、背景噪音和技术术语的识别能力。

  “我们发布了一个模型,但这实际上不足以让整个开发者生态系统围绕它构建,”布罗克曼昨天下午在与 TechCrunch 的视频通话中说。“Whisper API 与您可以获得开源的大型模型相同,但我们已经优化到了极致。它快得多,也非常方便。”

  不过,Whisper 有其局限性——尤其是在“下一个词”预测领域。由于该系统是在大量嘈杂数据上训练的,OpenAI 警告说,Whisper 可能会在其转录中包含实际上没有说过的单词——可能是因为它既要预测音频中的下一个单词,又要转录录音本身。此外,Whisper 在不同语言中的表现并不相同,当涉及到训练数据中没有很好代表的语言的使用者时,它的错误率更高。

  不幸的是,最后一点对于语音识别领域来说并不是什么新鲜事。偏见长期困扰着即使是最好的系统,2020 年斯坦福大学的一项 研究发现,亚马逊、苹果、谷歌、IBM 和微软的系统对白人用户的错误率比对黑人用户的错误率要低得多——大约 19%。

  尽管如此,OpenAI 还是看到了 Whisper 的转录功能被用于改进现有的应用程序、服务、产品和工具。AI 驱动的语言学习应用程序 Speak 已经在使用 Whisper API 为新的应用程序内虚拟语音伴侣提供支持。如果 OpenAI 能够以一种主要方式打入语音转文本市场,那么对于微软支持的公司来说,它可能会非常有利可图。根据一份报告,到 2026 年,该细分市场的价值可能达到 54 亿美元,高于 2021 年的 22 亿美元。

  “我们的想法是,我们真的想成为这种普遍的智能,”布罗克曼说。“我们真的很想非常灵活地接收你拥有的任何类型的数据——无论你想完成什么样的任务——并成为这种关注的力量倍增器。”

  Whisper 实现原理:

  Transformer 序列到序列模型针对各种语音处理任务进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务共同表示为由解码器预测的一系列标记,允许单个模型取代传统语音处理管道的多个阶段。多任务训练格式使用一组特殊标记作为任务说明符或分类目标。

  Whisper 安装到使用:

  您可以使用以下命令下载并安装(或更新到)最新版本的 Whisper:

  pip install -U openai-whisper

  要将软件包更新到此存储库的最新版本,请运行:

  pip install –upgrade –no-deps –force-reinstall git+https://github.com/openai/whisper.git

  如果您在上述命令中看到安装错误pip install,请安装 Rust 开发环境。此外,您可能需要配置PATH环境变量,例如export PATH=”$HOME/.cargo/bin:$PATH”. 如果安装失败No module named ‘setuptools_rust’,则需要安装setuptools_rust,例如通过运行:

  pip install setuptools-rust

  Whisper 命令行用法:

  以下命令将使用medium模型转录音频文件中的语音:

  whisper audio.flac audio.mp3 audio.wav –model medium

  添加–task translate会将语音翻译成英文:

  whisper japanese.wav –language Japanese –task translate

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论