财联社11月10日讯(编辑 刘蕊)美东时间周四,OpenAI在其官网发布博客文章称,它打算寻求合作伙伴,生产用于训练人工智能(AI)模型的公共和私人数据集。
目前,OpenAI旗下的ChatGPT主要基于大型语言模型生成内容,而这些模型目前完全是依靠互联网上可用的开源数据上训练出的。
在OpenAI的最新博客中,该公司表示,其对于那些目前还不容易在网上向公众开放的、能够反映人类社会的大规模数据集感兴趣。
这意味着,ChatGPT可能正寻求有助于生成更细致入微的训练数据、在风格上更像对话的数据。
该公司在博客文章中表示:“我们特别寻找能够表达人类意图的数据,无论语言、主题和格式如何。”
OpenAI表示,它目前所寻求的合作方式有两种,未来还可能扩大。
第一,它希望其合作伙伴能够帮助该公司创建一个用于训练语言模型的开源数据集。该数据集将公开,任何人都可以在人工智能模型训练中使用。
第二,OpenAI还在准备私人数据集,用于训练专有的人工智能模型。
该公司称:“如果你有希望保密的数据,但你希望我们的人工智能模型更好地了解你的领域(或者你甚至只是想衡量你的数据的潜力),这是最佳的合作方式。我们会按照你喜欢的敏感程度和访问控制来处理你的数据。”