OpenAI 使用每小时不到 2 美元的肯尼亚工人来降低 ChatGPT 的毒性

　　这幅图像是由 OpenAI 的图像生成软件 Dall-E 2 生成的

　　ChatGPT 在去年 11 月发布时被誉为 2022 年最令人印象深刻的技术创新之一。强大的人工智能 (AI) 聊天机器人可以生成几乎任何主题的文本，从以 Megan Thee Stallion 风格重新创作的莎士比亚十四行诗，到用 5 岁儿童可以理解的语言描述的复杂数学定理。一周之内，它拥有超过一百万的用户。

　　据报道，ChatGPT 的创建者 OpenAI 现在正在与投资者谈判，以290 亿美元的估值筹集资金，其中包括微软可能投资的 100 亿美元。这将使 OpenAI 成为世界上最有价值的人工智能公司之一，该公司于 2015 年在旧金山成立，旨在打造超级智能机器。

　　但成功的故事并不仅仅是硅谷天才之一。TIME 的一项调查发现，为了降低 ChatGPT 的毒性，OpenAI 使用了每小时收入不到 2 美元的外包肯尼亚劳工。

　　这项工作对 OpenAI 至关重要。ChatGPT 的前身 GPT-3 已经展示了令人印象深刻的将句子串在一起的能力。但这很难卖，因为该应用程序还容易脱口而出暴力、性别歧视和种族主义言论。这是因为人工智能已经接受了从互联网上收集的数千亿个单词的训练——这是一个巨大的人类语言库。庞大的训练数据集是 GPT-3 令人印象深刻的语言能力的原因，但也可能是它最大的诅咒。由于互联网的某些部分充满了恶意和偏见，因此没有简单的方法可以清除训练数据的这些部分。即使是一个由数百人组成的团队，也需要数十年的时间才能手动浏览庞大的数据集。只有建立一个额外的人工智能驱动的安全机制，OpenAI 才能控制这种危害，

　　为了构建该安全系统，OpenAI 借鉴了 Facebook 等社交媒体公司的做法，后者已经表明可以构建能够检测仇恨言论等有毒语言的人工智能，以帮助将其从平台上移除。前提很简单：向 AI 提供带有暴力、仇恨言论和性虐待标签的示例，该工具可以学习在野外检测这些形式的毒性。该检测器将内置到 ChatGPT 中，以检查它是否反映了其训练数据的毒性，并在它到达用户之前将其过滤掉。它还可以帮助从未来人工智能模型的训练数据集中清除有毒文本。

　　为了获得这些标签，OpenAI 从 2021 年 11 月开始向肯尼亚的一家外包公司发送了数万个文本片段。其中大部分文本似乎是从互联网最黑暗的角落提取的。其中一些以生动的细节描述了各种情况，例如极端暴力的行为。

　　OpenAI 在肯尼亚的外包合作伙伴是 Sama

　　OpenAI 在肯尼亚的外包合作伙伴是 Sama，这是一家总部位于旧金山的公司，在肯尼亚、乌干达和印度雇用员工为谷歌、Meta 和微软等硅谷客户标记数据。Sama 将自己定位为一家“有道德的 AI”公司，并声称已帮助50,000多人摆脱了贫困。

　　根据资历和表现，Sama 代表 OpenAI 雇用的数据标注员的实得工资约为每小时 1.32 美元至 2 美元。对于这个故事，TIME 审查了数百页 Sama 和 OpenAI 的内部文件，包括工人的工资单，并采访了参与该项目的四名 Sama 员工。出于对生计的担忧，所有员工都不愿透露姓名。

　　在一份声明中，OpenAI 的一位发言人证实，肯尼亚的 Sama 员工为其正在构建的一种检测有毒内容的工具做出了贡献，该工具最终被内置到 ChatGPT 中。该声明还表示，这项工作有助于从 ChatGPT 等工具的训练数据集中删除有毒数据。“我们的使命是确保通用人工智能造福全人类，我们努力构建安全有用的人工智能系统，限制偏见和有害内容，”发言人说。“对有害 [文本和图像] 进行分类和过滤是减少训练数据中包含的暴力和色情内容数量以及创建可检测有害内容的工具的必要步骤。”