OpenAI 泄密事件提醒我们，人工智能公司是黑客的宝库

　　无需担心您的秘密ChatGPT对话在最近报道的 OpenAI 系统入侵事件中被获取。虽然这次黑客攻击本身令人不安，但似乎只是表面现象——但它提醒我们，人工智能公司很快就成为黑客最感兴趣的目标之一。

　　在前 OpenAI 员工 Leopold Aschenbrenner最近在播客中暗示了此次黑客攻击后，《纽约时报》对此次黑客攻击进行了更详细的报道。他称这是一次“重大安全事件”，但未透露姓名的公司消息人士告诉《纽约时报》，黑客仅访问了一个员工讨论论坛。(我联系了 OpenAI 进行确认和评论。)

　　任何安全漏洞都不应被视为小事，窃听 OpenAI 内部开发谈话当然有其价值。但这远不及黑客可以访问内部系统、正在开发的模型、秘密路线图等。

　　但无论如何，这应该会让我们感到害怕，而这不一定是因为中国或其他对手在人工智能军备竞赛中超越我们的威胁。事实很简单，这些人工智能公司已经成为大量非常有价值的数据的守门人。

　　让我们来谈谈 OpenAI 以及其他 AI 公司(程度较小)创建或可以访问的三种数据：高质量训练数据、批量用户交互和客户数据。

　　目前尚不清楚他们到底拥有哪些训练数据，因为这些公司对自己的储备数据讳莫如深。但如果你认为它们只是大量抓取的网络数据，那就错了。是的，他们确实使用了网络抓取工具或类似 Pile 的数据集，但将原始数据加工成可用于训练 GPT-4o 等模型的数据是一项艰巨的任务。这项工作需要大量的人工工作时间——只能部分自动化。

　　一些机器学习工程师推测，在创建大型语言模型(或者任何基于转换器的系统)的所有因素中，最重要的因素是数据集质量。这就是为什么在 Twitter 和 Reddit 上训练的模型永远不会像在上个世纪所有已出版作品上训练的模型那样雄辩的原因。(这也可能就是为什么据报道OpenAI在其训练数据中使用了受版权保护的书籍等合法来源，他们声称已经放弃了这种做法。)

　　因此，OpenAI 建立的训练数据集对于竞争对手来说具有巨大的价值，无论是其他公司、敌对国家还是美国的监管机构，联邦贸易委员会或法院难道不想知道到底使用了哪些数据，以及 OpenAI 是否说实话吗?

　　但也许更有价值的是 OpenAI 庞大的用户数据库——可能是数十亿次与 ChatGPT 的对话，涉及数十万个主题。正如搜索数据曾经是了解网络集体心理的关键一样，ChatGPT 掌握着可能不如谷歌用户那么广泛的人群脉搏，但却提供了更深入的信息。(如果您不知道，除非您选择退出，否则您的对话将被用作训练数据。)

　　以谷歌为例，“空调”搜索量的上升表明市场正在升温。但这些用户并没有就他们想要什么、他们愿意花多少钱、他们的家是什么样的、他们想避开的制造商等进行完整的对话。你知道这很有价值，因为谷歌本身正试图通过用人工智能互动代替搜索来吸引用户提供这些信息!

　　想想人们与 ChatGPT 进行了多少次对话，以及这些信息有多么有用，不仅对人工智能开发人员，而且对营销团队、顾问、分析师……它是一座金矿。

　　最后一类数据可能是公开市场上价值最高的数据：客户实际如何使用人工智能，以及他们自己输入到模型的数据。

　　数百家大公司和无数小公司使用 OpenAI 和 Anthropic 的 API 等工具来完成各种各样的任务。为了使语言模型对他们有用，通常必须对其进行微调或以其他方式授予其访问自己内部数据库的权限。

　　这些信息可能是一些平凡无奇的旧预算表或人事记录(例如，为了让它们更容易搜索)，也可能是一些价值不菲的未发布软件的代码。他们如何使用人工智能的能力(以及这些能力是否真的有用)是他们的事，但事实是，人工智能提供商拥有特权访问权，就像任何其他 SaaS 产品一样。

　　这些都是行业机密，而人工智能公司突然成为其中许多机密的核心。这个行业的新兴领域具有特殊风险，因为人工智能流程尚未标准化或尚未被完全理解。

　　与任何 SaaS 提供商一样，AI 公司完全有能力提供行业标准级别的安全性、隐私性、本地选项，并且总体上负责任地提供服务。我毫不怀疑，OpenAI 的财富 500 强客户的私人数据库和 API 调用被非常严格地锁定!他们肯定必须意识到在 AI 环境中处理机密数据所固有的风险。(OpenAI 没有报告这次攻击是他们的选择，但这并不能让一家迫切需要信任的公司获得信任。)

　　但良好的安全实践不会改变其保护对象的价值，也不会改变恶意行为者和各种对手试图进入的事实。安全不仅仅是选择正确的设置或保持软件更新——当然，基本安全也很重要。这是一场永无止境的猫捉老鼠游戏，具有讽刺意味的是，现在人工智能本身正在增强这种游戏：代理和攻击自动化程序正在探测这些公司攻击面的每一个角落。

　　没有必要恐慌——多年来，那些能够访问大量个人或商业价值数据的公司一直面临并处理类似的风险。但与配置不当的普通企业服务器或不负责任的数据经纪人相比，人工智能公司代表着一个更新、更年轻、可能更具吸引力的目标。即使是像上面报道的那样的黑客攻击，据我们所知没有严重的数据泄露，也应该让任何与人工智能公司做生意的人感到担忧。他们已经把目标画在了身后。当任何人或每个人都受到攻击时，不要感到惊讶。