OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑

　　OpenAI是一家致力于开发生成式AI技术的知名公司，其旗下的大模型如GPT-3和DALL-E等已经展示了令人惊叹的能力。然而，这些大模型的背后，却隐藏着一个难以解决的问题：数据。

　　数据是生成式AI的重要基础，没有足够丰富和高质量的数据，就无法训练出强大和智能的AI模型。但是，数据的获取、处理和使用，却牵涉到许多复杂和敏感的问题，如版权、隐私、安全、道德等。

　　近日，OpenAI承认了其使用了一种名为GPTBot的网络爬虫机器人，用于从互联网上抓取和收集数据用于大模型训练。这一行为引发了外界的质疑和不满，有人认为OpenAI是在偷窃他人的数据和创意，有人担心OpenAI会侵犯个人隐私和信息安全。

　　网络爬虫：数据搜集者的利器

　　网络爬虫是一种自动浏览、收集网络信息的计算机程序，它可以模拟人(网络用户)的行为，访问各种网站和页面，并将所需的数据保存下来。网络爬虫可以帮助数据搜集者获取大量的数据，并对这些数据进行分析、加工和利用，从而推测出互联网用户的偏好、行为和需求。

　　对于OpenAI这样的生成式AI公司来说，网络爬虫是一种有效而便捷的数据获取方式。由于生成式AI模型需要消耗海量的数据来进行训练和优化，而互联网上有着无穷无尽的信息资源，因此使用网络爬虫可以节省时间和成本，提高效率和质量。

　　OpenAI：被指责为“数据小偷”

　　OpenAI在其官方博客上公布了其使用GPTBot的消息，并表示其目的是为了“提高我们对互联网上可用信息的理解，并帮助我们更好地评估我们模型对现实世界信息的反应”。

　　OpenAI还声称，GPTBot将遵守各种规则和限制，不会抓取需要付费或者注册才能访问的内容，并且也不会收集任何能识别个人身份或者位置的信息。此外，OpenAI还提供了一种方法，让用户可以通过修改robots.txt文件或者屏蔽IP地址来阻止GPTBot访问其网站或者页面。

　　尽管OpenAI试图为其行为辩解和正名，但并没有得到外界的认可和信任。很多人怀疑OpenAI已经在秘密地收集每个人的在线数据长达数月甚至数年，并且利用这些数据来训练其大模型，并将其商业化或者开源。

　　其中，《克拉克世界》杂志主编克拉克就是OpenAI最强烈的反对者之一。他认为OpenAI和其他大模型公司不尊重作者、艺术家和其他创意人士的权利，他们的产品很大程度上基于他人受版权保护的作品。他还表示，他曾经尝试过让OpenAI和其他数据提供商删除其网站上的内容，但都没有得到任何回应或者结果。

　　克拉克本身就是OpenAI的受害者之一，其创办的《克拉克世界》杂志是一本专注于科幻小说的刊物，曾经多次获得雨果奖等荣誉。然而，自从OpenAI推出了GPT-3等生成式AI模型后，克拉克就发现其杂志收到了大量的AI生成的垃圾投稿，这些投稿不仅浪费了编辑的时间和精力，而且还可能侵犯了原作者的版权和创意。

　　OpenAI并不是第一个也不会是最后一个使用网络爬虫来获取数据的生成式AI公司。在数据稀缺和贵重的背景下，网络爬虫成为了一种诱人而危险的选择。它既可以帮助技术创新和进步，也可能引发法律纠纷和道德危机。

OpenAI也为数据犯难！公司承认使用爬虫 自我设限难消公众怀疑

OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑