OpenAI是一家致力于开发生成式AI技术的知名公司,其旗下的大模型如GPT-3和DALL-E等已经展示了令人惊叹的能力。然而,这些大模型的背后,却隐藏着一个难以解决的问题:数据。
数据是生成式AI的重要基础,没有足够丰富和高质量的数据,就无法训练出强大和智能的AI模型。但是,数据的获取、处理和使用,却牵涉到许多复杂和敏感的问题,如版权、隐私、安全、道德等。
近日,OpenAI承认了其使用了一种名为GPTBot的网络爬虫机器人,用于从互联网上抓取和收集数据用于大模型训练。这一行为引发了外界的质疑和不满,有人认为OpenAI是在偷窃他人的数据和创意,有人担心OpenAI会侵犯个人隐私和信息安全。
网络爬虫:数据搜集者的利器
网络爬虫是一种自动浏览、收集网络信息的计算机程序,它可以模拟人(网络用户)的行为,访问各种网站和页面,并将所需的数据保存下来。网络爬虫可以帮助数据搜集者获取大量的数据,并对这些数据进行分析、加工和利用,从而推测出互联网用户的偏好、行为和需求。
对于OpenAI这样的生成式AI公司来说,网络爬虫是一种有效而便捷的数据获取方式。由于生成式AI模型需要消耗海量的数据来进行训练和优化,而互联网上有着无穷无尽的信息资源,因此使用网络爬虫可以节省时间和成本,提高效率和质量。
然而,并非所有的网络信息都是公开和免费的,有些网站或页面设置了付费墙或者版权声明,有些数据包含了个人身份或者敏感信息。如果不经过授权或者同意,就随意抓取和使用这些数据,就可能涉嫌侵权或者违法。
OpenAI:被指责为“数据小偷”
OpenAI在其官方博客上公布了其使用GPTBot的消息,并表示其目的是为了“提高我们对互联网上可用信息的理解,并帮助我们更好地评估我们模型对现实世界信息的反应”。
OpenAI还声称,GPTBot将遵守各种规则和限制,不会抓取需要付费或者注册才能访问的内容,并且也不会收集任何能识别个人身份或者位置的信息。此外,OpenAI还提供了一种方法,让用户可以通过修改robots.txt文件或者屏蔽IP地址来阻止GPTBot访问其网站或者页面。
尽管OpenAI试图为其行为辩解和正名,但并没有得到外界的认可和信任。很多人怀疑OpenAI已经在秘密地收集每个人的在线数据长达数月甚至数年,并且利用这些数据来训练其大模型,并将其商业化或者开源。
其中,《克拉克世界》杂志主编克拉克就是OpenAI最强烈的反对者之一。他认为OpenAI和其他大模型公司不尊重作者、艺术家和其他创意人士的权利,他们的产品很大程度上基于他人受版权保护的作品。他还表示,他曾经尝试过让OpenAI和其他数据提供商删除其网站上的内容,但都没有得到任何回应或者结果。
克拉克本身就是OpenAI的受害者之一,其创办的《克拉克世界》杂志是一本专注于科幻小说的刊物,曾经多次获得雨果奖等荣誉。然而,自从OpenAI推出了GPT-3等生成式AI模型后,克拉克就发现其杂志收到了大量的AI生成的垃圾投稿,这些投稿不仅浪费了编辑的时间和精力,而且还可能侵犯了原作者的版权和创意。
OpenAI并不是第一个也不会是最后一个使用网络爬虫来获取数据的生成式AI公司。在数据稀缺和贵重的背景下,网络爬虫成为了一种诱人而危险的选择。它既可以帮助技术创新和进步,也可能引发法律纠纷和道德危机。