谷歌这回,可真是出大糗了。
Bard处处不及ChatGPT也就罢了,如今竟然被曝出,为了快速训练这个ChatGPT竞品,他们直接使用了ChatGPT生成的数据。。。
数据来自于一个收集ChatGPT对话的公开网站,上面的对话数量超过11万。
The Information爆料,这种操作在谷歌内部不是没人反对。BERT一作就直接向劈柴哥等高管发出警告,并且明确提示:
这种行为违反了OpenAI的服务条款,并且会让Bard的回答和ChatGPT非常相似。
此后,这位大佬迅速从谷歌离职,转投OpenAI。
ShareGPT网站的作者,也佐证了这个消息:“我知道这事儿有一阵子了。”
并且正因为此,ShareGPT上周关闭了浏览他人聊天记录的探索功能。
这一锤下来,吃瓜网友当场坐不住了,有人直言谷歌这是犯了大忌。
还有人嘲讽,这下谷歌完全成了OpenAI的陪衬。
而谷歌这边,也立马被炸了出来,紧急否认三连:
Bard没有用任何来自ShareGPT或者ChatGPT的数据训练。
Bard自己承认“浏览过”ShareGPT
但谷歌用ShareGPT数据训练Bard这事儿吧,多少是有迹可循。
比如在上周,ShareGPT突然关闭了浏览他人ChatGPT对话的功能。
ShareGPT本来是一个谷歌插件,能方便人们一键分享自己和ChatGPT的对话到各种平台。之后开发者又进一步推出了一个探索页面,可以方便大家互相浏览有趣的对话,因此也成为了一个海量ChatGPT数据的聚集地。
随着The Information的爆料不胫而走,ShareGPT的开发者也公开喊话:
秘密终究还是藏不住了吧!
再来看谷歌这边的回应,比较因吹斯听。
虽然他们否认使用过ShareGPT或ChatGPT的任何数据。但在The Verge追问之前是否使用过ChatGPT数据做训练时,发言人拒绝回答并表示:
很抱歉我能分享的只有我们昨天的声明。
有消息人士说,在BERT一作雅各布·德福林(Jacob Devlin)和谷歌高管发出警告后,谷歌确实停止使用ChatGPT数据训练了。
由此The Verge猜测,Bard里或许已经删掉了之前这部分训练数据。
而如果把这个问题直接抛给Bard本身,它的回答同样引人深思。
因为它否认使用过ChatGPT的数据。
但承认读过ShareGPT的对话……
反倒是ChatGPT这边的回答很谨慎体面,表示除非“谷歌官方或相关研究人员明确承认了”,否则它没法作答。
实际上,OpenAI对于能否使用ChatGPT输出数据做训练这件事,有明确的条款说明:
竞品,不行。
但如果是非商用的,比如斯坦福大学发布的对话模型Alpaca,应该可以。
在Alpaca发布时明确提到,团队是通过购买OpenAI的API来生成数据集。
由此也就不难理解为啥BERT一作雅各布老哥,当初知道谷歌操作后反应如此激烈,甚至直接跑去和劈柴哥发出警告,毕竟这可是明目张胆地违反友商条例。
更何况这么做对Bard也不是没有坏处,会导致它生成的答案和ChatGPT非常相似……
而在给谷歌“吹哨”后,雅各布选择了马上提桶跑路转投OpenAI。1月份离职,都没等Bard发布。