0°

AI脑回路竟和人类如此相似,OpenAI最新研究引热议

  两个月前轰动网络的AI设计大师CLIP,刚刚被OpenAI“扒开”了脑子。

  没想到,这个性能强大的AI竟和人类思维方式如此相像。

  打个比方,无论你听到“炸鸡”二个字,还是看到炸鸡实物,都可能流口水。因为你的大脑里有一组“炸鸡神经元”,专门负责对炸鸡起反应。

  这个CLIP也差不多。

  无论听到“蜘蛛侠”三个字,还是看到蜘蛛侠的照片,CLIP的某个特殊区域就开始响应,甚至原本用来响应红色和蓝色的区域也会“躁动”。

  OpenAI发现,原来CLIP有一个“蜘蛛侠神经元”。

  在脑科学中,这并不是啥新鲜事。因为早在15年前,研究人脑的科学家就发现了,一张脸对应一组神经元。

  但是对AI来说却是一个巨大的进步。过去,从文字到图像,和从图像到文字,用的是两套系统,工作方式都不一样。

  而CLIP却有着和人脑极为相似的工作方式,CV和NLP不仅技术上打通,连脑子里想的都一样,还有专门的处理区域。

  看到二者如此相像,有网友表示:

  太可怕了,这说明通用人工智能(AGI)到来,比所有人想象的都快。

  而且,OpenAI还惊讶地发现,CLIP对图片的响应似乎类似与癫痫患者颅内神经元,其中包括对情绪做出反应的神经元。说不定AI今后还能帮助治疗神经类疾病。

  AI的“脑子”,其实和人类一样

  先前情回顾一下,CLIP到底是神马。

  不久前,OpenAI发布了脱胎于GPT-3的DALL·E,能按照文字描述准确生成图片。

  DALL·E对自然语言和图像的理解和融汇贯通,做到了前无古人的水准。一经问世,立刻引来吴恩达、Keras之父等大佬点赞。

  而DALL·E的核心部分,就是CLIP。

  简单的说,CLIP是一个重新排序模型,检查DALL·E所有生成结果,挑出好的展现出来。

  CLIP能做“裁判”,离不开将文字和图片意义“融合”理解的能力,但这样的能力从哪来,之前人们根本不清楚。

  OpenAI紧接着深挖CLIP神经网络的原理结构,发现了它的多模态神经元,具有跟人类大脑类似的工作机制:能够对文字和图像中的相同意义同时做出响应。

  而所谓模态,是指某个过程或某件事,包含多个不同的特征,图像通常与标签和文本解释相关联,是完整理解一个事物的要素。

  比如,你看到蜘蛛侠三个字,或者是Spiderman,都能联想起穿着红蓝紧身衣的超级英雄。

  熟悉这个概念以后,看到这样一幅黑白手绘,你也能马上明白这是“蜘蛛侠”:

  CLIP中的多模态神经元,能力与人类没有任何区别。

  这样专门负责某个事物的神经元,OpenAI发现了好几个,其中有18个是动物神经元,19个是名人神经元。

  甚至还有专门理解情绪的神经元:

  其实,人本身就是一个多模态学习的总和,我们能看到物体,听到声音,感觉到质地,闻到气味,尝到味道。

  为了让AI摆脱以往“人工智障”式的机械工作方式,一条路径就是让它向人一样能够同时理解多模态信号。

  所以也有研究者认为认为,多模态学习是真正的人工智能发展方向。

  在实现过程中,通常是将识别不同要素子网络的输出加权组合,以便每个输入模态可以对输出预测有一个学习贡献。

  根据任务不同,将不同的权值附加到子网后预测输出,就能让神经网络实现不同的性能。

  而具体到CLIP上,可以从研究人员的测试结果中清楚的看到,从语言模型中诞生的它,对于文字,比对图像更加敏感。

  攻击AI也更容易了

  但是,文字和图像在AI“脑海”中的联动是一把双刃剑。

  如果我们在贵宾犬的身上加上几串美元符号,那么CLIP就会把它识别为存钱罐。

  OpenAI把这种攻击方式叫做“印字攻击”(typographic attacks)。

  这意味着,我们可以在图片中插入文字实现对AI的攻击,甚至不需要复杂的技术。

  只需一张纸、一支笔,攻破AI从未如此容易。

  苹果就这样被改装成了“苹果”iPod。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论