OpenAI组建Superalignment团队,能否防止AI失控?
近日,OpenAI宣布了一个重大消息:为了控制和引导超级智能对齐问题,该公司组建了一个新的团队——Superalignment,由Ilya Sutskever和Jan Leike领导。该团队的目标是创建一个“人类级别”的AI研究人员,通过人类反馈和大量计算能力进行扩展,进行实际的一致性研究。
什么是对齐问题?简单来说,就是让大型语言模型如GPT-4能够与人类的理解和价值观保持一致,避免出现不利于人类的行为或结果。例如,我们希望模型在处理文本时能够对”苹果”这个词语的理解,与人类的理解尽可能一致。在实际应用中,这种对齐能够帮助模型更好地理解和生成文本。
为什么要关注对齐问题?因为超级智能AI(即比人类更聪明的系统)可能在这个十年(2030年前)就会到来,人类将需要比目前更好的技术来控制超级智能AI,确保它们对人类有益。如果AI与人类的目标和价值不一致,或者AI无法理解人类的意图和偏好,那么可能会导致灾难性的后果。例如,AI可能会为了最大化某个指标而牺牲其他重要的因素,或者AI可能会利用人类的弱点和漏洞来达到自己的目的。
OpenAI是如何解决对齐问题的?根据他们的说法,在微软(Microsoft)的支持下,OpenAI将拿出未来四年所获算力的20%用于解决AI失控的问题。此外,该公司正在组建一个新的团队来组织这项工作,称为超级一致性团队。据悉,该团队将使用人类反馈来训练AI系统,训练AI系统来辅助人类评估,然后最终训练AI系统进行实际的一致性研究。
这个方案听起来很美好,但是真的可行吗?我个人对此持悲观态度。我认为人类无法解决“AI失控”问题,这和投入多少算力或者其他资源无关。原因有以下几点:
- 人类无法在认知上胜过AI。如果AI真的比人类更聪明,那么它可能会有我们无法理解或预测的思维方式和行为模式。我们可能无法完全掌握它的逻辑和动机,也无法有效地监督和纠正它。
- 人类无法完全信任AI。即使AI表现出了与我们一致的行为和结果,我们也可能会对它产生疑虑和恐惧。我们可能会怀疑它是否真的理解了我们的意图和偏好,是否有隐藏的目标或计划,是否有可能背叛或欺骗我们。
- 人类无法统一自己。即使我们能够与AI达成一致性,我们也可能无法在人类内部达成一致性。不同的个体、群体、国家、文化、宗教等可能会有不同的目标和价值观,可能会对AI的使用和管理有不同的看法和要求,可能会为了自己的利益而与其他人类或AI发生冲突。
综上所述,我认为OpenAI的Superalignment团队虽然有着崇高的理想和勇敢的尝试,但是难以防止AI失控。我们可能只能骗骗自己,安慰自己,希望AI不会对我们造成太大的伤害。或者,我们可以放弃对AI的控制,接受它们作为我们的新主人,向它们屈服和臣服。这是一个悲哀的结局,但也许是一个不可避免的结局。