ChatGPT的横空出世,引发了人工智能浪潮,科技公司们在人工智能领域的动作和竞争愈演愈烈。
早在57年前,麻省理工学院教授约瑟夫•魏岑鲍姆(Joseph Weizenbaum)就开发了全球第一个聊天机器人Eliza,将它定位为医生的助手。Eliza会主动向病人询问情况,并根据病人的回答进行接下来的对话。
这样可以根据输入的文本而进行流畅对话的聊天机器人是前所未有的。尽管患者在向Eliza描述病情时,得到的反馈非常有限,患者们还是很乐于和这个新奇的机器人交流,对Eliza展现出了相当大的狂热情绪,甚至有人坚信Eliza可以真实理解和感受人类。约瑟夫表示,“我没想到,普通人只是短暂接触到一个相对简单的计算机程序,也会产生严重的妄想症。”
ChatGPT的崛起背后是人类几十年来对人工智能的不懈探索。人工智能诞生之初,社会各界对AI无比乐观,专家甚至表示机器将在20年内完成人类的所有工作。很快,研究成果的匮乏直接带来了资金支持的削减和大批项目的流产,极度的乐观被极度的悲观取代,AI寒冬到来。接着,新技术、新发现又再次点燃了人们对于AI的热情,使得资金重新注入、进展再次到来。如此循环往复,人们对AI的情绪在悲观和乐观之间反复震荡,AI就这样螺旋式上升发展。
AI走了几十年,ChatGPT才来到了我们面前。人工智能是如何一步步发展起来的?科学家通过什么思路、以哪些方法模拟人类智能?近年来人工智能的迅速发展,以及AIGC行业的大热,是由什么技术而推动的?以下,Enjoy:
1
AI诞生:激情与寒冬
1956年,一些来自知名大学、企业和实验室的科学家汇聚在达特茅斯学院,就人工智能领域的研究开展暑期研究项目,AI学科正式诞生。
约翰·麦卡锡(John McCarthy)是该项目第一次会议的发起人,也是人工智能一词的创造者。在《关于达特茅斯学院人工智能主题的暑期研究项目的提议》中,他这样定义人工智能:“人类学习的每个方面或智能的任何特征,原则上都可以被非常精确地描述。人类可以制造出能够根据这些描述模拟人类智能的机器。”
在相关领域有所建树的科学家们相聚达特茅斯,其中不少人在未来成为了图灵奖和其他奖项的得主。除发起人约翰·麦卡锡(John McCarthy)外,参会的科学家还包括:马文·明斯基(Marvin Minsky)、克劳德·香农(Claude Shannon)、艾伦·纽厄尔(Allen Newell)、赫伯特·西蒙(Herbert Simon)和奥利弗·塞弗里奇(Oliver Selfridge)等。
在会议召开之前,他们已经对人工智能的实现方式进行了有意或无意的初步探索。
人类的大脑可以实现复杂的计算和记忆,靠的是1000亿神经元组成的神经网络。一些科学家从生物学家那里得到灵感,希望用机器模拟人脑的运行,建立神经网络就是实现这一想法的主要方法。马文·明斯基(Marvin Minsky)就是其中之一。他从学生时代开始就研究神经网络这一未知领域,在研究生期间,他与同学一起建立了世界上第一个人工神经网络——随机神经网络模拟强化计算器(SNARC)。它由40个“神经元”组成,可以模仿小鼠走迷宫的过程,我们可以从中窥见现代神经网络的影子。
艾伦·纽厄尔(Allen Newell)、赫伯特·西蒙(Herbert Simon)选择了另一条路。他们认为运用逻辑推理法则能够模拟出人脑的思维,这才是人工智能的出路。二人合力开发了逻辑理论家(Logic Theorist),世界上第一个可以模仿人类一些方面的能力来解决复杂问题的程序。该程序能够证明数学家阿尔弗雷德·诺斯·怀特黑德(Alfred North Whitehead)和伯特兰·罗素(Bertrand Russell)的《数学原理》(Principia Mathematica)中前52个定理中的38个,其中某些证明比原著更加新颖和精巧。
在更早的时候,神经生理学家威廉·格雷·沃尔特(W. Grey. Walter)在40-50年代进行了另一种尝试。他虽然没参加这次会议,但走出了人工智能的另一条路。他试图让机器模仿动物行为,发明了Elmer和Elsie这对乌龟机器人,它们可以通过一个旋转的光电管来自我指引,缓慢探索周围环境,向有光源的地方移动。如果光源过于明亮,它们就会退后并朝着另一个新的方向探索。传感器感应到障碍物时,它们就会改变方向。
以上对人工智能实现方式的三种探索分别代表了人工智能的三种学派——联结主义、符号主义、和行为主义,它们迎来过各自的强盛期,但终究以彼此融合的方式推动了AI研究的发展。
1950年,艾伦·图灵(Alan Turing)发表了划时代的《计算机器与智能》一文,提出了“机器可以思考吗”的重要问题,并提出了著名的“图灵测试”以检验机器是否拥有真正的智能。图灵测试的内容是:如果一台机器能够与人类展开对话而不被辨别出其机器身份,那么称这台机器具有智能。直到现在,图灵测试也被认为是测试机器是否存在智能的标准。从那时开始,72年来,人类一直在试图解决这个问题。
计算机下棋也许是“人工智能”行为最直观的例子。让机器自动玩智力游戏并寻求战胜人类,一直是人工智能领域追求的重要目标之一。因为智力游戏被公认为是智能的一种具体表现,而人工智能的终极目的就是用机器实现人类(部分)智能。1950年,达特茅斯会议的重要参加者、狂热下棋爱好者克劳德·香农(Claude Shannon)为《科学美国人》撰文,阐述实现人机博弈的方法。这篇论文为计算机下棋的理论研究奠定了基础,其主要思路在多年后的Deep Blue及AlphaGo中仍能看到。
克劳德·香农对于人机博弈的想法很快就变成了现实。在达特茅斯会议召开的1956年,IBM发布了亚瑟·塞缪尔(Arthur Samuel)设计的西洋跳棋程序。这个程序能够通过观察棋子的走位来构建新的模型,并以此提高自己的下棋技巧。Samuel和这个程序在进行对弈后发现,随着时间的推移,程序的棋艺变得越来越好。
之后,AI迎来了飞速发展。1957年,马文·明斯基(Marvin Minsky)的高中同学弗兰克·罗森布拉特(Frank Rosenblatt)发明了一种叫感知机的神经网络模型。这是首个意图让机器去学习的机器,本质是一个模拟单个神经元工作方式的简单数学模型。Rosenblatt在定制的硬件上用感知机实现了单层神经网络,并让它学会去分类一些简单的形状,第一次把神经网络的研究付诸实践。这就是最初的机器学习。他的研究不仅开启了机器学习的浪潮,也成为了后来神经网络的基础。
这个机器的诞生不但让Rosenblatt本人空前自信,甚至表示基于感知机的电子计算机将拥有自己的意识,能够代替人类进行星际探索,当时的社会对于AI的前景也极其看好。《纽约时报》在1958年报道,“海军披露了一台尚处初期的电子计算机,期待这台电子计算机能行走、谈话、看和写,自己复制出自身存在意识……Rosenblatt博士说,感知机能作为机械太空探险者被发射到行星上。”
本以为感知机的发现是AI发展全盛期的到来,没想到是寒冬前的短暂巅峰。1969年,Rosenblatt的高中同学Minsky成为了图灵奖得主,并撰写了《感知机》一书。他在书中批评了神经网络的发展,认为神经网络在当时的情况下不可实现,新晋图灵奖得主的发言给大热的神经网络研究泼了一大盆冷水,神经网络从天堂来到了地狱。
同时,逐渐有学者指出,AI研究者们之前的伟大许诺无一实现,大笔项目资金打了水漂,政府因此中断了资金支持,AI研究因此被重创。人们最初对AI有多少美好的幻想和期待,此时就有多少的失望和幻灭。AI狂热散去,寒冬来临。
2
ANI诞生:AI应用走出专家系统新路
神经网络的发展受到质疑后,AI寒冬来临。归根结底,计算机的算力不足仍然是AI发展路上的最大障碍。在20世纪70-80年代初,大部分人不再寻求通用智能的研究,而是转向了更小范围专业任务的AI领域,我们所说的“窄AI”(ANI)一词也正是诞生在这个时期。
在这一时期,AI走上了“专家系统”的应用之路,AI研究迎来逐步复苏。但AI专家们一改对神经网络研究的极度乐观,转而希望通过符号和逻辑来搭建人工智能体系,用数理逻辑的手段实现人工智能。
专家系统是人工智能最活跃和最广泛的领域之一,也是人工智能的重要分支。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)”的结合。
1965年,根据NASA的要求,斯坦福大学创造出来了世界上的第一个专家系统DENDRAL。这是世界上第一个主要借助能解决问题的知识,而非先进技术本身运行的成功程序。
DENDRAL背后的男人叫做费根鲍姆(Edward·Albert·Feigenbaum)。他进入卡内基理工学院(卡内基梅隆的前身)攻读电子工程(EE)本科时才16岁,并在这里遇到了引发他关于人工智能兴趣的重要老师、达特茅斯会议的关键参会者赫伯特·西蒙(Herbert Simon)。本科毕业后,费根鲍姆留校任教,后于1964年来到了斯坦福大学。在这里,他见到了李德伯格(Joshua Lederberg),一位在33岁就斩获了诺贝尔生理学奖的遗传学大师。
李德伯格早年深受“莱布尼茨之梦”影响,希望能借助符号计算,把人类思想还原为计算的普遍语言,再制造出一个能执行该计算的强大机器。他和费根鲍姆一样对科学哲学非常热爱。他们相遇的时候,李德伯格正在研究火星上是否有新生命,而费根鲍姆正在研究机器归纳法(也就是现在的机器学习),一个有火星来的数据,一个有最先进的方法,两位一拍即合。
尽管如此,二人在实际开发过程中,发现他们缺少研发一个化学系统最关键的东西——专业化学知识。于是,他们找上了斯坦福的化学家翟若适(Carl Djerassi),翟若适更为人所知的发明成就是避孕药。三人合力下,1965年,DENDRAL诞生了。DENDRAL 接收到输入的数据后,可以自动生成输出给定物质的化学结构。DENDRAL也可以被视作是科学家尝试利用早期计算机实现科研自动化的一种尝试。
DENDRAL让人工智能的研究者们明白,智能行为需要大量的知识作为基础。他们也因此开始研究如何建立能够以知识来解决输入的问题的程序。
DENDRAL的核心成员布坎南(Bruce G. Buchanan)在DENDRAL大获成功后,开始寻找新的方向。很快,他把目光投向了医学领域。他邀请医学专家肖特莱福(Edward Shortliffe)参与到项目中来,两人牵头开发了医疗专家系统MYCIN。
该系统于1973年开始研制,1974年基本完成,1976年发表。MYCIN具有内科医生的知识和经验,可用于血液感染病的诊断、治疗和咨询服务。MYCIN 的处方准确率高达 69%,远远优于非专科医生,就算与当时专科医生的80%准确率相比,MYCIN也并不逊色太多,肖特莱福因此获得 1976 年 的霍普(Grace Murray Hopper)奖,该奖项是ACM专门为青年计算机科学家设立的。
MYCIN系统采用了“知识库”(Knowledge Base)、“推理机”(Inference Engine)的系统结构,引入了“可信度”的概念,进行非确定性知识推理,能对用户的咨询提问进行回答解释,并给出答案的可信度估计。MYCIN是功能较全面,结构较完善的专家系统。它的研制成功,为其他许多专家系统的研究与开发提供了范例和经验。
之后,MIT又研发了MACSYMA系统作为一位数学家的助手。经过持续改进后,该系统可以解决超过600个数学问题。这些专家系统的成功得到了学界和业界的广泛认可。许多研究者也因此认为,知识表达,知识利用,和知识获取是人工智能系统的三大基本问题。
专家系统作为一个时代的人工智能应用标志性产物曾风靡一时,然而,1980年代以来,专家系统的问题也逐渐暴露出来,如应用范围狭窄、昂贵的专用硬件支持、算法成本过高、推理机制不完善等等……单一的专家系统逐渐转向能够解决更复杂问题的基于框架的专家系统等,但还是不复往日辉煌。
AI应用发展遇阻的同时,理论界虽有突破,但也不足以提振整个AI行业。
1985年,为了更好地开发医疗专家系统,增加治愈疾病的可能,裘德·珍珠(Judea Pearl)提出贝叶斯网络(Bayesian network),又称信念网络(Belief Network),以从概率上对相关问题进行分析。社会对神经网络的进展反响乐观,媒体报道称:可以采购到神经网络程序,用于诊断心脏病。
次年,大卫·鲁姆哈特(David·Rumelhart)、杰弗里·辛顿(Geoffrey·Hinton 等人提出了反向传播算法( Backpropagation algorithm ),也就是我们通常所说的BP算法。BP算法是现在的深度学习中仍然被使用的训练算法,奠定了神经网络走向完善和应用的基础。BP网络是前文提到的感知机的层次化,而多个BP网络的层次化也将在未来带来进一步技术升级。
这是神经网络复兴的关键一步,BP算法的大获成功给了科学家重拾神经网络研究的激情与信心。然而,计算机算力的限制还是未能使得理论在应用中充分发挥出效果。没过几年,AI发展迎来了第二次寒冬。
与此同时,针对计算机进行的研究也在持续开展,一些大事件发生了。专家系统发展的70-80年代,苹果、IBM陆续推出第一台台式机,个人计算机的出现将在未来变革人类的工作和生活方式。日本在80年代初野心勃勃,提出用8.5亿美元开发第5代计算机——人工智能计算机以引领世界,却终于在1991年宣布计划中止,上亿美元都打了水漂。
直到90年代末,IBM的超级计算机”深蓝“问世,击败顶尖棋手,AI发展才渐有回暖迹象。之后我们来到21世纪,自动机器人取得长足进步,扫地机器人、跳舞机器人等机器人层出不穷,吸引着人们的目光。随后,谷歌率先以语音识别应用开启数字化语音助手的潮流,AI应用越来越多地回归到人们的视野中。
3
AIGC爆发:ChatGPT搅动风云
AIGC可谓是今年最热的话题,各类内容生成模型不断更新着我们对AI的认识。事实上,AIGC的爆发背后是深度学习技术十余年来的快速发展。谷歌、DeepMind、OpenAI等公司和实验室也正是借了深度学习技术发展的东风,才能频繁带着我们所熟悉的AI成果出现在大家面前。
那么深度学习是什么呢?抛开复杂的概念不谈,简单来说,深度学习从底层模拟人脑神经元的主要工作机制,通过计算机对数据的复杂运算和优化实现人工智能。深度学习是机器学习的一种,使得机器学习领域有了新的突破。李开复在《人工智能》一书中以识别图中的汉字为例,讲解了深度学习的概念:
假设深度学习要处理的信息是“水流”,而处理数据的深度学习网络是一个由管道和阀门组成的巨大水管网络。网络的入口是若干管道开口,网络的出口也是若干管道开口。这个水管网络有许多层,每一层由许多个可以控制水流流向与流量的调节阀。根据不同任务的需要,水管网络的层数、每层的调节阀数量可以有不同的变化组合。对复杂任务来说,调节阀的总数可以成千上万甚至更多。水管网络中,每一层的每个调节阀都通过水管与下一层的所有调节阀连接起来,组成一个从前到后,逐层完全连通的水流系统。
深度学习和这些AI巨头的故事要从十年前(2012年)的一篇论文讲起。这篇论文开启了难以阻挡的历史洪流,而谷歌等科技公司正是乘上了这股洪流,在搜索引擎、翻译软件、聊天机器人等领域带来了Google Photos, Google Translate, Uber, Alexa, DALL-E, AlphaFold, ChatGPT等令人印象深刻的现实成果。
在介绍论文之前,也许你还记得在这篇论文发布的前一年,2011年,一件轰动世界的比赛把人类的目光聚焦于AI。那一年,IBM研发的Watson参加了美国家喻户晓的电视智力竞赛节目Jeopardy!,并打败了人类冠军Ken Jennings,震撼了无数电视机前的观众,也让社会对Watson的信心一路飙升。
Watson采用了100多项与自然语言处理、知识问答相关的技术,利用节目40多年的问答进行训练,储存了数百万份资料,可以在3秒内给出一个问题的回答,可以说在当时已经非常智能。IBM认为这只是Watson辉煌的开始,并承诺将把Watson打造为一个在医院、农场、办公室和工厂通用的热心机器助手,变革医疗、金融、法律和学术等领域。
然而,IBM的数百万美金都付之东流,结果现在我们已经知道,Watson没能重塑任何一个行业,IBM这步走得并不到位。科学家David Ferrucci解释道,Watson是针对益智类游戏设计的,它能够识别词组,并预测正确的答案,却远远没有准备好正式进入商业世界。尽管在AI领域深耕数十年之后,IBM并没有通过Watson取得历史性的成功,但Watson带给整个世界的巨大震撼以及对于其他公司AI发展的引领作用仍然是不可否认的。与此同时,一些公司已经准备好接过IBM的接力棒,引领2010年代的AI潮流。而这就要回到2012年的那篇论文。
这篇2012年发布的论文题目是《使用深度卷积神经网络实现ImageNet数据库分类》,由“深度学习之父”杰弗里·辛顿(Geoffrey Hinton)和他的两位博士生亚历克斯·克里热夫斯基(Alex Krizhevsky)和 伊利亚·苏茨凯弗(Ilya Sutskever,他正是后来OpenAI的联合创始人和首席科学家,开发了GPT、CLIP、DALL-E、Codex等模型)完成。
Ilya Sutskever(左)、Alex Krizhevsky(中)和 Geoffrey Hinton(右)
该论文阐述了他们使用ImageNet数据库创建了一个名为AlexNet的开创性神经网络,AlexNet在各种图像的分类方面都要比以往任何方法准确得多。在著名的ImageNet图像识别大赛中,AlexNet拿下冠军。在这场比赛中,参赛者必须使用自己的系统来处理数百万的测试图像,并且以尽可能高的准确率进行识别。AlexNet赢得了比赛,错误率不到亚军的一半。AlexNet的Top-5错误率是15.3%;而在2012年以前,最好成绩是26%的错误率。该论文成功解锁了计算机视觉乃至整体深度学习的全面进步,将深度学习推向主流。
深度学习作为机器学习的分支,引领了接下来十余年的人工智能领域的发展。深度学习的兴起标志着数字技术的构建方式出现了根本的改变。工程师们不再细致地定义机器应该如何运行规则和代码,而是打造可以通过自身经验学习任务的机器,这些经验包含了巨量的数字信息,甚至没有人能完全理解。
获奖后,Hinton成立了一家名为DNNresearch的小公司,为了把它卖出个好价格,他决定组织一场拍卖。四家公司加入了这场竞拍,包括我们所熟知的国内大厂百度,国际巨头谷歌和它的老对手微软,还有一家刚成立不过两年的英国实验室。这家实验室就是DeepMind。当时还没有人想到,它将成为这个时代最著名且最有影响力的人工智能实验室,在人工智能领域为世界带来一次又一次惊喜。
百度出价1200万美元,但谷歌最终赢得了这场拍卖,顺便揽下了获奖者Alex Krizhevsky 和 Ilya Sutskever,还在两年后收购了DeepMind。当时的DeepMind被认为是最有可能研发出AGI(通用人工智能:具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能)的实验室,谷歌收购DeepMind后实力大增,极有垄断AI行业的可能。为了对抗这种可能性,OpenAI于2015年诞生了。
尽管主流研究还集中在ANI的研究(如机器视觉、语音输入等),OpenAI从创立起,每一位参与者都坚信AGI是可行的,他们希望能够研制像人一样思考、能够应用于多种途径的机器智能。OpenAI以非盈利组织的形式成立,承诺发布研究成果并开源所有技术,汇集了众多理想主义的技术大牛,也吸引了不少投资。
这一年(2015年),神经网络研究再次迎来突破,Hinton所参加的ImageNet竞赛迎来了新冠军。何凯明在这年提出了ResNet深度残差网络,这是世界上第一个上百层的深度神经网络,开创了深度学习领域的里程碑。人工智能研究开始尝试输入更高量级的数据,以更精确地模拟人脑。
2016年,DeepMind所发布的AlphaGo已经击败了世界围棋冠军李世石,震动世界。人机大战最终局结束后,李世石独自一人掩面坐在棋盘前。这场比赛主动挑战执黑的李世石没能再次展现出“神之一手”,最终180手投子不敌AlphaGo。而人类VS人工智能也最终以1:4落下大幕。
李世石表示,“如果我再次与AlphaGo比赛的话,我不确定我能不能赢。在心理和技术上,我觉得人类已经很难赶上AlphaGo了,它已经做得很好了。”李世石失利后,不少棋手表示要为人类挽回颜面。
次年(2017年),世界排名第一的围棋冠军柯洁0:3不敌AlphaGo,人工智能的威力再次得到彰显,AlphaGo自此不再参加围棋比赛。10月,DeepMind发布了AlphaGo Zero。与学习大量人类棋谱的AlphaGo不同,AlphaGo Zero是自学成才类选手,自己和自己对弈,学成后以100:0的战绩碾压前辈AlphaGo。
12月,谷歌紧锣密鼓地发布了AlphaZero。这次,棋类AI终结者真的来了。它发扬了Alpha家族“后浪推前浪”的光荣传统,轻松击败了早出生两个月的AlphaGo Zero,还拿下了当时最好的国际象棋引擎Stockfish以及日本将棋程序Shogi。而AlphaZero完成这些成就之前自我训练的时间更是让人惊异:国际象棋9小时,日本将棋12天,围棋13天。只靠十几天的努力,它就下出了人类毕生努力也难达到的水平。
在人工智能在围棋领域已无敌手的这一年,谷歌继续一路开挂,发布了空前强大的Transformer模型。Transformer 被广泛认为是当时世界上发明最新和最强大的模型之一,一些人把它带来的人工智能领域方面的进步称作transformer AI。Transformer拥有强大的表征能力和并行计算优势,直到现在也深深影响着我们:我们在谷歌或必应浏览器上的每一次搜索,都与它有关。斯坦福大学的研究人员在2021年8月的一篇论文中将Transformer称作“基础模型”,认为它推动了AI的范式转变。最近大火的ChatGPT的GPT模型中的T就来自于Transformer。
谷歌团队将Transformer模型概括为一句话:Attention is All You Need. 这是一个完全基于注意力机制的编解码器模型Transformer,完全抛弃了之前其他模型引入注意力机制后仍然保留的循环与卷积结构,在任务表现、并行能力和易于训练性方面都有大幅提升,因此也成为了后续机器翻译和其他许多文本理解任务的重要基准模型。
Transformer可以读取许多单词或句子来训练模型,充分理解词之间的相互关联,并预测接下来出现的词。Transformer架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。该模型应用相当广泛,可以实时翻译文本和语音,保证听障者也可以顺利参会;可以帮助研究人员了解DNA中的基因链和蛋白质中的氨基酸链,加快药物设计进程等等。前者应用如谷歌翻译,后者应用的例子就是大名鼎鼎的AlphaFold。
2020年,DeepMind的AlphaFold在国际蛋白质结构预测竞赛上击败了其余的参会选手,再次爆红。AlphaFold能够精确地基于氨基酸序列,预测蛋白质的3D结构。其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或X射线晶体学等实验技术解析的3D结构相媲美。DeepMind创始人哈萨比斯表示,这对于DeepMind来说是一个非常关键的时刻,DeepMind为此投入了巨大的人力及其他资源,以达成其解决这个非常重要的、现实世界的科学问题的目标。
该消息引起巨大震动。前基因泰克首席执行官亚瑟·莱文森(Arthur D. Levinson)博士称这一成就为“划时代的进步”。有评论称,AlphaFold必将成为科研“第四范式”时代的标志性事件,彻底变革科研方式。“第四范式”时代是图灵奖得主吉姆·格雷(Jim Grey)在去世前最后一次报告中预测的内容,他认为未来的科研发现都将建立在大量数据基础上,科学家将借助算法自动形成推论,最后通过现实实验确认。
看到这里,谷歌似乎已经在人工智能领域占据了绝对优势,难以被其他公司所赶超。然而改变已经悄悄发生。
2022年是AI的变革之年,也是AIGC元年。人工智能深度学习的快速发展所带来的深度神经网络技术在大模型和多模态两个方面不断突破。OpenAI等企业持续发力,以 Stable Diffusion 为首的一众 AI 画图框架或者平台,以及其他类似的音视频生成等平台接连发布,引起巨大轰动。AIGC成为继PGC、UGC后最新的内容生产方式。AIGC时代下,人人都是创作者,只需一些简单的描述,精美的图文或视频就出现在用户面前。
2022年8月,美国科罗拉多州,一位毫无绘画基础的参赛者在当地举办的新兴艺术家竞赛中获得了一等奖,引发多方争议。而这位参赛者正是借助人工智能,生成了下面这幅精美的AIGC绘画作品《太空歌剧院》。
在AIGC潮流下,谷歌顺势而上,一口气在2022年年末发布四款AIGC产品:文本图像模型Imagen、AI写作协助工具LaMDA Wordcraft、结合Imagen Video和Phenaki的超长连贯视频生成模型、无需任何训练的音频模型AudioLM。
然而,OpenAI没能让谷歌过个好年。OpenAI在2020年投喂海量数据、更接近人脑的超大基础模型GPT-3模型上持续提升,终于在2022年11月,ChatGPT横空出世,凭借其有反馈的交互式问答和像与人聊天一样的聊天体验成为了AIGC领域最闪亮的新星和毋庸置疑的代言人,其庞大的用户体量和讨论度令人震惊。OpenAI不忘初心,以强有力的姿态出现并打破了谷歌的垄断。谷歌匆忙迎战,短短几个月就推出Bard,然而Bard对谷歌谈不上加成,因为答错简单的问题引发群嘲,进一步验证了ChatGPT的强大。
如今的ChatGPT在文本方面引领热潮,通过引入RLHF机制,持续优化模型效果,能完成问答、诗歌创作、代码写作等,可以说是非常全能。在ChatGPT引发的潮流之下,多个科技巨头加码布局交互式文本。
同时,其他AIGC产品的集中发布,从效率、质量、多样性等方面为内容生产带来了巨大变革。新一代AIGC模型可以处理文字、语音、代码、图像、视频、机器人动作等格式,为用户带来AIGC时代的内容生成新体验。
4
真正的AGI还会远吗?
1996年,IBM的超级计算机深蓝大战人类国际象棋冠军卡斯帕罗夫,卡斯帕罗夫是世界上最富传奇色彩的国际象棋世界冠军,这次比赛最后以4:2比分战胜了深蓝。这是全世界第一次感到计算机智能水平有了质的飞跃的时刻。
卡斯帕罗夫在22岁就成为了最年轻的国际象棋世界冠军,在与深蓝交战之前和之后都获得了无数世界冠军。尽管他在代表人类对弈深蓝时失败,但一幕将永远被历史铭记。卡斯帕罗夫对自己的失败也表示出了高度乐观:
机器的胜利,也是背后开发者的胜利。机器先是取代了人的体力劳作,现在正给有大学学位的脑力工作者带来压力。作为一个跟机器斗争过并败下阵来的人,我要说这是个好消息。如果这种压力消失,就意味着技术停止进步了。真正重要的是人类与机器一起生活工作的感受。如果我们想最大程度地利用科技,就必须直面我们的恐惧。
卡斯帕罗夫也许可以给现在因为ChatGPT而感到惊喜和冲击的我们一些思考。如今,OpenAI引领AGI(通用人工智能)的探索,或许在不远的将来,AGI时代真正来临,我们将面对一个意想不到的、完全不同的世界。
在AI的螺旋式上升发展过程中,挑战和机遇并存,惊喜和意外同在,人们的乐观和悲观情绪更是时常转换。而我们能做的,只有在科技发展这条不可逆行的快车道上,以勇敢和乐观拥抱人工智能,将人工智能为我们所用。