以下文章来源于机器之心 ,作者机器之心
3 月 21 日,在机器之心举办的 ChatGPT 及大模型技术大会上,哈尔滨工业大学计算学部长聘教授、博士生导师车万翔发表主题演讲《ChatGPT 浅析》,在演讲中,他回答了 ChatGPT 究竟解决了什么科学问题,是如何解决该问题的,以及未来还有哪些亟待解决的问题。
以下为车万翔在机器之心 AI 科技年会上的演讲内容,机器之心进行了不改变原意的编辑、整理:
大家好,我是来自哈尔滨工业大学的车万翔,非常感谢机器之心的邀请,我本次报告的题目为《ChatGPT 浅析》。之所以说是浅析,是因为我们确实没有了解到关于 ChatGPT 的更多详细内容,只是根据发表的一些论文来猜测它背后的技术。
自然语言处理
ChatGPT 属于自然语言处理研究方向的一个最新进展。首先什么是自然语言处理呢?自然语言指的是人类语言,特指文本符号,而非语音信号。而自然语言处理就是让用计算机来理解和生成自然语言的各种理论和方法。当然传统的、或者说很早以前的自然语言处理,等价于自然语言理解,因为当时自然语言生成太难了,只能用一些模板的方法来生成。但是现在我们看到,随着 AIGC 等这些技术的进步,生成技术成为自然语言处理的一个主流方向,像 ChatGPT 本身就是一种生成模型,这也是自然语言处理的最新进展。
其实让机器理解自然语言还是件很难的事,因为从人类的智能角度来讲,自然语言处理属于认知智能,需要更强的抽象和推理能力。
自然语言处理面临很多难点,我们举例来说,如下图所示,在这次对话中,内容包含很多「意思」,不同的「意思」代表不同的含义,这种情况属于典型的歧义性问题。除了歧义性之外,自然语言处理面临的难点还包括抽象性、组合性、进化性等。在抽象性这个问题中,我们以汽车这个词举例,它背后有非常丰富的含义,我们一说到汽车这两个字就会有很多联想;组合性也是一样,无论哪种语言,它都是由一些基本符号构成的,这些基本符号可以组合成无穷无尽的语义。
正是因为这些难点,使得自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈,包括多位图灵奖得主在内的众多学者,很早之前他们就提出自然语言处理将是人工智能未来发展的重要方向,因而自然语言处理也被誉为「人工智能皇冠上的明珠」。我们发现近期人工智能很多进展都离不开自然语言处理,比如著名的 Transformer,它最早是用于解决机器翻译问题,到后来的 BERT 以及 ChatGPT,其实这一波又一波的浪潮都是和自然语言处理相关。所以把自然语言处理称为人工智能皇冠上的明珠也不过誉。
传统的自然语言处理可分为四个方向:底层的资源建设;中间层的基础研究,包括分词、词性标注等;接着是应用技术研究,包括信息抽取、机器翻译、问答系统等;再往上是应用系统,包括教育、医疗等。
但为什么说是传统自然语言处理呢?这两个字是在三个月前加上的,首先是很多基础研究任务,如分词、词性标注等已经蕴涵在大模型中了,所以这些基础任务就没有存在的必要。其次,ChatGPT 不是针对一个模型或者一个单独任务去做,它把所有应用任务统一起来进行,所以传统的按照任务划分的方式会受到挑战。因此,对于整个自然语言处理来讲可能需要重新洗牌。