人工智能对话程序ChatGPT热度正酣,产业界科技巨头外,学界也加入战局。2月20日,复旦大学邱锡鹏教授团队宣布,国内第一个对话式大型语言模型MOSS已发布至公开平台,邀公众参与内测。
据官方介绍,MOSS可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。这条路径的走通,为国内学术界和产业界提供重要经验,将助力大语言模型的进一步探索和应用。
然而,当日MOSS上线后,由于与热门电影《流浪地球》AI同名且契合时下热点,随即引起公众热情,界面记者尝试登陆MOSS测试页面发现,该系统仍需要邀请码注册,若无邀请码,输入手机号后会加入“等待名单”。有网友此前在社交平台反馈,MOSS服务器流量过载,已被“挤爆”。
针对服务器流量过载,MOSS开发团队今日致歉称,团队最初的想法只是想将MOSS进行内测,以便可以进一步优化,没有想到会引起这么大的关注,其计算资源不足以支持如此大的访问量,并且作为学术团队也没有相关的工程经验。
该团队表示,MOSS还是一个非常不成熟的模型,距离ChatGPT还有很长的路需要走。我们一个学术研究的实验室无法做出和ChatGPT能力相近的模型,MOSS只是想在百亿规模参数上探索和验证ChatGPT的技术路线,并且实现各种对话能力。
据上观新闻报道,MOSS可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。这条路径的走通,为国内学术界和产业界提供了重要经验,以帮助大语言模型的进一步探索和应用。
目前,MOSS与ChatGPT仍存在差距,研发团队表示,虽然MOSS已经实现了 ChatGPT的一些功能,但仍然存在许多限制,由于缺乏高质量的数据、计算资源和模型容量,MOSS仍然远远落后于ChatGPT。
报道显示,MOSS采用参数量为百亿级的自研模型进行训练。在对话能力训练阶段,相较于OpenAI收集至少几十万条人类指令帮助ChatGPT逐步理解各种指令。复旦团队通过让MOSS和人类以及其它AI模型都进行交互提升机器学习效率和开发效率,完成对话能力训练。
根据外界反馈,MOSS最大短板是中文水平不够高,据开发团队解释,其主要原因是互联网上中文语料干扰数据很多,如广告等,清洗难度大。为此,复旦大学自然语言处理实验室正在加紧推进中文语料的清洗工作,并将清洗后的高质量中文语料用于下一阶段模型训练。
公开资料显示,此次负责领导复旦MOSS开发团队的邱锡鹏,为复旦大学计算机科学技术学院教授,博士生导师。国家优青获得者,于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向研究。