0°

揭开 ChatGPT 面纱

  2022 年 11 月,OpenAI 公司推出聊天机器人 ChatGPT,目前已达 1 亿多用户使用。与普通的聊天机器人相比,ChatGPT 更能听得懂“人话”,不仅可以理解复杂语句内容及上下文语境,快速给予用户一个清晰的、高质量的解答,并且连写小说、改代码、进行考试答题等复杂任务也可取得良好的效果。

  一、懂聊天的机器人(概述)

  ChatGPT中,Chat 指聊天对话,GPT 全称为 Generative Pre-Trained Transformer, 其中 Transfomer 正是 ChatGPT 的技术基础。ChatGPT 做的事情和 BERT 差不多,也就是预训练,只是预训练的方式不一样。GPT 用生成式方法预训练的 Transformer, BERT 是预测式的方法(MLM+NSP)。

  作为一个语言模型,存储了巨大的知识, 才使得 ChatGPT 能够理解和生成类似人类的文本,这就可以帮助人们完成诸如理解问题、回答问题,甚至协助研究、分析、计算等任务。

  二、我也想训练一个 ChatGPT,可以吗?这就要看资源与算法了

  众所周知,模型有三大基本盘,也是三大护城河。行业内专家较为一致的认为:

  1、超大规模无标注数据集,几乎涵盖全网任何领域的数据,45TB 的训练数据(1TB=1000GB),约 1 万亿个单词,大概是 1351 万本牛津词典。这就是涉及到知识版权了,相关公司受益。

  2、算力与存储,A股中这类公司大有可为!

  ChatGPT 训练所需的计算资源包括:285000 个 CPU 和 10000 个 GPU,24 小时不间输入数据,训练一次花费约 1200 万美元的费用(依据 GPT-3 的 450 万美元/次, 估计而来),以及相应的数据存储资源,训练生成的模型达 1750 亿参数,存储学习的 知识,对相关的硬件要求非常高,相关公司直接受益。

  三、“无所不能”

  1、 模型的能力

  人工智能和大数据技术不断的给产业带来质的变化,下图为各阶段技术与生产力的关系。

  模型是人工智能的灵魂,本质上它是一套计算公式和数学模型。“参数”可以看做 是模型里的一个个公式,这意味着,参数量越大,模型越复杂,做出来的预测就越准确。

  AI 模型可大致分为决策式/分析式 (Discriminant/Analytical AI)和生成式 AI(Generative AI)两类。

  决策式 AI:学习数据中的条件概率分布,根据已有数据进行分析、判断、预测,主 要应用模型有用于情感分类、实体(关系)抽取、推荐系统等,以 Bert 为代表的一系 列预训练模型配合下游任务已在 CV、NLP 等领域取得很好的效果。

  生成式 AI:学习数据中的联合概率分布,并非简单分析已有数据而是学习归纳已有

  数据后进行创造,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题,以 GPT 为代表的预训练模型,在文本辅助生成等任务中也有着较好的应用。

  2、 ChatGPT 的不足

  ChatGPT 是一个大型、复杂的系统,不管训练还是推理都需需要大量的计算资源才能运行,这在某些情况下会使其难以使用或使用成本高昂。抛开这点,从模型本身能力来看还有哪些弱点呢?

  (1)理解能力

  虽说 ChatGPT 在某些领域已达到甚至超越人类的水平,把一定的计算能力“嵌入” 到大语言模型里,确实是可以的,但也是有瓶颈的,带着任务导向的算法模型,也意味 着只能在某个层级的形式语言的处理任务有着不错的效果,但是自然语言毕竟不同于形式语言,语义上比较绕,它就可能不胜任了;(比如:我的爸爸的弟弟的妹妹的儿子的爷爷的……是谁? 这种问题它不能慢慢推敲得到答案)

  (2)错误执念

  生成式模型可控性相对差,会出现一些不合乎实际的内容,当模型表达对某事的观点时,如果该观点是错误的,我们可能很难纠正它,这在有些领域是无法接受的;(比 如:请证明 18 是奇数,强调多次后,它会选择证明而不是否定问题)

  虽然 GPT 模型训练,一方面有着大量高质量、正确的标注数据作为基础,另一方 面算法专家会持续进行参数优化引导模型走向正确的方向,但是如前文中讲到的标注数 据的整体量级远远低于无标注数据,而无监督数据中存在着大量错误信息可能远大于正 确的信息量(如:造谣数据),那么模型就有可能学习到错误的知识,这也是导致错误 执念的因素之一。这就导致“一本正经的胡说八道”的原因之一。反面示例:

  (3)知识的局限性(泛化迁移能力)

  由于推理能力来源于训练时遵循的指令,因此指令的数量至关重要,很少的指令在 新任务的能力很难达到举一反一;(比如:如果,一个苹果+一个苹果=两个苹果,那: 一个恐龙+一个恐龙=?)

  (4)数学推理

  在数学形式严格的证明中推理能力差。(比如:经典的鸡兔同笼问题)

  (5)预测能力差(需不断迭代)语料集是历史数据(ChatGPT 数据截止为 2021 年),那么模型学到的知识是有局 限的,因此对于未来的事情,即使是无需推理就能得到的答案,也是无法较好的回答。 知识是需要不断迭代,如何降低迭代成本且提高模型能力?

  四、如何落地

  无论 ChatGPT 本身还是跟它功能类似的大语言模型或者是以 Bert 为代表已成熟应用的预训练模型,要在行业落地,它就不能只是一个供大家调戏的流量黑洞,它必须有专业化地解决垂直领域实际问题的能力。

  1、模型加法

  要用本领域的私有、专有数据对它进行增强样本的训练,补足通用模型在领域的短板,这可能会牵涉到大量的人力物力进行标注和陪练,还得懂业务;

  2、 模型蒸馏

  模型蒸馏,要把垂直领域里根本用不到的参数或者结构摘除,因为毕竟ChatGPT是 1750 亿个参数的超大模型,不仅存储资源是问题,跑起来需要的算力(哪怕只是用 于推理)也是问题,资金投入都是不小的开支。所以,做减法也是必须的,直接关乎落 地的技术可行性。

  3、领域应用业务自动化

  靠大语言模型自身的“嵌入”能力来解决领域问题,有它的固有瓶颈,也有很多不可控因素。尤其金融领域有它固有的严肃性。一个专业性问题,你告诉客户一个错误的答案,由此引发的后果可能是比较严重的。怎么把专业性的应用系统,比如领域已经有的专业数据库、专业知识图谱和其他的资源,跟 ChatGPT 的意图理解能力、语言生成能力以及场景掌控能力进行对接,至关重要。

  现阶段在可控性好的场景下可进行应用尝试,例如:问答搜索,在专业领域的知识库和问题匹配规则的约束下,几乎可以避免不可控问题的发生。

  4、等待与跟进

  一方面,等待:ChatGPT 出来以后,国内有能力建大模型的大厂,比如百度和腾 讯等,都有相应的动作。即使是作为同样技术路线的跟随者,国内的大厂也会很快跟进,一些轻量化的、定制化的模型必然会有产出,行业解决方案也会更加成熟。

  另一方面,跟进:以深挖业务和专业化数据沉淀为基础,同时对生成式 AI 算法进行跟进,及时高效的落地。

  五、计划与建议

  OpenAI(ChatGPT)、谷歌(Bard)、百度(文言一心)等大型语言模型 (LLM)的推出让人们去思考大模型作为 AI 新型基础设施的可能性,同时,随着算法的日趋成熟,模型的智能越来越依赖数据的加持,人工智能逐步由“Model AI 转向Data AI”。由此可以看出,大型语言模型 (LLM) + 知识图谱(KG)很有可能是未来人工智能新的驱动模式。

  1、知识图谱促进 GPT 意图理解能力,结合领域知识图谱、数据库知识对用户输入内容标准化,转化为 GPT 更易于接受的提问方式,方便 GPT 更好的理解问题;

  2、知识图谱规范与过滤 GPT 生成内容,对于 GPT 生成的结果,一方面通过领域知识库进行规范化,另一方面利用黑名单、敏感词库、规则等方式就行筛选过滤,减 少错误;

  3、知识图谱与 GPT 融合,通用大语言模型自身“嵌入”的能力来解决领域问题,存在固有瓶颈与不可控因素,尤其金融领域有它固有的严肃性,同时,超大模型在工程落地在速度与资源占用也是不可回避的问题。因此,训练领域 GPT 是落地的有效途径之一。

  4、文本摘要

  对于单篇文本或者一定数量的文本,可利用 GPT 进行抽取式或者生成式摘要。对于抽取式摘要可通过 GPT 进行摘要润色,提高可读性;对于生成式摘要,专业知识库为 GPT 提供专有名词、术语的标准化,实体消歧等能力,尽力修正摘要错误,规范文本表述。

  5、模型领域化与轻量化

  借助大型 AI 企业与学校的科研能力,在领域数据上进行定向增量训练,补足通用模型在领域内常规任务上的短板,增加定制化与个性化任务的处理能力,同时压缩模型参数、模型瘦身,提高预测速度,降低资源开销。

  梳理了一些落地方式与场景,那么有哪些问题与难点呢?以搜索(问答)为例

  生成式 AI 和搜索引擎是互补关系,我们需要的是结合两者优势的新一代工具。主要流程包括五个部分:问题输入、问题理解、初步结果、结果融合、最终结果。流程示意图如下:

  具体步骤如下:

  (1)问题输入:问题可以是单一问题或者一题多问;

  (2)问题理解:传统的问题理解借助分词系统、问题图谱进行问题拆解与核心词匹配;GPT 强大的理解能力在进一步借助领域知识库的规范领域名词表述、解决指代消歧等问题,模型可以更好的来解释查询的意图(包括一题多问是否是包含上下文的互动式交互等)。

  (3)初步结果:传统的搜索问答直接在知识图谱(数据库)中匹配出多个可能的结果集,通过排序算法、权重模型等进行相关性排序;GPT 可根据问题意图获取最相关的原始数据集,自动生成易于理解的结果。

  (4)结果融合:由于 GPT 的知识局限性和不可控性,在结果融合中需要做三方面的工作:第一、根据问题判定结果的时效性;第二:根据过滤规则库、黑名单过滤敏感或者错误的结果;第三、将 GPT 生成结果和传统的排名结果结合生成最终的搜索结果,并记录溯源信息。(5)最终结果:一方面输出该轮问题的回复,另一方面作为多轮问答中的上文,支撑开展更有深度和延展性的交互。

  六、系统构建问题与难点

  1、图谱构建:将企业数据整合为知识图谱,在知识建模、知识存储、知识查询需要大量的存储资源与研发投入;

  2、领域 GPT:GPT 要达到又好又快,一方面需要基于领域海量无标注数据和大量强化任务的标注数据进行模型迭代,另一方面需要降低模型部署资源开销与提高推理速度。这就需要跨越“三座大山”,标注数据需要大量专业的人员,训练与优化算法需要有大模型研发经验的专家支持,模型迭代与轻量化需要服务器系统提供数据存储与算力。这需要合作方在算法上给予支持,模型架构上支持增量训练。

  (1)高质量图谱构建难度大:如何构建问题理解、结果查询与融合等环节需要的高质量问题图谱、知识图谱、领域知识库至今是业界难题;

  (2)初步结果准确性:尽管 ChatGPT 基于海量的数据训练而来,具有很高的回答率,但它仍然存在错误和误导信息的可能,可控性差且不易发现(当然,传统搜索引擎同样存在错误和误导,但可控性好、易溯源);

  (3)结果融合:有效控制最终结果输出比较困难,一方面,GPT 错误的隐蔽性、

  黑名单与过滤算法的滞后性都可能造成错误被放出去;另一方面,算法也存在对正确结果误杀的情况,导致回答不全面或者没有结果,后续的交互也有所折扣;

  (4)领域 GPT:毋庸置疑,增加专业的数据集与强化任务标注,在领域内可以带来更好的效果,但是“三座大山”很难跨越;同时,与传统搜索引擎相比,生成结果的速度可能更慢,降低资源开销与提速对于落地同样至关重要;而且,模型训练时知识是

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论