1 引言
ChatGPT 是由 OpenAI 研发的一种语言 AI 模型,使用上亿参数的大模型和海量语 料库来生成语句,目前可以实现写诗、撰文、编码的功能。ChatGPT 广受用户欢迎, 短短五天注册用户数量便超过 100 万,60 日月活破亿。产业界如微软、谷歌、百度 也对于 openAI 及其竞品加大投入。
2 ChatGPT 引发人工智能投资热潮
2.1 ChatGPT 是什么?
ChatGPT 是由 OpenAI 研发的一种语言 AI 模型,使用海量语料库来生成与人类相 似的反应。ChatGPT 是基于 GPT(generativef pretrained’ transformer)架构搭建的, 主要用深度学习来生成连贯且具有意义的文字。这个模型使用了来自于网站、书本和社 交媒体的海量文字数据,因此也为 ChatGPT 在保证准确性和细节的同时,提供了广泛 的对话反馈。对话反馈是 ChatGPT 的核心功能之一,也使它成为了实现聊天机器人或 其他对话型 AI 的理想技术。 除对话功能外,ChatGPT 也具有实现各类语言相关任务的能力,包括文章精炼、翻 译以及情绪分析等。以上各类语言能力在大规模的训练数据和升读学习架构下,使 ChatGPT 成为目前应用最为先进的语言模型之一。 总体上,ChatGPT 标志着自然语言处理(NLP)和对话 AI 领域的一大步,其高质 量文字产出能力在商业、研究和开发活动中提高用户体验的方向上非常有应用价值的。
截至目前,GPT 已经经历了如下演化: 1. GPT-1: 第一代 GPT 语言模型,发布于 2018 年。它有 1.17 亿个参数,使用网页 的文字数据进行训练。 2. GPT-2: 发布于 2019 年,具有 15 亿个参数,使用的网页文字数据量也远大于前 一代。它已经可以生成高质量的文字,甚至完成翻译、精炼文字等简单任务。 3. GPT-3: 发布于 2020 年,具有 1750 亿个参数,使用网页以及其他来源的文字进 行训练。它已经可以进行担任各类任务,被认为是语言模型领域的显著突破。
2.2 ChatGPT 技术和传统的 AI 有什么区别?
相比传统 AI 算法,GPT 模型的区别在于通过海量参数,进一步提升了模型的精确 度。 初代的 GPT 模型参数是 1.17 亿,而 GPT2 的模型有 15 亿个参数,参数增加了 10 倍之多。第三代的 GPT3 模型,参数达到了 1750 亿,是 GPT2 参数的 100 倍。正是由 于参数的指数级提升,使得模型的使用效果大幅提升。而此类参数上亿的模型,通常称 之为“大模型”。 GPT 模型基于 Transformer 架构,这是一种由谷歌的 Vaswani 等人于 2017 年引入 的神经网络类型。Transformer 架构特别擅长对序列数据中的长距离依赖进行建模,这使 其非常适合自然语言处理任务。 为了训练 GPT 模型,OpenAI 使用了来自互联网的大量文本数据,包括书籍、文章 和网站。该模型使用一种称为无监督学习的技术进行训练,这意味着它学会了在没有人 类监督的情况下预测文本序列中的下一个单词。 GPT 模型能够生成连贯和语法正确的文本,已被用于广泛的自然语言处理任务,包 括语言翻译、文本补全和文本生成。
Transformer 模型是一种用于自然语言处理的神经网络模型。与传统的循环神经网 络(RNN)不同,Transformer 模型使用自注意力机制(self-attention)来处理输入序列 中不同位置之间的依赖关系。 Transformer 模型由编码器和解码器两部分组成。编码器将输入序列中的每个单词 表示为一个向量,并通过多层自注意力和前馈神经网络来对输入序列进行编码。解码器 则使用相同的自注意力和前馈神经网络来生成输出序列。 在自注意力机制中,模型根据输入序列中的所有单词计算出每个单词与其他单词的 相关性,然后使用这些相关性加权求和得到每个单词的表示向量。这种方法使得模型能 够处理长序列和跨越序列中的依赖关系,从而提高了模型的性能。 Transformer 模型已经在自然语言处理领域取得了很好的效果,包括机器翻译、文 本摘要和问答系统等任务。它是目前最先进的语言模型之一,也是开发其他自然语言处 理模型的基础。
2.3 ChatGPT 将给行业带来哪些机会?
相比其他此前的人工智能技术与进展,ChatGPT 之所以引发关注,主要总结为以下 几点: 1) 从使用效果上,交流通畅,同时能够实现写诗、撰文、编码的功能。2 月 1 日, 以色列总统艾萨克·赫尔佐格(Isaac Herzog)发表了部分由人工智能(AI)撰写的 演讲; 2) 受用户欢迎。短短 5 天,注册用户数就超过 100 万。60 天月活破亿。 3) 商业模式产生变化。2023 年 2 月 2 日,美国人工智能(AI)公司 OpenAI 发布 ChatGPT 试点订阅计划。 4) 产业界也表现出对 Chatgpt 的关注。表现为:1)1 月 23 日,微软宣布向 ChatGPT 开发者 OpenAI 追加投资数十亿美元;2)谷歌 3 亿美元投资 Chatgpt 竞品。 3)百度将于 3 月发布类似 Chatgpt 的 AI 服务。 由此带来相关产业链的大变革:
1) 语音识别与自然语言处理行业快速发展: 人工智能,也即解决像人一样看、听、思考的问题。因此,按照此维度来划分,划 分为计算机视觉、语音识别与自然语言处理及数据科学。 早先,2020 年数据显示,计算机视觉占比约 56.6%;语音识别与自然语言处理占比 约 35.6%。也即,在机器视觉领域的应用,相比自然语言处理,更为成熟,市场规模更 大。 但随着 ChatGPT 带来的投资热潮,与应用领域的不断丰富,音频与自然语言处理 的整体行业规模,有望迅速增长。
2) 激活产业链: 整个人工智能的产业链包括算力、数据、算法乃至下游应用。 算力与网络:英伟达的研究表示,GPT-3 模型需要使用 512 颗 V100 显卡训练 7 个 月时间,或者使用 1024 颗 A100 芯片训练长达一个月的时间。随着各大科技厂商投入对 大模型的研发,势必增加芯片、服务器等算力需求。同时,庞大的 AI 算力集群,又需要 高带宽支撑数据传输。 数据:数据采集、数据标注和数据质检是较为重要的三个环节。从自然数据源简单 收集取得的原料数据并不能直接用于有效监督的深度学习算法训练,经过专业化采集、 加工形成的训练数据集才能供深度学习算法等训练使用,由此带来数据服务需求。 算法:相比传统 AI 模型,大模型的优势体现在:1)解决 AI 过于碎片化和多样化 的问题;2) 具备自监督学习功能,降低训练研发成本;3)摆脱结构变革桎梏,打开 模型精度上限。对于大模型算法的研发、优化,亦是投入的重点。 下游应用:产业界一直以来都在寻求人工智能的应用领域、商业模式突破。随着大 模型使用、人工智能算法精度提升,下游应用的扩展可期。
3 数据要素资源基础,满足大模型训练需求
3.1 政策引导数据要素确权使用,扫清人工智能发展障碍
数据已成为五大核心生产要素之一。 2020 年 4 月中共中央国务院《关于构建更加完善的要素市场化配置体制机制的意 见》中发布。这是数据作为新型生产要素首次在中央顶层文件中提出。 而后,2022 年 4 月国务院《关于加快建设全国统一大市场的意见》中,进一步提到 加快培育数据要素市场,建立数据资源产权相关基础制度。 2022 年 12 月 9 日,财政部发布关于征求《企业数据资源相关会计处理暂行规定 (征求意见稿)》意见的函,具体提出了企业数据资源相关会计、处理的方式方法,进一 步扫清了数据要素市场建立、数据资源交易的障碍。 当前,2022 年 12 月发布《关于构建数据基础制度更好发挥数据要素作用的意见》, 是数据要素体系建设中,顶层关键文件,扫除了未来人工智能发展中需要使用数据的障 碍:1)建立保障权益,合规使用的数据产权制度;2)建立合规高效的场内外结合的数 据要素流通和交易制度。3)建立体现效率促进公平的数据要素收益分配制度。4)建立 安全可控弹性包容的数据要素治理制度。
数字经济快速发展,数据要素成为重要战略资源。《“十四五”数字经济发展规划》 中指出,数字经济是继农业经济、工业经济之后的主要经济形态。《规划》设定了到 2025 年实现数字经济核心产业增加值占 GDP 比重达到 10%的目标,涵盖数据要素市场、产 业数字化、数字产业化、数字化公共服务、数字经济治理体系五个方面。从 2015 年至 今,数字经济平均增速持续高于 GDP 增速,2021 年数字经济占 GDP 比重已经由 2015 年的 27%提升至 40%。
3.2 大数据管理能力需求提升
联网设备高增之下,流量增长不可避免。根据思科的《年度互联网报告》,到 2023 年,地球上的连网设备数量将是全球人口的大约三倍,从 2017 年的人均 2.4 台提升至 3.6 台。由于 IP 地址即网络地址+主机地址,网络站点所连接的 IP 数量也处于爆发的阶 段。根据 IDC 的《中国物联网连接规模预测,2020-2025》,仅我国物联网 IP 连接量已 在 2020 年达 45.3 亿,有望在 2025 年达到 102.7 亿,CAGR 为 17.8%。由于 IP 地址 联网后即产生数据流量, IP 地址的数量增长即代表全网数据也将继续大增,对于现有 的网络企业的承载能力提出了考验。根据思科的《年度互联网报告》,2022 年全球网络 数据流量将达 799EB(1EB=十亿 GB),同比增长 21%。我们认为,数据流量的增长, 有望直接带动大数据产业的发展,而其中稳定优质响应快的数据库性价比更高。
全球大数据市场存量巨大,软件市场占比较高且增速快。根据 Wikibon 及沙利文研 究数据,全球大数据市场规模有望在 2022 年达 718 亿美元,同比增速 11%;而其中全 球大数据软件伟 286 亿美元,同比增速 18%,约占大数据市场规模的 40%。可以认为, 软件市场在大数据市场中,占据较大地位,而由于其增速高于大数据市场的整体增速, 其占比还将进一步提升。