大语言模型(LLM)是近年来人工智能领域的热门话题,它们可以利用海量的文本数据,学习语言的规律和知识,从而执行各种自然语言处理任务,如文本生成、问答、摘要等。然而,这些模型的开发和开放也引发了一些争议和挑战,不同的公司和机构采取了不同的策略来应对。
Meta AI 是一家致力于基础人工智能研究的公司,其首席科学家 Yann LeCun 是深度学习领域的先驱之一。今年 2 月,Meta AI 开源了其大语言模型 LLaMA(Large Language Model Meta AI),这是一个先进的基础大语言模型,旨在帮助研究人员推进这个 AI 子领域的工作¹。LLaMA 的大小有多种选择(7B、13B、33B 和 65B 参数),并且分享了一个 LLaMA 模型卡,详细介绍了他们如何按照负责任的 AI 实践构建模型¹。Meta AI 还在 GitHub 上发布了 LLaMA 模型的推理代码,供其他研究人员使用和参考³。
相比之下,Meta AI 的竞争对手 Google 和 OpenAI 都没有公开其最新的大模型。Google 在去年发布了 T5 和 mT5 等大语言模型,并将其开源在 hugging face 平台上。但是,Google 还有一些更大的模型,如 PaLM(540B 参数)和 LaMDA(2B-137B 参数),它们都没有开源。OpenAI 则在 2020 年发布了具有 1750 亿参数的自回归语言模型 GPT-3,并在许多自然语言基准上都取得了出色的成绩。GPT-3 能够执行答题、翻译、写文章等任务,甚至还带有一些数学计算的能力。但是,与 GPT-2 和 GPT-1 不同,OpenAI 选择不开源 GPT-3,而是通过商业 API 来提供该模型的能力及训练数据集。该公司通过选择将 GPT-3 独家许可给与 OpenAI 有业务关联的微软来进一步限制访问。
对于 Google 和 OpenAI 对 AI 日益保密的做法,Yann LeCun 表示这是一个巨大的错误。他认为,ChatGPT 并没有什么特别的创新,也不是什么革命性的东西,许多研究实验室正在使用同样的技术,开展同样的工作。他还表示,ChatGPT 对现实的把握是非常肤浅的,它们缺乏人类所具有的形式推理、世界知识、情境建模和社会认知等思维能力。他认为,消费者和政府将拒绝拥抱 AI,除非它们不受 Google 和 Meta 等公司的控制。
然而,并非所有人都赞同 LeCun 的观点。《MIT Technology Review》的一篇文章认为,开源 AI 的繁荣是建立在大科技公司的施舍之上,但这种情况不会持续太久²。文章指出,Meta AI 的 LLaMA 已经成为许多新开源项目的起点,但如果 OpenAI 和 Meta 开始担心竞争风险或者数据安全问题,他们可能会收回他们的贡献²。这样一来,一个充满创新和活力的开源社区可能就会萎缩或者消失²。
另外,在开源社区中也有一些团队在努力复现或者改进 GPT-3 等大语言模型。例如,OpenLM Research 是一个开源社区,他们发布了 OpenLLaMA,这是一个开源的 LLaMA 大语言模型的复现,使用了 RedPajama 数据集²。他们提供了预训练的 OpenLLaMA 模型的 PyTorch 和 Jax 权重,以及与原始 LLaMA 模型的评估结果和比较²。OpenLLaMA 在大多数任务中表现出与原始 LLaMA 和 GPT-J 相当的性能,在一些任务中甚至超过了它们²。还有 EleutherAI 是一个致力于开源 AI 研究的团队,他们发布了 GPT-Neo 和 GPT-NeoX 等项目来复现或者扩展 GPT-3 的功能,并将其开源在 GitHub 上。
总之,在大语言模型领域中存在着不同的声音和策略,并没有一个统一或者标准的做法。不论是开放还是保密,都有其利弊和风险。我们需要更多地关注这些模型背后所涉及到的技术、数据、伦理、社会等方面的问题,并寻求更加合理和可持续地推动人工智能领域发展。