炼ChatGPT需要高质量对话数据。
在以前这可是稀缺资源,但自从有了ChatGPT,时代就变了。
加州大学圣迭戈分校(UCSD)与中山大学、MSRA合作团队提出最新方法:
使用少量“种子问题”,让ChatGPT自己跟自己聊天,并自动收集成高质量多轮对话数据集。
团队不仅把使用此法收集的数据集开源,还进一步开发了对话模型白泽,模型权重和代码也一并开源。
(供研究/非商业用途)
白泽使用A100单卡训练,分为70亿、130亿和300亿参数三种尺寸,最大的也只需要36小时。
开放时间不到一天,GitHub仓库就已暴涨200星。
100美元搞出ChatGPT平替?
具体来说,团队从美国知乎Quora,最大的编程问答社区StackOverflow等处收集到种子问题。
然后让ChatGPT自我对话,收集了11万条多轮对话,使用OpenAI的API大约花费100美元。
在此基础上使用LoRA(Low-Rank Adaption)方法微调Meta开源大模型LLaMA得到白泽。
与同样基于LLaMA的斯坦福Alpaca相比,新方法收集的数据不再仅限于单轮对话,可以达到3-4轮。
至于最后效果究竟如何,不妨就用Alpaca和ChatGPT来对比。
先来看最基本的常识问答。