最近,加州大学伯克利分校Yaghi教授团队在ACS旗下的顶级期刊《美国化学会志》(JACS)上发表了一项突破性研究成果,他们成功地利用了OpenAI开发的大语言模型ChatGPT,打造了化学助手在有机金属框架(MOF)合成条件挖掘方面的强大能力。这项工作展示了ChatGPT在辅助科学家完成文献挖掘、数据分析等重复性劳动中具有革命性的应用潜力,有望大幅提高科研效率。
研究背景:
有机金属框架作为一类新型多孔材料,具有广泛的工业应用前景。理解和优化不同MOF的合成条件,对开发新型MOF材料意义重大。但MOF的合成信息往往散落在大量文献报告中,人工提取非常耗时费力。如何利用计算机自动化地从文献中整理提取MOF的合成反应信息,一直是该领域的研究热点。
近年来,随着自然语言处理技术的进步,特别是 transformer 和大语言模型的兴起,机器阅读理解科学文献、自动挖掘化学信息的能力取得长足进展。例如,OpenAI开发的GPT-3和基于其的ChatGPT已在多个领域展现强大的文本理解与生成能力。但它在化学领域的表现却历来不尽如人意,存在严重的”幻想”(hallucination)问题,即系统会自主生成虚假的化学信息。这使其应用于科研领域存在很大困难。
针对这一难题,Yaghi团队采用“提示工程(prompt engineering)”的策略,通过精心设计与制定包含细致指导的提示,成功地训练ChatGPT在化学任务的表现,使其能准确地提取文献中有价值的信息,从而构建了一流的ChatGPT化学助手,实现文献挖掘的自动化。这为ChatGPT解决科研领域的问题提供了范例,预示着其在化学研究中具有广阔的应用前景。
研究内容:
本研究的核心工作是设计并验证了3种不同的基于ChatGPT的文献挖掘流程:
(1) 流程1: 人工提取文献中的实验部分段落,输入给ChatGPT,指导其总结提取关键合成参数。
(2) 流程2: 将完整文献输入ChatGPT,让其自动分类判断每一段是否为实验部分,再提取关键信息。
(3) 流程3: 先利用词向量过滤不相关段落,再输入ChatGPT进行分类和提取。
图1 ChatGPT化学助手的3种文献挖掘流程
这3种流程各有优势,流程1依赖人工提取合成段落,但ChatGPT的提取效果最好;流程2完全自动化操作,但速度较慢;流程3利用词向量提速过滤,是最快的流程。值得注意的是,这些流程面向非计算机专业的化学家设计,通过改变输入提示语言,基本无需修改代码。
研究人员采用“化学提示工程”策略精心设计提示,指导ChatGPT高效完成文献理解和信息提取。提示工程包含3个原则:
最大程度减少ChatGPT的幻想响应
提供详尽的工作步骤指导
要求以结构化形式输出结果
例如,下图详细指导ChatGPT如何从给定段落中提取11个关键合成参数并整理为表格输出。
图2 化学提示工程策略示例
主要成果:
运用上述方法,研究人员从228篇顶级MOF合成研究文献中,总计提取了约26,000个MOF合成参数,构建了 extensive MOF synthesis condition 数据库。主要成果包括:
(1) 文献挖掘效果显著
测试结果显示,ChatGPT助手的精确率、召回率和F1值均在90%以上,远超传统方法。这说明提示工程策略明显增强了其文献理解和信息提取能力。
(2) 预测模型指导MOF合成
基于所构建的数据集,进一步训练分类模型,可以根据不同合成条件预测产物是单晶还是多晶,从而指导优化合成方案。模型测试精度可达87%。
(3) 对话系统增强数据可及性
将数据集转换成对话系统,用户可像“聊天”一样查询MOF合成信息,无需代码经验。这大幅提升了数据集的可及性。
(4) 可扩展应用于其他领域
提示工程策略可应用于有机合成、配位化合物等文献挖掘任务,展现语言模型的跨域适应性。
意义与影响:
这项工作首次展示了提示工程策略在指导大语言模型处理化学信息任务中的巨大潜力。它不仅构建了全面MOF合成条件数据库,还提供了范例,启发语言模型服务于化学科研。具有以下意义:
方法论贡献: 提出“化学提示工程”策略,在减少语言模型幻想、提供详尽指导和要求结构化输出3个原则指导下,语言模型可以准确完成化学信息抽取等任务。
系统级集成: 构建端到端工作系统,无代码化学家即可利用ChatGPT完成文献挖掘等重复工作,解放劳动力。
交叉学科融合: 语言模型为传统自然语言处理在科研领域应用提速,使计算机科学家和化学家更好协作,促进学科交叉与融合发展。
推动科研进步: 促进可再生能源、药物设计等领域发展。自动化挖掘已有科研成果,为新发现奠基。
总体而言,这项工作展示了语言模型助力科学发展的新模式与新范式,也为其进一步应用于材料发现等任务提供了思路,预示着语言模型将对化学科研产生深远影响,引领科研进入新时代。随着超大规模语言模型的不断涌现和硬件算力的提升,“科研助手”工具必将日趋成熟完善,科学家只需“说话”表达意图,就可以取得需求结果。我们期待语言模型助力创造更美好的未来。