ChatGPT概念火到安全圈,大模型在垂直领域的应用实践战已经打响。
继各互联网大厂相继披露GPT研发进程后,网络安全厂商也蠢蠢欲动,并在第一时间试验了OpenAI的ChatGPT到底实力如何以及值不值得应用和投入。如其轰动世界的效果一样,作为通用大模型,OpenAI的ChatGPT同样让网络安全从业者眼前一亮,并开始寻找GPT与网络安全实际业务之间的场景融合点。
可识别钓鱼邮件,也能生成诱饵
完全可以识别钓鱼邮件,并利用其语言理解能力,分析和识别文本中的潜在钓鱼攻击特征,从而帮助识别和预防钓鱼攻击——这是网络安全从业者在试用ChatGPT后的主要发现之一。
但硬币的另一面,ChatGPT也可以根据人工提示生成非常逼真的诱饵素材,并使受害者相信他们正在与真实的人交谈。这使得社交工程攻击变得更加容易,攻击者可以通过 GPT 轻松地模拟受害者的社交网络上的朋友或家人。
所以,GPT与网络安全最直接的关系其实是跟随GPT对数据安全带来的潜在机遇与挑战而产生的。多位业内人士的一个共同判断是,依托于GPT的自动化攻击手段被黑客很快采用是既定事实,如果不能以同样的方式快速应对攻击手段的变化,企业、甚至是国家关键信息基础设施都可能时刻受到来自网络的安全威胁。
“现在,迫切需要我们在网络安全领域具备能打硬仗的能力。”一位网络安全领域的创始人兼CEO表示。“安全就是攻防对抗,这类技术的出现,有点像火器的出现。两军对阵,本来拿着大刀长矛的,当火器技术出现了,它会重塑人类的战争、行为方式。”另一位大厂安全业务负责人也说。
出于或许相同的初衷,钛媒体App不完全统计发现,当前,已经有不少于7家网络安全的公司披露了将GPT应用在网络安全领域的进展,包括微软的Microsoft Security Copilot、360集团的360智脑、绿盟科技的智能安全客服机器人、启明星辰的盘小古以及四维创智的ChatCS等等。
网络安全领域类ChatGPT应用
从各家披露的GPT落地方向来看,大部分都是面向安全事件响应、漏洞挖掘、风险研判等场景。不过,在与业内人士交流的过程中,钛媒体App发现,虽然落地场景有重合,但从实现的技术路径上,各家表现出了些许差异。
技术路线各有不同
拆解技术路线,其实还要从ChatGPT说起。
OpenAI的ChatGPT以及随后迭代出的GPT4.0,包括当前百度推出的文心一言等都属于通用大模型,都没有明显的行业属性,在一般场景下都能应对自如,比如客服、文生图等等。但遇到特别垂类且对答案容错率较低的行业来说,由于缺乏专业知识,这类通用大模型会表现出可预见的劣势。
所以当网络安全行业在使用GPT的时候,并不能像其他行业一样直接接入已经训练好的GPT4.0,而是需要重新构建一个用网络安全领域的专业知识训练出的大模型,然后再将其应用到实践中。
不过,在与业内人士交流的过程中,钛媒体App发现,同样是训练网络安全领域的大模型,各家所选择的技术路线也有所差异:他们有的是先有安全知识图谱,然后在类ChatGPT的大模型基础上加工;有的是没有类ChatGPT的大模型,而是直接用安全知识图谱训练成一个大模型;也有的可能并没有强调知识图谱,而是用所有数据直接训练。
“过往实践过程中,我们积累了大量数据,这些数据可能包含了安全日志、系统日志,威胁情报生产和分析过程数据,开源情报和安全技术报告、APT报告等等,这些数据通过AI智能化,形成一系列实战化攻防模型以及安全知识图谱。”绿盟科技CTO叶晓虎表示。
在有了实战化攻防模型以及安全知识图谱后,绿盟科技利用类ChatGPT的大语言模型对这些知识做进一步加工,形成安全专业领域里面的类GPT的应用,即今年三季度即将发布的网络安全领域知识问答系统。
“我们所有下游任务都只基于ChatCS这一个大模型。在训练和应用ChatCS之前,我们先花费精力做网络安全领域的通用知识图谱,然后利用知识图谱的异构数据归一化能力生成数据集再去训练网络安全领域的大模型。”四维创智人工智能项目负责人陈平表示。
陈平表示,他们所推出的ChatCS,是一个使用RLHF技术微调并利用知识图谱进行领域知识约束的垂直领域大语言模型。思路是首先构建以“漏洞概念”为核心的网络安全领域知识图谱—Vuln_Sprocket,再将图谱生成先验知识集训练模型,后续,ChatCS能够背景知识对用户原始指令进行优化。在最新的测试版本中,ChatCS_test 尽管只具备82亿参数,但已经可以很好的完成领域知识问答、测试脚本生成、告警日志分析等操作。
目前,其余几家网络安全厂商还未完全披露训练GPT的路径细节,但据业内人士分析,360集团的网络安全GPT应该是以通用大模型为底座,然后加入网络安全相关数据调优的路径,与绿盟科技和四维创智都有很大不同。
不过殊途同归。绿盟科技CTO叶晓虎称,智能安全客服机器人达到的效果是,应用可以在安全事件应急响应处置、海量日志分析研判、安全智能推理和决策、安全领域的代码编写等方面发挥积极作用。其余厂商的GPT实践也与此多有重合。
又是一场长跑
值得注意的是,自ChatGPT爆火以来,也才100余天的时间。短短三四个月,网络安全厂商们能够快速上马ChatGPT与其背后已经积累的相关数据集有很大关系。但需要思考的一个问题是,既然网络安全行业迫切需要也能够有自己的大模型,为什么当OpenAI火了之后,网络安全圈才关注到大模型即将带来的变革?
原因可能在于,对于大模型来说,技术可能并不是根本问题。问题一方面在高质量的安全数据语料,而另一方面则是保持对人工智能信仰以及持续训练大模型的心态和思维。
“之前只是小规模尝试过网络安全AI自动化的事情,一两次不达预期就没有再尝试。但ChatGPT用事实告诉我们这条路行得通,大家才敢放手投入。”一位网络安全创业者表示。
除了试错成功,大模型出现告诉网络安全届的另一个信号是,大模型确实有可能导致对抗方式底层逻辑的变化。“如果通用大模型能够把智能推理和智能决策应用这条路走通的话,实际上可以让对抗方式从过去的经验式变成范式化工作,之前经验存在于人脑,没办法复用,但如果走通这方面会有很多变化。”叶晓虎说。
很显然,OpenAI的ChatGPT仅仅只是个开始,无数的试错在等待蜂拥而上的中国创业者。这又是一场长跑。