智东西4月18日报道,近日,GTIC 2023中国AIGC创新峰会在北京圆满落幕,20+位产学界重磅嘉宾分享了大模型与生成式AI的前沿创新、商业前景、算力进化、创业机会与投资策略。峰会现场座无虚席、人气爆棚,交流氛围热烈,全天到会观众超过千人,全网直播人数高达420万人次。
在大会开放环节圆桌对话中,智一科技联合创始人、总编辑张国仁与竹间智能总裁&COO孙彬、优必选语音技术科学家黄东延、创世伙伴资本合伙人梁宇以“狂飙的ChatGPT如何掀起新一轮科技革命?”为主题,一起探讨了关于技术、产业、投资的人工智能(AI)热点话题,将现场气氛推向高潮。
圆桌对话环节,从左到右依次是:智一科技联合创始人、总编辑张国仁,竹间智能总裁&COO孙彬,优必选语音技术科学家黄东延,创世伙伴资本合伙人梁宇
作为创业者的代表,孙彬所在的竹间智能,是知名自然语言技术AI服务商,由前微软(亚洲)互联网工程院副院长简仁贤于2015年创办,过去8年一直深耕NLP(自然语言处理)赛道,2022年全面投入大语言模型与生成式AI的产品开发,结合大语言模型、知识图谱、与应用,加速新AI 2.0落地。
优必选科技语音技术科学家黄东延是业内技术专家代表,其所在的人工智能和人形机器人公司优必选科技,今年1月31日正式向港交所递交招股书。成立11年来,优必选在人工智能算法和人形机器人本体技术上取得了重大突破,已发布多种智能服务机器人。截至2022年,在特斯拉等行业巨头刚刚推出人形机器人的情况下,优必选Walker作为目前全球唯一能够量产交付的人形机器人,已经在2020年迪拜世博会期间提供服务,并成功出口到沙特NEOM新未来城。
投资人代表梁宇所在的创世伙伴资本(CCV),是一家专注于发现早期投资机会的双币基金,其核心管理团队15年来保持了每年一个独角兽的速度,投中多个赛道的第一股,且80%的项目都在A轮领投。梁宇个人专注于搜索引擎领域,并常年关注人工智能、AIGC(人工智能内容生成)领域。
这场圆桌对话精彩纷呈、干货满满,从创业者、技术专家和投资者的角度出发,全面分析了ChatGPT引爆的AI新浪潮,从技术演进的必然结果,聊到创业者如何在业务层面实现颠覆创新,在面对大厂的资金、算力等优势下仍能实现业务突破与领跑。
今年已被视作通用人工智能发展的元年,大模型和生成式AI正在涌进千行百业。现在才仅仅是开始。
一、ChatGPT爆火出人意料!大模型打开AI落地大门
作为现象级产品的聊天机器人ChatGPT已经是AI领域的最火概念,上线2个月用户数破亿,热度迅速蔓延至各行各业。对话开始,张国仁先跟大家聊了聊当初ChatGPT爆火时最大的感受。
智一科技联合创始人、总编辑张国仁
“确实在意料之外。”梁宇坦率地说,连发布ChatGPT的OpenAI团队自己都没想到,这会引爆所有人的热情。他认为这种拥有“暴力参数”的大模型带来的范式改变,现在还只是一个开始。
最近一段时间,他在和学界、产业界、投资界的朋友交流时发现,大家对此的兴奋度大多来自于“大模型除了已经展现出来的能力外,究竟将来还能干什么?”,这个问题背后也衍生出了更多的话题,而投资机构更看重的,就是更多的创业机会在哪里。
身处更加垂直的智能服务机器人领域,黄东延谈道,之前他们判断大模型想要超过人类预期可能还需要三到五年时间,“去年11月30日,看到ChatGPT的惊艳表现后,我们知道人工智能真正赋能到各行各业,智能机器人走进千家万户的时间到了。”
当前,优必选科技已将智能视觉、智能语音交互等AI技术与服务机器人相结合。目前的智能语音交互的自动语音识别(ASR)在某些场景下基本上能够达到人类的期望,从文本到语音(TTS)播报也能够达到人类语音的质量。在自然语言处理交互部分,已有的传统交互技术还达不到人类的需求,而ChatGPT的出现远远超过了预期,体验效果十分惊艳。
和ChatGPT同处于NLP赛道的竹间智能,对于GPT就更不陌生了。孙彬将ChatGPT惊艳的地方总结为两类:首先是其封装模式是对话,但给了用户超出对话期望的文章生成、产出,欧美很多中小学生全部拉上线后产生了第一轮火爆;其次是大语言模型带来的优势,其可能带来用语言、对话驱动应用并改变知识问答方式,甚至是改变应用结构的趋势。这让行业内外的人士对大语言模型有了认知,并超过了所有人的期望。“也就是开了一扇门。”他说。
二、“AI的iPhone时刻”是市场预言,技术创新不多,但工程能力惊艳
随着ChatGPT越来越热,行业中也出现了很多不同的声音。英伟达CEO黄仁勋夸赞ChatGPT的问世是AI的iPhone时刻,但深度学习三巨头之一、图灵奖得主、Meta AI首席科学家的杨立昆(Yann LeCun)从技术的角度来评价,认为ChatGPT没有特别的创新,只是被很好地组合。张国仁也问了问在座嘉宾们对于ChatGPT创新意义的看法。
几位专家都认为这两种观点并不冲突,应该从不同层面来看待。
“AI的iPhone时刻”的观点,更多是从应用视角来看,梁宇将这一观点视作“市场预言”。
黄东延谈道,“iPhone时刻”实际上对应移动互联网的到来,随着ChatGPT横空出世,AI将在各行各业涌现出大量应用。
孙彬做了更细致地拆解,ChatGPT带来的对话式大语言模型可以变成一种计算力量,成为智能平台上的资源能力,企业能调用大语言模型进行对话、驱动、生成等。他用OS(操作系统)来形容大语言模型的发展趋势,未来企业可以在此之上生成更多应用。而应用百花齐放、重新洗牌乃至出现井喷现象,会进一步推动算力、GPU的发展。所以从黄仁勋的视角来看,这是又一个iPhone时代产生的IT界软硬件甚至生态的变化,这种说法并不为过。
反过来,站在Meta的角度,2017年,DeepMind提出了人类反馈强化学习(RLHF),谷歌的论文神作《注意力足矣》(Attention is All You Need)中提出了Transformer;2018年,OpenAI推出了拥有1.17亿个参数的GPT-1模型。
孙彬谈道,核心技术在前期已实现突破,只是此时产生了从量变到质变的突破,让大家看到了效果,所以从技术角度来讲没有太大创新也是有道理的,但ChatGPT从工程能力、组合、使用方面来看非常惊艳,“未来业务层面的创新一定会百花齐放。”
“技术底层和背后发展具有连续性。”梁宇说,2017年Transformer的注意力机制让很多科研和工程方向转向,并就这一方向去尝试进行暴力参数和算力堆叠后,才出现了ChatGPT这一成果。OpenAI也是经过了很多次试探,只不过ChatGPT的对话形式突然能让人立刻感知到,因此极具病毒传播效应。
从整体方法论来看,黄东延认为ChatGPT可以称得上“颠覆式创新”:OpenAI在做集成的过程中,试错了很多种算法,才发现“上帝给的秘密密码”,去发现对话到底如何实现才能给人类带来惊艳表现、如何将工程上的东西和人类价值观、伦理价值等对齐。
优必选语音技术科学家黄东延
梁宇补充强调道,语言大模型只是大模型技术中的一个重要分支。“而当我们所有的注意力被锁在这儿时,就有可能是一个真的颠覆性时代来临了。”
横向来看,基于Transformer机制正在训练的3D内容生成模型、汽车行业3D环境感知等不同领域模型等,即便不是语言模型,它们同样也在基于Transformer实现突破性进展。大量的科学家和工程师正在连夜研究新的科学成果。
从底层模型角度来看,大语言模型的发展也许会集中在头部的几家,北美地区大厂的介入可能会将这一路径锁死,但这之外,垂直领域中的大模型也能够自成一派,基于发动机之上产生的应用爆发会逐渐到来。我们今天看到的可感知的AI能力是由前端应用层带来的。“所以,现在刚刚是一个甜点时刻。”梁宇说。
往后对于模型的深入应用和剖析,尤其是从文字到图片到视频,再到3D空间感知的跨模态,这一连串技术的横跨突破将引发行业应用层点爆,才有可能真正迎来大规模应用和商业化。
三、微软+OpenAI组合优势会领先多久?国内企业如何抓住独特机会?
华为创始人任正非先生最近在内部讲话中提到,大模型将风起云涌,不止微软一家。尽管如此,但微软与OpenAI联手的组合拳打得太猛,从OpenAI的GPT-4到微软相关产品接二连三发布,都令同行感受到不小的压力。就着这一话题,张国仁提问道:各位觉得像微软+OpenAI这样一对组合,它们的领先优势到底能保持多久?
梁宇说,微软和OpenAI的组合玩的是“生态战争”。微软为大模型行业的竞争与发展“打了个样”,它迅速将各个应用入口嵌入到Office全家桶里,将其门槛API化并直接刷到地板价,让其他企业觉得不用不行,因为其余企业在做的事情还不如直接用微软的产品来的便宜。
这种将各个行业的应用、用户接入,形成了“我的应用给你数据,你进一步调优,调优之后反吐回来这样的数据飞轮”。未来,如果没有较大意外,大语言模型加持下,它的滚动速度会越来越快,并在商业化上形成持续的马太效应。
扩展来看,不同语言的模型对计算机的理解造成的障碍并不大,只是不一样的代码,更重要的是计算机编程语言本身。从IT浪潮发展以来,美国软件业已经形成从底层堆叠、中间层到应用层的整个生态体系,也就是软件产业链。梁宇说:“代码本身并不是问题,这个语言不太好,我们可以创造新的计算机语言,这往往会在美国本土发生。”因此在这种土壤下,用大语言模型去训练生产进一步的计算机语言生产力工具的效率会急剧提升。
国内企业的机会在于“我们有特别的环境”。训练一个好的语言模型要覆盖几个维度,其中非常重要的就是语料,目前中文语料标注不如英文语料成熟,未来仍需业界共同努力将好的语料作为训练的基础,然后在此基础上慢慢滚动起来。其次,以医疗领域应用为例,一些患者数据按法律规定不能公开,国内企业可以用已有语料训练基于这个行业的垂直模型,这种模型没有办法被微软、谷歌等大厂抢走;以及自动驾驶领域,路况、三维数据是国内市场独有的,基于此,我们训练出来的信号模型、语言模型有很大优势。
梁宇坚信,国内大厂、中小企业、创企、投资公司的要素组合一定会百花齐放,长出和海外不一样的生态。
创世伙伴资本合伙人梁宇
对于“微软+OpenAI”组合到底能走多远的问题,黄东延认为,要看技术的创新能力和迭代开发的速度。她对国内大量小型AI企业寄予厚望,相信受国内政策、市场以及教育水平提高的影响,AI企业创新正在加快,国内应用领域可能比其他国家的范围更大,会诞生更多的创新方向。
以优必选在做的人形机器人领域为例,大语言模型赋予机器人“大脑”,使得语音交互的体验更加自然,而机器人赋予大语言模型“身体”,就是具身智能让大语言模型感知周围环境,通过“视觉、听觉、触觉、味觉、嗅觉”来理解物理世界,获取物理世界的真实反馈,进一步学习变得更加智能,大语言模型是连接虚拟和物理世界的桥梁。ChatGPT的应用会使其在语音交互、人机交互、导航、运动控制、行为等方面有很大的突破。
孙彬觉得两者保持领先的时间还不好预判。在他看来,语言大模型能落在微软这样的产品体系当中,真正实现了技术能力和产品的组合,而这个组合一定会在整个赛道中领跑一段时间。不过从另外一个视角来看,任何提效工具的组合都只是在效能上提高,需要被人使用和运用,因此最终还是以人的产出为准。在计算器、计算机的加持下,人的效能的确不断提升,但真正生活的价值是由人来创造的。
他肯定地说,OpenAI和微软是一个好的组合,其余做技术和相关产品的企业还需要追赶。但是从更宏观的角度来看,“这样的组合能不能用到其它产业中,让技术和产业完美组合起来”也很重要。国内市场很大、用户群体庞杂,如果在此基础上国内相关企业也能履行这个模式,可能会在不同赛道中领跑。