0°

OpenAI Sora技术解读&投资机会

  一、专家解读SORA技术细节及行业影响

  1、OpenAI发布的Sora是技术的集大成者,并大力出奇迹的结果,在视频领域出现了“涌现”;

  2、Sora已经到了可以付诸商业或工业化生产的水平,是视频创作领域里程碑式的产品;

  3、Sora的成果带来的更大的对于infra和AI芯片需求,对高端算力的消耗需求会快速增长;

  4、Sora受限于计算资源短缺,不能用太大的模型参数量,但依旧效果很好,未来参数量增大的瓶颈在计算资源。实现AGI的必须要有更强的AI芯片和更大的算力。

  二、2023年10月至今国内外AI板块复盘:多模态正驱动AI大模型板块步入第二阶段

  1、国内AI大模型相比海外具有代际差异已经形成共识,但AI大模型作为下一代科技创新的核心、以及国内必须要有独立自主知识产权的大模型的共识依然是主流。10月底至今,板块同时受到海内外产业进展及a股市场波动的共同影响。

  1)10月底,ai板块在经历了一轮深度回调后,加上三季报落地,板块接近触底,昆仑万维、中际旭创等技术及业绩具有兑现能力的公司率先反弹。此时国内AI行业伴随着是大模型备案陆续完成,尤其是11月3日,第二批大模型备案在经过近半年等待后通过,市场格局逐渐清晰,以百度、字节等为代表的一梯队大模型公司,以及以昆仑天工、智谱AI、百川等为代表的大模型新势力,构成了国内大模型领域的主要玩家。

  11-12月,海外大模型领域同时迎来了系列更新,也支撑了这一阶段的反弹。

  2)12月底,a股市场开始回调,包括戏行业政策的影响,加速了传媒板块包括AI大模型和应用公司的恐慌性调整,这一调整一直延续到1月份,在市场的系统性回调中,光模块头部公司受到算力预期持续上调的利好催化,股价得到了支撑,走势强于大模型及应用。

  此时,国内AI大模型开始探索从gpt3到gpt4的跨越,市场普遍认为,国内大语言模型处于gpt3到gpt4之间的水平。

  纪要来源:【文八股调研】小程序

  3)1月26日,据路透社美国商务部长吉娜·雷蒙多表示,拜登政府将提议要求美国云计算公司确定外国实体是否正在访问美国数据中心以训练人工智能模型。基于此,美国商务部发布了《采取额外步骤,以处理严重恶意网络活动方面的国家紧急情况》的征求意见稿(系统显示发布事件为2024年1月29日),征求意见截止到2024年4月29日。这一消息进一步打击了国内AI板块情绪,伴随着市场的调整,AI板块继续走低。

  2、海外来看,AI仍然引领着整个科技成长的方向,而且多模态成为主要发展方向,从大语言模型到多模态,再到通用人工智能的路径已经逐渐清晰,分歧点主要在于节奏的判断。如果说2023年初chatgpt的出圈是催化AI板块破圈的主要催化,那么新一轮的突破就是从大语言模型到多模态的进一步突破,驱动AI板块行情步入第二阶段。

  1)大模型领域,虽然openai经历了短暂的内部管理失控,但迅速走上正轨,gpt应用及多模态加速推进

  11月6日OPENAI召开首届开发周日,会上多项重磅更新,包括OPENAI正式公布自定制GPT,即将上线“GPT商店”,与创作者分享收入。随后openai内部管理层出现分歧,但很快得到解决。openai的chatgpt仍然是AI终端应用中排名最高的独立应用。

  12月初,多模态技术开始迎来多重突破,PIKA1.0测试效果惊艳;12月6日晚,谷歌发布最新Gemini大模型。Gemini在一开始就被创建为多模态的模型,可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。Google发布Gemini,谷歌Gemini大模型首次在MMLU(大规模多任务语言理解)测评上超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果),几乎全方位超越GPT-4,1月12日,OPEN AI正式向ChatGPT Plus、Team 和 Enterprise 用户推出GPT Store,提供由合作伙伴和社区开发的各种 GPTs。Q1将推出GPTs builder 收入计划,第一步美国开发者将根据用户与他们的GPTs 互动获得报酬。

  随后在本周,OPENAI即发布首个视频生成模型Sora,最高可生成一分钟的高清视频,能生成具有多个角色、包含特定运动的复杂场景,表现出突破性的语义理解能力、复杂场景理解能力和一致性等,表现效果远好于此前发布的视频模型,真正打开了视频大模型的时代。

  2)算力芯片领域,强劲的AI芯片需求所引发的持续性人工智能投资狂潮,12月,AMD正式推出了AI GPU加速器 Instinct MI300X和全球首款数据中心加速处理器 APU Instinct MI300A,此后,1-2月,海外科技巨头陆续披露的财报及新的,显示出对于AI大模型算力的旺盛需求,英伟达在多模态进展及不断上调的预期中股价突破在去年下半年的平台。

  3)市场层面,英国、欧洲部分地区和日本陷入衰退之际,美国经济仍在蓬勃发展且有望实现软着陆的预期逐渐深入人心,使得美股持续表现强势,此处就不展开来讲。

  3、通过以上的复盘,我们可以总结出: 1)正如我们在年度策略中强调的,多模态是2024年AI大模型领域最主要的边际变化,但并不是AI发展的终点。我们依然还不能确定AGI什么时候到来,但从近期多模态超预期的进展来看,AGI到来的时点可能比市场预期的要更快。多模态的意义正如2022年底的chatgpt发布一样,引领ai大模型板块步入第二阶段。

  2)对于国内而言,大模型及应用的格局相比半年前已经明朗许多,但是远没有到看到终局的时候,因此,在投资上,依然是看一个产业趋势,买一个相对优势。我们依然认为,2024年国内在大语言模型领域有望迎来突破,从Sora来看,算力依然是前提条件,拥有更多算力是大模型公司跑出来的硬门槛。

  三、如何看待OpenAl Sora横空出世?

  这周海外AI大模型事件密集,2月14日OPENAI宣布测试为chatgpt加入记忆能力,16日谷歌上线GEMINI 1.5系列,PRO版本支持100万token上下文窗口,相比行业之前大模型提高了1个数量级,100万token也就是相当于70万单词或1小时视频,大模型应用场景将得到极大扩展。GEMINI多模态能力也有明显升级,从第一代的能够读懂图像,到1.5的能够读懂视频,比如可以让GEMINI在某一部电影中找出某个瞬间并描述相关细节,但现在距离第一代发布也就过了不到3个月,大模型多模态能力的发展速度可能比我们想象得更快。

  而就在谷歌发布GEMINI的第二天,OPENAI的首个视频模型Sora惊艳亮相。我们在此前的多模态深度报告中明确提出视频生成的2023年可类比2D图像生成的2021年,考虑到大语言模型对AI各领域的加速作用,今年年视频生成可能会取得更大的发展, Sora的横空出世也验证了我们之前的观点,随着行业整体技术水平往上走,可能会类似文生图领域,跑出一些爆款视频生成应用,行业会加速发展。我们着重梳理Sora在实现技术突破之后,对产业链不同环节带来的变化和机会:

  第一个层面我们认为是新技术方案被验证带来的机会:

  (1)算力需求增加。Sora采用扩散模型+Transformer架构,扩散模型在生成多样性和质量方面表现较好,但是难以实现比较好的语义控制和一致性,而这正是transformer所擅长的,扩散与Transformer相融合的技术路径在去年才被提出,后面12月李飞飞和谷歌团队推出的视频生成模型W.A.L.T也采用了类似的技术方案,但还停留在学术研究层面,这次SORA进一步验证了两种模型结合的潜力,后面其他玩家在这个方向上的尝试也会增加,也可能会出现一些开源模型,有望推动行业整体技术水平往上走。而过去Transformer模型的算力需求比扩散模型更大,这里算力提供方会有更多机会。

  (2)数据需求增加。Sora统一了图像与视频的数据表示方式,并通过超大量数据集来扩大模型规模,提高模型表现,拥有海量优质图像或视频资源的玩家有望受益。

  (3)3D等多模态领域可能也会加速。相比过去的视频生成模型,Sora开始表现出对物理世界的理解和互动能力,人物或者物体在视频中不会轻易变形,而是可以保持比较好的一致性,OpenAI也表示未将Sora单纯视作视频模型,而是将其作为“世界模拟器”,扩展视频生成模型可能是构建物理世界通用模拟器的一条很有前途的途径。原来AI 3D模型在生成效率及精度上没有找到很好的平衡点,这一波视频领域的技术突破可能会给3D领域带来一些启发,AI 3D引擎的技术拐点可能会比市场原来预期的更快。

  第二个层面我们认为来自视频生成技术突破后,带来应用落地的机会:

  1)视频生成技术在广告、电商等垂直领域的商用可行性大幅提高。对比之前的模型,SORA语义理解能力、一致性和灵活性明显增强,意味着视频生成技术的商用可行性大幅提高,比如营销领域可以为中小B提供更多的营销工具,电商领域为卖家提供相关的服务,对应公司的客户付费率和ARPU值有更多提升空间。

  2)创意落地的成本大幅缩减。SORA最高可生成一分钟的高清视频,这基本已经达到了目前主流短视频创作时长的要求,加上之前文字创作、文生图等技术成熟,制作不同形态内容的门槛和成本大幅降低,一方面手上有丰富IP资源的玩家有望降低试错成本,扩大IP变现途径,另一方面可能出现新的商业化空间更大的UGC平台,每个人都可能打造IP。过去UGC平台如小红书、知乎、抖音、快手等,用户创造内容的门槛每降低一倍,用户创造内容的数量会增加十倍,对应平台用户规模也会大幅增加。视频生成技术成熟后可能会诞生新的AI时代的抖音,比较有意思的是抖音集团原CEO在 2月初宣布卸任,后面精力会放在视频剪辑工具剪映上,可以看出大厂其实也看到了机会,当然这个过程也会有原有玩家被颠覆的风险,比如ADOBE最近股价也出现了波动,我们认为国内市场聚焦在AI大模型上持续投入的公司可以有更大的拓展空间,海外应用接入模型能力发挥工具价值的公司可以实现垂类场景的深耕。

  垂类场景深耕:视频需要脚本构建、画面、风格、粒子、特效等很多元素的组合,但要实现完整商用内容的生产还是需要人和工具,视频创作者数量随着创作门槛的下降会大幅扩张,工具类的产品提供更便捷高效有场景的工具,还有理解服务垂类用户的经验,在技术之上更注重用户的需要和体验,也将受益。

  3)影视、游戏和MR领域专业创作者可以利用先进AI技术降本增效,如动画电影产能有可能进一步打开,头部玩家有望受益。

  4)视频内容增加,对视频数据传输、视频编解码、视频内容审核等环节的需求也会增加,相关玩家我们认为有望受益。

  最后我们认为多模态一定是AGI,也就是实现通用人工智能的必经之路,同时也是AI商业变现真正的起点,无论是谷歌的GEMINI升级,还是OPENAI发布的SORA,都有望推动AI多模态应用进一步加速,24年产业层面的变化可能会比23年更加巨大,我们也看好TMT全年的投资机会。

  算力层面:

  综合春节以来AI产业链的消息,我们认为算力板块仍存在上修预期的空间。

  1)首先是Open AI这边不断有新的消息和动作,报道称公司计划筹集5万到7万亿美元打通算力芯片供应链条,投资金额远超全球半导体市场5000亿美元左右的市场规模;

  2)英伟达传出打算发展定制化算力芯片(如ASIC),同时也正式发布了1月在CES上展出的chat with RTX,用户使用英伟达RTX显卡就可以在电脑上本地使用llama和mistral模型,且它的推理框架强于之前常见的pytorch和llama-cpp。

  3)最后,从春节前至今,海外AI产业链许多头部厂商发布了最新财报,并给出了相应指引,从中可以看出算力建设后续仍然是产业发展的重中之重。一方面不论头部云厂商传统业务表现如何,它们的AI算力设施建设都是之后资本开支增长的首要动力,另一方面像AMD、Coherent(Finisar母公司)、Lumentum(Cloud Light母公司)、Arista、Fabrinet等产业链硬件公司的AI收入均实现了不俗增长,同时AMD继续强调算力芯片27年4000亿市场规模的预期(和我们根据台积电口径测算出的3600亿美金相近),Coherent也把800G及以上光模块市场规模直至28年的CAGR上调至65%。

  综合以上信息,我们认为:

  首先来看Open AI,Open AI既是AI的破圈者,也是产业的推动者,还是一只“鲶鱼”(可能与CEO的外宣风格有关)。因此Sora这些新模型对产业的影响不仅限于模型本身,一方面Sora自身对训练和推理端算力的需求提升是非常明显的,在阅览时间相同时,视频的token数是文字的是几个数量级的提升,所需算力也是一样;另一方面,公司带来的鲶鱼效应值得重视,无论是Open AI给出的算力芯片天量投资额,还是和谷歌同步发布新产品抢风头,都说明公司的野心就是成为AI时代的新巨头,而且也不排除Open AI还储备了一些未公开产品的可能,一家行业新贵这样来势汹汹,必然会像鲶鱼一样不断倒逼头部云厂商及其它初创公司加快加大对算力的部署和模型的迭代。

  其次看产业链厂商给的中长期指引,虽然现在大家对算力需求的确切数字甚至数量级都是盲人摸象,还没有确切认识,但定性来看,产业链的指引都暗含了算力空间还将继续拉升甚至倍增的逻辑。

  最后看英伟达的新动作,无论是做定制芯片还是推出PC端软件产品,都是在贯彻全面参与AI的理念,进一步增加在产业内的曝光度,特别是在PC这些边缘端,相对于云端来说格局尚不明朗,在英特尔、AMD、高通都已经入局的情况下,英伟达从GPU切入AI终端市场肯定会给供应端格局带来大的边际变化,这样不仅在产品成熟度上,也在供给保障和采购价格上对于下游PC整机厂均有利好。

  综合以上分析判断,光模块仍然是可见范围内AI产业链共振属性最强、确定性最高的我们推荐板块内头部公司中际旭创及天孚通信,同时建议关注存在潜在边际变化的新易盛及源杰科技。同时模型及边缘端架构的发展也加快了PC主机厂的量、利齐升,推荐全球PC主机龙头联想集团。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论