大模型引领的AI 2.0,远比想象来得更加猛烈。
尤其是被认为最先被颠覆的搜索引擎领域,产学研界都蠢蠢欲动,对可预见的趋势展开激辩。
没有了用户点击,内容提供商/广告该怎么办?未来将靠什么来赚钱?
对话即入口的交互方式,操作系统是不是就无需存在了?
传统的智能推荐和搜索,又该往何处去?
……
带着这些问题,CCF CTO Club最新一期CCF C³来到了小红书,数位在推荐、搜索领域深耕多年的技术专家,聚焦于当下信息分发、推荐搜索等热议话题,进行了分享和探讨。
最终共吸引16000+人在线观看,直播数据创历史新高。接下来就带你来一文看尽~
大模型带来真正的个性化体验
ChatGPT会取代搜索引擎吗?这个最先叩响的产业问题,也在会上进行了深入的探讨。
他们都对ChatGPT乃至大模型采取积极拥抱、但同样谨慎审视的姿态。这其中最常提及的一个关键词,就是个性化。
天津大学教授郝建业表示,传统的推荐系统基于有限的用户数据,通过过拟合的方式进行相似内容的分发,但其实无法真正了解用户的心智变化。而有了大模型加持,能更好地理解用户,带来真正的智能化、个性化和人性化的体验。
具体提及到的一个重要价值,小红书社区技术负责人夏侯谈到了对于搜索中长尾问题的应用。
传统的通用搜索中长尾信息不足,这种情况下ChatGPT可以自动生产内容补充,以满足更多个性化需求。正如New Bing中制定菜谱、旅行计划等。
事实上,这恰好与小红书的搜索方式不谋而合。更多通用搜索不能解决的长尾问题,在小红书上都能找到答案。基于此,也构成了小红书不同于其他搜索的本质区别。
小红书技术副总裁风笛在现场分享了他们背后推荐系统的技术创新与实践,可谓是满满干货。
据透露,目前小红书app内搜索用户渗透率行业第二。产品形式主要是最上边的搜索框以及下边的信息流。内容形态包括图文、视频、直播、商品等多元的内容。对应的机遇与挑战主要来自四个方面:
多模异构内容推荐、去中心化分发、兴趣多样性和人群破圈、成本控制。
首先围绕场景特点,包括多模异构内容以及双列的产品形态。风笛坦言,双列的方式并非是一个高效的产品形态,是因为给到用户可选择的权利才坚持到现在。
但推荐或搜索本质上是高效的信息分发和信息匹配。小红书又是如何解的呢?
实际设计上主要包括三个方面:从多元异构价值对齐公式到模型融合的转变;流量分配测,从PID到在线流量匹配;重排侧,则主要是Whole Page重排。
具体到多模态内容理解这一方面,传统人工定义的层次化标签,无法完整刻画图文和视频内容。
风笛透露,他们技术团队基于10亿量级的图文、视频笔记进行多模态预训练,随后运用到推荐系统中,获得内容的向量化表征。未来将打通内容表征和行为表征,两域联合建模。
另一个公认的技术挑战来自新内容冷启——新内容行为稀疏,行为表征学习不充分。他们一直在实时推荐上实现了分钟级别的更新。
与此同时,在多目标融合这块,替换掉传统人工排序公式,通过AutoML领域的ES算法来寻找到最优的个性化融合参数。
在兴趣多样性方面,风笛表示会设置各种指数遗忘策略,对用户的实时兴趣做降权,来平衡用户的长短期兴趣。
除此之外,还分享了用户增长以及成本控制、算力优化等方面的技术实践,以及留下两个问题探讨:
如何做高效的兴趣检索?以及如何做留存建模?
搜推系统将往何处去?
事实上,整个工业界也都面临着这两个难题,而且随着ChatGPT时代的到来,挑战也更加艰巨。
人机对话将更加频繁,在实际业务场景中,如何在亿级商品中抽取用户感兴趣的候选商品?搜推系统的召回阶段就非常关键,直接决定了后续精排阶段的成功与否。
形象地来说,召回决定了精排阶段的巧妇会不会面临无米之炊。
武汉大学李晨亮教授回溯了近几年搜推系统召回阶段的主要进展和主流方法,并探讨了未来的前沿趋势。
他谈到,当前召回的主要目标,就是在保证低时延的情况下,更大地利用好用户的场景信息和他的历史行为数据。随后重点谈到了自深度学习兴起,召回逐步经历了表示学习、交互式学习两种方法。
以表示学习为例,主要有四个研究方向:双塔模型/深度网络模型、多兴趣建模、长尾数据处理、外部数据丰富场景语义,以此提炼商品和用户的表征,识别用户需求。
而在这两年兴起的交互式学习方面,李晨亮教授分享了他们目前的做法,简言之就是在商品侧和产品侧做交互式学习来分别提升他们的表征,进而来优化计算、降低开销。
未来,低时延依旧是一个无法逾越的障碍,召回也将来到大模型Cover一切场景或任务,也就是多场景、多任务学习的一种趋势。