推荐和搜索是近年来重要的信息发布方式。 小红书的UGC社区令人印象深刻。 它的推荐系统有何特别之处? 学术界在搜索推送系统的召回阶段有哪些主要进展和主流方法? 面对大语言模型的兴起,推荐和搜索的发展有哪些机遇和挑战?
为了连接企业技术高管、计算技术领域的专家学者,共同探讨技术发展趋势,由CCF CTO俱乐部发起的CCF C³活动于3月30日走进小红书,众多业内专家学者用“智能”并以“推荐与搜索”为主题,与现场40余位嘉宾进行了深入的讨论和交流。 同时,整个活动在“量子比特”、“小红书科技”、“机器心”、“B站”等多个平台同步直播,共吸引16000+人次在线观看,直播数据创CCF C³活动历史新高。
CCF C³走进小红书
活动现场由CCF副秘书长、企业产业委员会主任、亿邦动力CEO王超主持。 CCF副主席、创新工场首席科学家、兰州科技创始人兼CEO周明、小红书技术副总裁风笛分别致辞。 周明代表CCF向活动主办方小红书颁发了CCF C³活动主办方感谢卡。 本次活动邀请了风笛与武汉大学国家网络安全学院教授李晨亮分享了《小红书推荐系统的技术创新与实践》和《搜索与推送召回阶段的前沿进展》的主题报告系统”。 在“展望智能推荐的未来”圆桌论坛中,风笛担任主持人,中国人民大学特聘教授、北京致远人工智能研究院致远学者、天津大学副教授徐军、华为诺亚方舟决策推理实验办公室主任郝建业、中科院计算技术研究所副研究员敖翔、汇量科技首席人工智能官朱小强、技术总监夏侯小红书社区进行对话小红书推荐,分享见解,讨论推荐和搜索的未来。
王超主持活动
周明致辞
分享·小红书推荐系统的技术创新与实践
✦
作为快速发展的移动互联网平台,小红书正在成为各代人的生活百科全书。 社区每天都会产生大量的图文、视频、评论互动等信息。 这些多模态数据使得小红书App成为推荐和搜索的最佳实践场所,同时也带来了很多技术挑战。 风笛分享《小红书推荐系统的技术创新与实践》主题报告时,他首先从企业整体角度解读了小红书推荐系统背后的核心理念,然后对技术问题和应对策略进行了阐述。
在介绍小红书业务时表示,小红书的主要目标用户经历了业务发展的不同阶段,已经从最初的“高消费能力女性群体”泛化到服务更广泛的人群。 近三年来,小红书用户数量快速增长。 截至去年底,月活跃用户超过2.6亿,月活跃创作者超过2000万。 目前,小红书定位为普通人帮助普通人、汇聚多元生活方式的内容分享社区。 核心理念是“分享生活,发现精彩世界”。 作为一个内容丰富的UGC社区,小红书鼓励每个用户发布的内容被全世界看到,这意味着它的推荐系统与行业常规做法不同小红书推荐,它更注重平等的权利分配而不仅仅是权利分配追求效率。 这就需要更加去中心化的流量分配机制,这对算法模型提出了不小的挑战。
结合小红书的业务特点,详细阐述了推荐系统的四大挑战:多模式异构内容推荐、去中心化分发、兴趣多元化和人群突破、成本控制和算力优化。 小红书人的工作方式就是“走进用户”,强调用户体验的态度也融入到了小红书App中。 比如,坚持使用双栏产品形式,就是为了给用户自由选择的权利。 传统的人工定义的分层标签无法完整描述图文和视频内容; 基于10亿条图文和视频笔记,小红书技术团队将多模态预训练应用于推荐系统,获取内容向量。未来将打通内容表示和行为表示,两个领域联合建模。
在全局效率均衡的约束下,如何进行潜力估算和流量分配? 针对业界公认的冷启动问题,小红书高时推荐系统从“日级更新”升级为“分钟级更新”,有利于新笔记的冷启动,支持小众内容。 为了优化用户体验,防止用户陷入信息茧, 表示,将设置各种索引遗忘策略,降低用户的实时兴趣,保证兴趣的多样性,缓解密集追捧。 这不仅可以平衡用户的长期和短期利益,还可以促进社区生态繁荣。
此外,为了让有共同兴趣的用户能够充分沟通,小红书的推荐系统追求非全局效率优化。 与兴趣圈子交流。 在小红书社区,与用户交友,让真诚流动,让小众内容成长,让人与人之间的联系更加紧密。 在分享的最后,还提出了两个小问题供业界思考,如何做高效的兴趣探索和如何模型留存。
风笛作主题报告
分享 · 搜索推送系统召回阶段的前沿进展
✦
在数据爆炸的时代,每个人都需要信息检索。 推荐和搜索是最主要的方式,人机对话也逐渐成为主流。 行业内也是如此。 搜索推送系统的召回阶段非常关键:在实际业务场景中,如何在数十亿的产品中快速找到用户感兴趣的候选产品? 这一步决定了细化阶段的成功。 武汉大学李晨亮教授带来了《搜索推送系统召回阶段的前沿进展》的主题报告。 他在报告中介绍了近年来搜索推送系统召回阶段的主要进展和主流方法,并结合相关前沿工作,并探讨了未来的发展趋势。
在召回阶段,业界对响应延迟的严格要求使得无法应用能力更强但计算开销更大的模型方法。 李晨亮教授指出:“召回的首要目标是保证低延迟,同时满足效率和性能,这对当前的研究来说仍然是一个难以克服的挑战。这不是一项技术,而是一门艺术。” 他重点关注表示学习和交互学习两种方法,围绕“双塔模型/深度网络模型、多兴趣建模、长尾数据处理、外部数据丰富场景语义”四个方向细化产品和用户。 ”。 特征化,准确识别用户需求。 其中,如何处理长尾数据,与小红书社区理念背后的推荐机制不谋而合。
李陈良作主旨演讲
圆桌论坛·智能推荐未来展望
✦
左起:风笛徐俊浩建业敖翔朱小强夏侯
主题报告分享结束后,风笛作为圆桌论坛主持人,会见了中国人民大学教授徐军、天津大学教授郝建业、中科院研究员敖翔、首席科学家朱晓强汇量科技人工智能官、小红书社区技术总监夏侯与现场嘉宾就“智能推荐的未来展望”进行了深入讨论。 智能推荐和搜索作为经典问题,无论在产业实践还是前沿探索中都非常重要。 近期,网络的火爆,大语言模型、AIGC等热门话题引起了各界的关注。 问道:“它们的爆发会给推荐和搜索的发展带来哪些机遇和挑战?” 圆桌论坛的讨论就此拉开帷幕。 嘉宾们根据自己的经历发表了自己的看法。
主要研究搜索的徐军教授结合微软New Bing的例子解释说,大语言模型的兴起将改变传统互联网搜索习惯和广告盈利模式。 郝建业教授指出,传统的推荐系统基于有限的用户数据,通过过拟合的方式分发相似的内容。 “智能化”、“个性化”、“人性化”。 敖翔提出要积极拥抱新工具。 一方面,不要完全相信模型给出的结果,需要根据不同场景进行评估。 另一方面,我们应该更多地思考如何利用大模型来实现更多的价值。
推荐和搜索技术的本质是为消费者提供更准确、更优质的信息,以实现建设更美好世界的初衷。 正如风笛分享所说,小众社区需要更有效的曝光和匹配用户群体。 然而,大型语言模型会取代推荐系统吗? 业内人士朱小强持短期保守态度,长期激进态度。 短期来看,大语言模型为公司提供了超越私人数据的常识; 从长远来看,当人们获取信息的方式发生变化时,信息分发技术将迎来新的影响,原有的推荐形式和模型可能需要重新设计。 建设,这是悬在我们头上的一把利剑。 夏侯指出了未来3到5年面临的挑战:传统的搜索和推荐是基于用户点击触发的行为模式。 过去仅由用户点击驱动的算法分发模型正在转向由用户行为和内容理解共同驱动的分发模型。 能否真正实现搜索与推送一体化,更好地提高用户行为效率?
随后,风笛为每位嘉宾准备了专门的问题,请大家一一分享。 徐军教授拥有丰富的产学研经验,分享了智能信息检索领域的最新进展,即如何发现并去除用户反馈中的偏差。 郝建业教授以RLHF(基于人类反馈的强化学习)阐述了RLHF与传统强化学习的区别,以及对推荐的启发:从数据质量捕获开始,首先建立一个非常准确的长期用户大模型兴趣,在此基础上进行创新工作。 在谈到“如何在保护用户隐私和安全的前提下,运用金融反欺诈经验来应对AICG在推荐系统中的滥用行为”时,敖翔也认为,建立准确的用户行为非常重要模型。 我们需要打破公司内部的数据墙,打通数据,实现多模态、长期全量的用户数据分析,以便更好地了解用户行为和意图。 朱小强详细分享了过亿DAU的大APP和几百万DAU的小APP在推荐算法和数据建模上的区别。 设计推荐系统时,需要考虑法律、隐私、安全、数据等问题。 “没有高质量的数据,只谈技术无疑是空中楼阁。” 他强调了良好数据的重要性并分享了实践见解。 大规模模型可以打破国界和语言障碍,了解不同国家和地区的用户行为和文化,为用户提供更好的推荐服务。 为了在用户规模、社区封闭性和商业开放性之间做出权衡,夏侯谈到了小红书智能推荐业务面临的三大挑战:系统复杂性、目标多样性和内容多样性。
最后,嘉宾们就“统一的下一代推荐系统技术的可能性”和“数据、算力等资源对智能推荐产业结构的影响”进行了深入讨论。 面对大语言模型,我们应该积极拥抱新事物,仔细审视它们,做出更加个性化、智能化的推荐和搜索! 或许,智能推荐技术未来将成为底层操作系统,AI领域输出到其他学科的那一天即将到来。
发出感谢卡
CCF希望通过CCF C³活动为中国企业搭建技术交流平台。 通过两年内的18场活动,在计算机、互联网、人工智能及相关领域建立了良好的声誉。 第十八届CCF C³活动走进小红书。 非常感谢多位演讲者和圆桌嘉宾的精彩分享。 交流气氛热烈。 整个活动将进行录像回放观看视频,欢迎在“CCF数字图书馆”、“小红书科技”视频号、B站关注。小红书长期以来高度重视技术开发和人才培养时间,愿与全行业共同进步,期待下一次会议!