推荐系统范式之争，LLM vs. ID？-服务器专区

推荐系统范式之争，LLM vs. ID？

作者：ML_RSer 编辑：陶然 2023-08-28 11:16 机器学习与推荐算法

　　TLDR: 本文与已有的LLM4Rec一个主要区别在于，已有的ChatGPT4Rec文献大多是调用OpenAI API来做prompt工程，本文则是将1750亿的GPT-3作为item encoder替换ID。为了对该范式（论文称之为TCF范式，在过去几年涌现了大量相关论文，不过多是使用BERT，word2vec等中小型item 编码器）性能进行极限研究和评价，论文甚至对600亿LLM做微调或者重新训练，目的是为了回答基于文本的推荐范式的若干核心问题，相关实验可以看出完成该论文的算力成本之高。　　

　　论文：arxiv.org/abs/2305.11700

　　研究动机

　　推荐系统模型经典ID（userID、itemID及各种categorical ID）范式已经主导社区长达10年，是否有望继续主导下一个十年？与此同时，LLM（超大语言模型）在NLP乃至整个AI领域都掀起了巨浪，展示出近乎超越人类的语言理解和生成能力。那么，一个自然的问题：如果将文本item用LLM表征，是否能大幅超越原有的ID范式？基于此，论文进行了极限研究，采用175B参数的GPT-3作为item encoder，并进行了一些计算成本极其昂贵的实验验证(如微调600亿参数的item encoder)，目的在于回答基于LLM的推荐算法是否达到了性能极限。

　　首先让我们回顾下NLP领域的发展。近十年，语言模型取得了重大进展，其中一些具有里程碑意义的突破塑造了今天的NLP领域。2013年的Word2vec为NLP带来了首次革命性的变化；2018年，BERT问世在一系列NLP任务上展示出了一流的性能，并且引入了基于预训练-微调的经典范式。与此同时，同时期的GPT系列也为语言模型的发展做出了巨大贡献，随着GPT的不断进步，超大参数量的语言模型如GPT-3 [1]，ChatGPT [2]等大规模语言模型（LLMs）在自然语言处理方面取得了极其惊艳的结果。　　

　　鉴于此，作者们提出了疑问：如果将物品编码器替换为最大且最强大的语言模型，比如拥有1750亿参数的GPT-3模型，会对推荐性能产生什么影响？能否期待前所未有的结果呢？并且探究在大参数量的LLM作为预训练模型的条件下，经典的文本协同过滤（TCF）推荐算法可否展现出通用模型潜力，实现推荐系统foundation 大模型？文章没有设计新的推荐系统算法，而是对目前最主流的推荐范式进行了严谨的经验验证，相关核心问题的解答对于推荐系统社区发展具有一定的向导作用。

　　文章探索了以下几个重要的问题：

　　Q1: 基于文本的协调过滤推荐算法（TCF）的性能随着物品编码器参数量不断增加表现如何？是否在千亿规模能达到上限？

　　Q2: 超大参数的LLM，如175B参数GPT-3，是否能产生通用的item表征？

　　Q3: 装配了175B参数量的LLM的推荐系统算法能否打败基于ID的经典算法？

　　Q4: 基于LLM的TCF算法距离推荐系统通用大模型还有多远？

　　Q5: 随着ChatGPT的出现，近期产生了一系列基于prompt技术的推荐算法ChatGPT4Rec，此类算法通过prompt技术引导ChatGPT给出推荐，并且不需要训练专门的推荐模型。ChatGPT4Rec的优点效率高，不需要训练。自然地，本文也顺带调查了经典的TCF算法是否能被ChatGPT4Rec取代。

　　本文给出了一些正向的结论，也展示了一系列令人惊讶的发现。在LLM狂欢之时，也应该正视其不足，推荐系统经典范式仍然十分具有竞争力。

　　模型架构

　　该文章选择了两种有代表性的推荐架构进行评估：双塔DSSM[3]模型作为简化版CTR模型的代表以及SASRec[4]作为序列模型代表。　　

　　作者们没有探索其他的CTR模型，因为这些模型通常与DSSM同属一类，主要的区别在于多数CTR模型使用的是单塔骨干网络，而这个区别不太可能显著影响论文结论。因此文章采用了两个具有代表性的推荐模型作为代表。

　　数据集

　　在这篇文章中，作者们使用了三个真实世界的文本数据集进行评估：Microsoft发布的MIND新闻点击推荐数据集，H&M平台的HM服装购买数据集，以及在线视频推荐平台Bili数据集。　　

　　对于MIND数据集，使用新闻文章标题来表示item；对于HM和Bili数据集，他们使用产品或视频的相应描述和标题来表示item。在所有三个数据集中，每个正向的用户-物品交互都是点击、购买或评论，这些都被视为用户偏好的隐式指标。

　　实验观察

　　接下来将通过实验结果分别展示在研究动机中所提出的研究问题。

　　问题1：文本基础的协同过滤（TCF）范式的性能极限是什么？通过将item编码器的大小从一亿增加到一千亿，能揭示TCF范式性能极限吗？　　

　　为了回答这个问题，作者通过增加TCF模型中的文本编码器的规模来进行实验并且选择了9个不同规模的LLMs从1.25亿（125M）到1750亿（1750B）参数不等。如图所示，无论是SASRec还是DSSM作为推荐模型，TCF模型都可以通过增加其文本编码器的大小来提高其性能。此外，值得注意的是，文本编码器大小和性能之间的比例关系不一定是严格的线性关系，可以发现使用350M参数的语言模型的TCF模型在所有三个数据集上都显示出最差的结果。

　　图中的结果表明，175B的参数LM可能还没有达到其性能上限通过观察到LLM的参数量从13B到175B时，TCF模型的性能还没有收敛。这一现象表明将来使用更多参数的LM用作文本编码器是有带来更高的推荐准确性的潜力的。

　　作者们也观察到采用SASRec主干的TCF在很大程度上优于使用DSSM主干的TCF。类似的发现在以前的许多文献中也有报道。文章解释一个原因是使用<用户，物品>的交互作为表征来代表用户比只采取用户ID特征更有效。另一个原因是，基于序列到序列（seq2seq）训练方法的SASRec架构比DSSM架构在此结构中表现更好。

　　问题2：这些极大的语言模型LLM是否能为推荐任务提供通用的物品表示？　　

　　文章试图回答具有175B参数的LLM生成的物品表征是否具有一定程度的通用性。在NLP领域一个很关键的目标就是建立通用的LLM。本文不同于传统的NLP任务，在这里采用文本推荐任务作为下游任务评估LLM的通用性能。文章做了简单的分析，认为对于一个完美的通用向量

　　来说，使用冻结表征应该和微调一样有效，甚至优于微调。从优化的角度来看，使用冻结表示比微调需要更少的训练参数，因为如果所需的物品特征已经事先决定，那么训练过程通常会更容易。

　　论文针对两种推荐模型（微调vs 冻住表征）进行了几组不同对比实验。如图所示，结果表明即使是由极其庞大的LM（如GPT-3）学习到的物品表示，也未必能形成一个通用的表征。结果表明在相应的推荐系统数据集微调仍然对于获得SOTA仍然是必要的，至少对文本推荐任务来说是如此。另外，论文也指出采用微调的方式虽然效果好很多，但是成本高于高昂，不难想象，微调或者训练带有66B的LLM至少也得需要几十张A100显卡，这里可以看出本文的工作量着实不小。

　　问题3：175B参数的LLM是否能轻松打败ID？

　　TCF是基于文本的推荐系统的经典范式，而IDCF是整个推荐系统领域的最经典的范式。那么很自然的产生一个疑问：具有175B参数的TCF模型语言模型能够轻易地击败基于ID的方法，也就是IDCF模型？虽然之前的许多关于推荐系统的研究都报道，TCF模型取得了先进的结果，但很少有人明确地将他们的模型与相应的IDCF模型进行比较。　　

　　为了探究这个问题，此文章对IDCF进行了仔细的搜参，发现即使采用175B和微调的66B的语言模型，当使用DSSM作为推荐骨架时，TCF仍然很大程度的劣于IDCF。文中解释，DSSM的结构和训练方法对TCF不是很友好，使用DSSM的IDCF和TCF都比基于seq2seq的SASRec模型表现得差。而采用SASRec架构时，TCF模型即便在LLM被冻结的情况下表现仍然与IDCF相当，尤其是在MIND和Bili数据集（论文对HM数据集TCF表现不佳进行了解释）。　　

　　对于warm推荐场景， TCF在LLM被冻结的情况下甚至有时也可以超过IDCF，这是一个重要的发现，因为之前没有研究表明采用冻结的NLP编码器直接输出物品表征可以在warm推荐场景达到与IDCF可比较的性能，而这是推荐系统去ID化很重要的一步。同时，也说明先前文献中的文本编码器，如BERT[6]和word2vec[7]，在生成文本表征方面是不够的。文章展现了使用各种不同的文本编码器推荐结果，结果显而易见（如下，NLP十年发展对推荐系统也带来了红利）。　　

　　作者指出，对于以文本为中心的推荐，采用SASRec为主干的TCF并利用一个175B参数的冻结LM可以达到与标准IDCF相似的性能，对于warm item推荐场景也是如此。然而，即使通过重新训练一个超大型的语言编码器LLM，采用DSSM架构的TCF也几乎没有机会达到IDCF一样的结果，说明简单的IDCF在warm物品推荐环境中仍然是一个极具竞争力的方法。另一方面，如果计算量可以显著降低，那么端到端训练序列推荐模型和LLM可以带来明显优于IDCF的推荐性能。

　　问题4：TCF范式与通用推荐模型有多接近？

　　论文认为对TCF而言与主流的IDCF范式进行对比是十分必要的，因为ID特征（包括用户ID和项目ID）被认为是推荐系统大模型（又称基础模型）的一个主要障碍。文章认为要实现推荐系统基础模型需要至少满足两个条件：（1）放弃ID特征，因为ID特征在不同业务系统无法共享，自然没办法实现迁移学习；（2）实现有效的跨域、跨平台迁移。从以上结果可知，基于LLM的TCF模型（SASRec架构）基本上可以取替ID方法，也就是去ID是可行的。而对于（2），论文中提出TCF虽然直觉上可以迁移，但是否真的具有很好的迁移效果，仍然是不确定的。因此，论文对基于LLM的TCF做了迁移学习的探究。

　　论文中采用175B参数的LLM作为物品编码器，在一个8百万用户，40万item的数据集上进行预训练并且在MIND、HM、QB（短视频数据集）三种数据直接评估预训练的模型。　　

　　结果如表所示，虽然装配了175B参数量LLM的TCF模型的表现优于随机采样的item的推荐，甚至达到了6-40倍的提升。但与在推荐数据上重新训练的TCF模型相比，它们仍然有巨大的差距。

　　因此，论文通过结果观察到 LLM具有一定程度的迁移学习能力，但仍然远远不能成为一个通用的推荐模型。对于一个通用的推荐大模型来说，不仅item表征应该是可迁移的，而且用户和物品之间的匹配关系应该能够迁移。然而，匹配关系是与具体推荐系统的曝光策略密切相关。因此，与NLP和计算机视觉（CV）相比，推荐系统模型的可迁移性更具挑战性。即便如此，论文对于推荐系统大模型仍然是持有乐观态度，但是可能需要整个社区共同努力。

　　问题5：ChatGPT4Rec vs TCF

　　最近，由于ChatGPT的巨大成功，出现了很多ChatGPT用于推荐系统的文献。文章评估了使用基于prompt技术的ChatGPT4Rec是否可以打败经典的TCF范式。结果如下表所示。　　

　　结果如图，ChatGPT在典型的推荐系统场景与TCF相比表现存在较大的差距，文章猜测需要更加精细的prompt，ChatGPT才有可能用于某些推荐场景，实际上论文附录中，也测试了文章使用的prompt，ChatGPT的回答是完全理解这个推荐需求，但推荐结果很不理想，另外，ChatGPT的另一个主要缺点是，在真实推荐场景，候选item池可以达到百万千万级别，ChatGPT暂时不能用于此类推荐。因此，论文认为，基于ChatGPT目前的性能和局限性，其无法替代经典的TCF范式。

　　总结

　　这篇文章没有去设计一个新的文本推荐算法，相反，通过实验，作者探讨了经典的TCF范式性能相关的几个根本问题。从积极的角度来看，TCF还没有达到性能极限，意味着，随着NLP大型模型表示能力的进一步提高，TCF有望具有更好推荐效果。另外一方面，很令人遗憾，即使是一个拥有千亿规模参数的LLM，使用它作为item编码器，仍然需要重新训练模型。此外， TCF模型并没有表现出预期的迁移学习能力，这表明构建推荐系统大模型可能是一项比NLP和CV领域更艰巨的任务。尽管如此， 1750亿参数的LLM对于TCF范式已经是一个重大的飞跃，因为它从根本上挑战了基于ID的推荐范式，而ID范式被认为是构建推荐系统大模型的最大障碍，但如文章所属，这并不是唯一障碍。

关注我们