广告业务的载体是素材,多年间,素材的形态不断创新演进,从图片到视频,从展示到试玩……唯一不变的是刀耕火种的素材生产方式。这一次,AIGC 席卷而来,打破了这份许久的宁静,素材+AIGC 给广告带来了新的机会。本文剖析素材之于业务的价值,回顾大模型浪潮下的行业动向,分享展示广告关于素材+AIGC 的实践。
这就是素材
先让我们带着全局大图去感受下素材
提到广告业务就离不开一个关键词 —— IAA (In-app Ads):平台一手向c端用户提供免费的服务,一只手向 b 端客户(广告主)售卖广告资源位,撮合用户和客户,赚些居间费,然后就可以用赚来的钱为用户提供更好更多的免费服务。如是,广告业务是 b 端客户、平台、c 端用户的三方博弈场,如何让这个游戏可持续发展?短期看金主爸爸(广告主)的投流 ROI,中期看用户体验,长期看社区调性,这时候素材显得格外重要(毕竟,广告主的投流表达手段就是出价、定向、素材的三板斧):广告主向素材要效率,平台向素材要质量,用户用脚投票。
素材能给广告主带来什么?
举个例子,某一天收到一条拙劣诈骗短信“我是秦始皇,V我50”,我们会觉得不可思议:“现在的骗子怎么那么蠢!”,恭喜你,骗子眼中,你是个聪明人。越是拙劣的话术,越能过滤掉那些精明、麻烦的用户,广告里面把这个现象称作素材即定向。广告主追求投流 ROI,自然就有了动力制作一批让聪明人厌恶的素材,毕竟,维护这些人的体验感觉,对他好像也没有收益。
素材能给用户带来什么?
用户最初的目的就是来享受免费服务的,自然不愿被广告打扰,但是,最近恰巧想去散散心,你推给了他一个精品团,抑或是,广告告诉他现在年轻人都去看非洲大迁徙,他也觉得很有道理。满足或者激发一个需求,广告就不再是种打扰,似乎成了一种异样的免费服务,毕竟,免费得到了最新的流行趋势。
素材能给平台带来什么?
恰到好处的素材,大家其乐融融,用户抵触的素材,是会把用户推开的。卖广告主造血养活平台 和 留住用户才能有广告主,两者的因果关系有点鸡和蛋的意味。平台追求一个符合社区调性的素材,直觉上总没有错。好素材带给平台繁荣,坏的素材只会带来麻烦,不能 balance 商业效率和社区调性的素材,都应该是坏家伙。
行业的素材实践
先给两个结论:
素材的制作成本是投放生产中的大头(相比于友商,我们小红书更注重社区的调性,广告主的素材成本会更高)
广告主追求确定性的投流实践
不同媒体的调性是不同的,一套素材吃天下几乎不可能,目前的素材制作模式(自制 or 代理):idea - 脚本 - 拍摄 - 领域专家人工介入 - 在线投放,显然,拍摄成本付出之后,才能有一定的判断结论,这时候,素材制作的成本已经付出。
制作好的素材要更高的成本
回到“如何让这个游戏可持续发展”的命题,等于在回答如何平衡商业效率和社区调性!答案也呼之欲出:“好的”素材的制作。生产实践中,素材是有成本的:制作成本 + 投流试错。至此,AIGC 的效率革命,是一个不错的实践选择。
先给几个 case
某代理商把素材制作的流程优化,通过 AIGC 的能力把专家介入时机提前:idea - 脚本 - AIGC生成 - 领域专家人工介入 - 拍摄 - 在线投放
某代理商在标题中使用关键词,将关键词自然融入标题且能够合理分布,以提高在搜索结果中的排名
某平台推出 AIGC 离线工具 + 在线组合优选的组合拳
某平台 spu 到素材的生成
某平台通过模糊素材内容,达到防爬&站外引流的业务目标
多模态特征级联到在线模型
归纳下收益路径
解决 0 - 1 投放问题:通过素材生产带来预算和场域之间的互通,进一步提升消耗,收益来源是引入预算,增加竞价密度,本质是放开约束
堆供给提升匹配效率:通过素材生产提升物料供给,带来消耗提升,收益来源是匹配效率的提升,本质是约束下堆多样性
提供工具赋能 b 端:辅助广告主提升创编效率
(【Tips】各家平台都在回答一个问题:平台做素材的优势在哪!)
技术视角总结下实践挑战
生产范式的幻觉挑战(一致性):广告是一种商业行为,宝马的广告生成出一个奔驰的标题,显然是 0 容忍的红线事件
通用大模型到行业的适配性:营销感 vs 社区调性
多样性:在有限的广告内容中尽可能挖掘多样的标题,提高投放匹配效率
开局一张图,一致性、调性、多样性最关键:
一致性:可控生成 + 可用性RM
调性:领域预训练 + SFT
多样性:人群/笔记分层 + 可控生成 + 吸引力RM
业务建模
面向业务的可控生成
通用的生成一般是引入随机性生成多标题,但是我们的业务场景下,需要调和生成的随机性和业务的确定性,因此,我们实践:
训练:基于自动标注 (Auto-Labeling) - SFT (Supervised Fine-Tuning) 架构的可控生成训练范式
推理:构造一个级联框架,输入笔记,依次输出 推广对象 + 标题
基座模型的领域预训练
为了让基座模型适应小红书的领域特点,我们清洗得到亿级别笔记数据,并混合一定比例通用语料,对基座模型开展小红书领域继续预训练。而在模型选型上,我们从幻觉程度、标题吸引力两个方面进行评判,发现模型量级越大效果越好,结合线上部署推理成本,选用了 10B 量级模型。实验显示经过领域预训练,生成标题在相关性、幻觉抑制方面均得到提升。
基于大模型的自动标注
结合业务场景,我们考虑笔记、人群、标题风格三个可控生成维度,而难点在于如何获得训练数据。我们的做法是广泛利用合成数据,借助通用大模型的能力为笔记抽取推广对象,并标注笔记分层、人群分层以及标题风格,获得了笔记在不同卖点/人群下的关键词数据。为拿到对应标题,也进一步训练了关键词感知生成模型和风格感知生成模型,来分别产出笔记在各笔记/人群分层、各风格词下的标题。
关键词感知生成模型训练
训练目标是能根据给定关键词生成标题。为了解决训练数据匮乏的问题,我们首先用笔记原生标题训练小红书领域预训练模型,通过随机采样为每个笔记生成多个标题。然后利用通用大模型给标题抽取关键词,从而为每个笔记获得多组 <笔记 + 关键词, 标题> pair 数据,最后训练得到关键词感知生成模型。
风格感知生成模型训练
训练目标是能生成给定风格的标题。我们利用大模型自动标注的标题风格数据,获得 <笔记 + 风格, 标题> pair 数据,进而训练得到风格感知生成模型。
端到端联合 SFT & 推理
为了让一个模型实现上述可控生成能力,我们将大模型标注的推广对象、笔记/人群分层,以及各分层下的受控生成标题整合为一个 label,对小红书领域预训练模型建立端到端微调任务。推理阶段输入笔记,即可依次输出推广对象和多种生成标题。
生产方案
实际生产中,我们落地可控生成 + RM(Reward Model)的技术选型,通过 RM 对生成结果质量检测,进一步保障生成标题的可控性。
RM (Reward Model)
RM 即反馈模型,其作用在于为生成模型的结果进行质量检测,以作进一步处理或优化。在我们的实践中主要涉及可用性RM和吸引力RM.
可用性RM
目标是避免出现不通顺、实体不一致、幻觉case。通过人工标注收集了高质量的正样本和负样本,在此基础上,又通过数据增强手段构造了一些负样本,比如“复读机”、语句不通顺等。实验发现领域预训练和数据增强均给模型性能带来了明显提升。
吸引力RM
目标是预估生成标题吸引力。通过人工标注收集了标题吸引力的排序数据,使用小红书领域预训练模型作为编码器得到文本向量,采用 pair-wise loss 训练,实验结果显示可以很好地学习到人工排序。
业务应用
一致性:商业活动的确定性保障
紧扣素材即定向的逻辑
生成标题对营销目标拟合是业务的基本诉求:给一位五个孩子的幸福妈妈推销草坪婚礼,广告语怎么说好像都有些不妥
生成标题和营销主体的一致性则是产品的生命线
实践中,我们以可控生成训练 + 可用性RM的技术路线取得了一定的结果:
可控生成训练
在可控生成过程中,我们借助少样本学习,通过大模型为笔记生成合适的受众群体,进而在各群体下展开多个关键词,来控制生成多种标题。
可用性RM
在优化过程中结合业务红线标准,针对性地通过人工标注以及数据增强等手段获得高质量数据,有效过滤了语句不通顺、实体不一致、幻觉等case,大幅降低线上风险。
调性:和社区不割裂的广告标题
小红书笔记的标题生动有趣,但是标题越亮眼,技术越头痛:在普世视角下,标题和正文语义 gap 越大,标题越亮眼!
举个例子:
通用大模型很难通过正文推断出标题:因为标题包含了正文不存在的信息(是不是有独特内核的社区,都是有着大家心照不宣的默契),这种非对称的标题正文,离开小红书,确实是一个特立独行的存在,为了让模型适应小红书的领域特点,我们进行了如下工作:
预训练:使用亿级别的笔记数据以及通用语料对基座模型做了领域预训练
基于用户行为 SFT:高质量笔记标题数据,对小红书领域预训练模型进行 SFT
多样性:千人千面的基石
社区内的笔记原生数据都是一篇笔记一个标题,也就是说,社区没有多标题的数据让我们来建模!如何获得符合社区调性的多样化数据是需要解决的问题,对此我们的做法是深度利用大模型能力,使用合成数据。
阶段一:采用采样生成,得到一对多标题
阶段二:考虑到阶段一要满足多样性的目标,需要生成大量的数据
分层 + 可控生成,业务上实现有向生成,大大降低了生成成本
风格 + 可控生成:基于专家经验归纳了以下五种标题风格 显式、隐式、疑问、夸张、幽默
通过人工标注,获得标题排序数据,构建吸引力RM,逐层寻优,进一步提升效率
整体方案&评估
多样性评估
评估方式
基线模型(baseline)基于原始笔记和标题数据进行训练,通过随机采样方法生成多个标题
实验模型在每个笔记上平均生成 12 个标题。为了确保评估的公平性,基线模型也生成了相同数量的标题
指标说明
评估结果
一致性评估
评估方式:
人工 GSB 评估
评估量级:200篇笔记
评估结果
模型结果对比
在本次 AIGC 实践中,我们通过小红书领域预训练得到了可靠的基底模型,广泛应用合成数据来解决数据资源匮乏的问题,通过可控生成 + RM 的方式取得了多样性和质量双赢的结果。在未来,我们将探索多模态特征和偏好学习在展示广告中的应用,继续提升效果的同时将模型小型化,并研究更高效的生产范式。