服务器 频道

搜推电商大模型及应用实践——上篇

  引言

  大模型对搜推技术产生了深远的影响,极大地推动了搜推技术的演进趋势,使得搜推更加的智能化和个性化,然而在搜推中引入大模型时同样面临一系列的挑战,例如商品知识的幻觉,复杂查询的理解,个性化商品推荐,隐私和安全等问题。本文基于这个问题背景介绍下我们的技术实践,完整文章分为上下两篇介绍:

  •上篇:电商场景的深刻理解和洞察,从实际问题分析出发结合我们在大模型上的相关创新性实践来解决这些痛点问题,阐述我们在电商大模型的技术探索,覆盖电商大模型能力建设,包括知识增强预训练、指令对齐、安全性等方向。

  •下篇:针对电商搜推场景问题介绍大模型在搜索相关方向的应用实践,最后讨论下一代AI电商搜索的相关技术和趋势见解。

  1.电商行业的发展和技术演进

  1.1 电商行业发展

  过去十年,实物商品网上零售额实现了高速增长,电商模式也经历了显著的演变。从以货架电商为主的传统模式,发展到如今货架电商与内容电商并存的多元格局,这一变化不仅反映了市场需求的多样化,也展示了技术进步对零售行业的深远影响。  

  货架电商,如阿里巴巴、京东和拼多多等平台,通过建立庞大的商品数据库和高效的物流体系,为消费者提供了便捷的购物体验。这些平台依托强大的技术基础,优化了供应链管理,降低了商品流通成本,使得消费者能够以更低的价格购买到更丰富的商品。

  与此同时,内容电商如抖音、快手和小红书等平台的崛起,标志着电商模式的进一步创新。这些平台通过短视频、直播等内容形式,将商品展示与娱乐体验相结合,吸引了大量用户的关注。内容电商不仅丰富了消费者的购物体验,还通过社交互动和用户生成内容,增强了用户粘性和购买欲望。

  本质上,无论是货架电商还是内容电商,都是通过技术驱动,大幅降低了商品流通成本,显著提升了零售效率。可以说,电商模式的发展变化,是技术演进的直接结果。未来,随着技术的不断进步,电商模式将继续创新,进一步满足消费者多样化、个性化的需求。

  1.2 电商场景问题分析

  从电商用户的消费决策链出发,用户从需求的产生到最终决策下单,可以拆解为购前、购中、购后这三个阶段。在这一链条中,不同类型的平台扮演着不同的角色,各自发挥着独特的功能。  

  首先,以抖音、快手和小红书等为代表的内容分发平台,作为当前的新兴内容电商平台,主要处于消费链路的上游阶段。在购前阶段,这些平台通过丰富多样的短视频、直播和用户生成内容,激发用户的购物需求。内容电商平台通过生动的商品展示和互动性强的内容,能够有效地吸引用户的注意力,促进潜在需求的产生和转化。用户在这些平台上获取灵感、发现新产品,并逐渐形成购买意向。

  而以阿里巴巴、京东和拼多多为代表的商品分发平台,作为当前的货架电商平台,主要处于消费链路的中下游阶段。在购中阶段,这些平台承担着用户需求与商品供给的高效匹配任务。当用户在内容平台上产生购买需求后,他们通常会转向这些电商平台进行搜索,以寻找具体的商品并进行比价和决策。电商平台通过庞大的商品库、精准的推荐算法和高效的物流服务,确保用户能够快速找到所需商品并顺利完成购买。

  在消费决策链路中,用户购买需求产生后的搜索环节是决策的关键。电商搜索的核心在于基于用户需求的商品分发,其主要目标是提升商品分发效率,优化的关键指标是GMV(商品交易总额)和UCVR(用户转化率)。与一般的信息搜索(如百度)不同,电商搜索不仅要提供相关性高的搜索结果,还需要考虑商品的库存、价格、物流等多方面因素,确保用户能够获得更优的购物体验。

  1.3 关键问题和技术挑战

  作为国内领先的电商平台,京东在移动端APP,小程序以及PC端等多种产品形态中,为用户提供了全方位的购物体验。京东的宏观目标是实现更低的成本、更高的效率以及更好的用户体验。然而,在实现这些宏观目标的过程中,京东面临着一系列关键问题和技术挑战。  

  这种多样化的产品形态要求平台在各个终端上提供一致且优质的用户体验。同时不同终端的用户行为和需求也存在差异,这就需要平台在设计和优化用户界面、功能以及交互体验时,充分考虑各终端的特点和用户习惯。

  宏观目标可以总结为:更低的成本、更高的效率和更好的体验。

  •更低的成本:降低成本不仅涉及商品采销和库存管理,还包括物流成本和平台运营成本。通过智能化的供应链管理和AI技术,京东可以优化库存配置,减少商品滞销和库存积压,从而降低成本。

  •更高的效率:提高效率主要体现在物流配送和订单处理上。京东通过建设智能物流系统和自动化仓储设施,实现了从订单生成到商品配送的全流程高效运作。同时,通过精准的用户画像和个性化推荐,京东能够在用户浏览和搜索时,更快地匹配到合适的商品,提高用户购物效率。

  •更好的体验:用户体验的提升不仅依赖于界面设计和功能优化,更需要在售前、售中和售后各个环节提供优质的服务。京东通过优化搜索算法、提升客服质量和完善售后服务体系,全面提升用户的购物体验。

  在实现宏观目标的过程中,我们需要解决的关键问题可以归结为GMV(商品交易总额)的问题。GMV可以通过通过公式描述为:GMV = UV(独立访客数) * UCVR(用户转化率) * 客单价

  •UV(独立访客数):增加UV需要通过多种渠道吸引新用户和保留老用户。京东通过多样化的营销活动、社交媒体推广和内容合作,吸引更多用户访问平台。

  •UCVR(用户转化率):提高UCVR需要优化用户的购物路径,减少购买障碍。京东通过改进搜索和推荐系统,提供个性化的商品展示,提升用户的购买意愿。此外,简化支付流程和提供多种支付方式,也有助于提高用户转化率。

  •客单价:提升客单价可以通过增加商品的附加值和鼓励用户购买更多商品来实现。京东通过推出高品质的自有品牌商品和组合销售策略,提升客单价。

  在解决上述关键问题时,京东面临着多项技术挑战,这些技术挑战包括但不限于以下四个方面:

  •交互引流

  ◦提升交互效率同时考虑激发用户需求:在提升用户交互效率的同时,需要设计能够激发用户需求的交互方式。

  ◦时效性问题:确保信息和商品推荐的实时性,以满足用户的即时需求。

  ◦丰富性问题:提供多样化的内容和商品选择,满足用户的不同需求。

  •意图理解

  ◦复杂用户需求理解:准确理解用户的复杂需求,提供相应的商品和服务。

  ◦数千数万商品属性和类目精准识别:对海量商品的属性和类目进行精准识别和分类。

  ◦用户画像等复杂上下文:利用用户画像和上下文信息,提供个性化的推荐和服务。

  •商品召回

  ◦多维度召回和融合:从多个维度进行商品召回,确保推荐结果的全面性和准确性。

  ◦商品和库存等动态变化:实时跟踪商品和库存的动态变化,确保推荐的商品有货且可购买。

  ◦个性化和多样性问题:在个性化推荐的同时,确保推荐结果的多样性,避免推荐的单一化。

  •相关性

  ◦文本+图像多模态匹配:通过文本和图像的多模态匹配,提升推荐结果的相关性。

  ◦动态价格、促销、物流等:考虑商品的动态价格、促销活动和物流情况,提供更具吸引力的推荐。

  ◦权衡UCVR和长期GMV:在提升用户转化率的同时,兼顾长期GMV的增长。

  ◦宏观流量调控和反作弊:进行宏观流量调控,防止作弊行为,确保平台的公平性和用户体验

  1.4 技术演进洞察

  电商行业的快速发展离不开技术的不断创新。技术的演进不仅是为了追求技术本身的突破,更是为了实现更低的成本、更高的效率和更好的用户体验。本节将探讨电商搜索技术的演进历程,从文本检索阶段到当前正在经历的大模型阶段,以及未来的AGI导购助手。  

  文本检索阶段

  在电商搜索技术的初期,主要依赖于基础的文本检索技术和规则引擎。这个阶段的核心在于通过关键词匹配实现用户与商品的连接。

  •规则引擎的应用:利用预定义的规则和逻辑,初步实现用户搜索需求与商品信息的匹配。

  •基础文本检索技术:通过简单的文本匹配算法,检索出与用户搜索词相关的商品。

  •关键词的人货匹配:基于关键词的匹配技术,初步实现用户需求与商品的对接。

  机器学习阶段

  随着数据量的增加和计算能力的提升,电商搜索技术进入了机器学习阶段。这一阶段的核心是通过统计NLP和机器学习模型,提升用户意图理解和商品匹配的准确性。

  •统计NLP为核心的用户意图理解和商品理解:通过统计自然语言处理技术,更加精准地理解用户的搜索意图和商品属性。

  •基于ML的CTR/CVR建模:利用机器学习模型预测点击率(CTR)和转化率(CVR),优化搜索结果的排序。

  •LTR排序模型:通过学习排序(LTR)模型,进一步提升搜索结果的相关性。

  •用户反馈数据学习:利用用户的搜索和点击反馈数据,不断优化和调整搜索算法。

  深度学习阶段

  深度学习的兴起,带来了电商搜索技术的又一次飞跃。通过深度神经网络(DNN),电商平台能够更为精准地理解用户意图和商品信息,并实现多模态的搜索交互。

  •基于DNN的意图/商品精准理解提升分发准确率:利用深度神经网络模型,提升用户意图和商品信息的理解精度,从而提高搜索结果的准确性。

  •以文本+语音+图像的新搜索交互:支持用户通过文本、语音和图像进行搜索,提供更加丰富的交互方式。

  •ANN语义召回、多模态召回和DNN匹配技术:通过近似最近邻(ANN)算法进行语义召回,结合多模态召回和DNN匹配技术,提升搜索结果的相关性和多样性。

  •个性化搜索&千人千面:根据用户历史行为和偏好,提供个性化的搜索结果,实现千人千面的搜索体验。

  大模型阶段

  当前电商搜索技术正在经历大模型阶段。基于大模型的技术,不仅提升了用户理解和商品理解的深度,还实现了更加智能的交互方式。

  •交互上单向引导到对话式交互导购:从传统的单向搜索引导,发展到对话式的交互导购,提供更加智能和自然交互的购物体验。

  •基于大模型的用户理解和商品理解解决长尾问题:利用大模型技术,提升对用户需求和商品信息的理解,特别是解决长尾商品的推荐问题。

  •大模型生成式检索技术:在召回和相关性上大模型也正在重构整个技术架构,包括极具有颠覆潜力的大模型生成式检索技术的探索和应用。

  AGI导购助手阶段

  展望未来,电商搜索技术将进入AGI导购助手阶段。这个阶段的核心是通过完全的AGI技术驱动,实现多模态交互和AI Agent式购物服务。

  •完全AGI技术驱动:利用人工通用智能(AGI)技术,全面提升电商搜索和推荐的智能化水平。

  •完全多模态交互:支持文本、语音、图像等多种交互方式,提供更加自然和便捷的购物体验。

  •AI Agent式购物服务:通过AI Agent提供个性化的购物建议和服务,提升用户的购物体验。

  •人格化数字虚拟助理:打造具有人格化特征的数字虚拟助理,为用户提供更加贴心的购物服务。

  2.大模型电商场景下的问题

  2.1 大模型的技术优势

  近年来,随着人工智能技术的迅猛发展,大模型在各个领域展现出了卓越的技术优势。大模型不仅在语言理解和生成方面表现出色,还在知识总结、迁移学习、逻辑推理以及多语言多模态建模等方面展现出了强大的能力。以下将详细阐述大模型的五大技术优势。  

  •强大的语言理解和生成能力

  大模型的一个显著优势在于其强大的语言理解和生成能力。大模型能够准确地理解复杂的语言结构和语义关系,从而实现高质量的文本生成,以及指令遵循能力。这种能力不仅体现在自然语言处理(NLP)任务中,还在搜索和推荐,对话系统和内容创作中得到了广泛应用。

  •广泛的知识总结和归纳能力

  大模型具备广泛的知识总结和归纳能力,能够从海量数据中提取和整合信息,形成系统的知识体系。这种能力使得大模型在处理复杂问题时,能够提供全面而准确的解答。

  •显著的迁移学习和多任务能力

  大模型在迁移学习和多任务处理方面表现出色。通过迁移学习,大模型可以将从一个任务中学到的知识和技能应用到其他相关任务中,显著提高了模型的泛化能力和适应性。此外,大模型可以基于一个统一模型底座实现多任务学习,这种能力在实际应用中具有重要意义。

  •逻辑推理和分析能力

  大模型不仅在数据处理和语言生成方面表现出色,还具备一定的逻辑推理和分析能力。通过复杂的模型结构和训练算法,大模型能够对输入信息进行深度分析和推理,得出合理的结论。这种能力使得大模型在解决复杂问题和做出决策时,能够提供有力的支持。

  •多语言多模态建模

  大模型的多语言多模态建模能力,使其在处理多语言和多模态数据时表现出色。大模型可以同时处理文本、语音、图像等多种数据形式,实现跨模态的信息整合和理解。此外,大模型还支持多语言处理,能够在不同语言之间进行无缝转换和理解。这种能力在全球化的背景下具有重要意义。

  2.2 电商场景下的应用问题

  随着大模型技术的不断进步,其在电商行业的应用也日益广泛。然而,尽管大模型在许多方面展现了强大的潜力,电商场景下的实际应用仍面临诸多挑战。本节将深入探讨电商场景下大模型应用的五大主要问题:电商知识理解、效果和个性化、时效性、成本和速度以及安全性。  

  电商知识理解

  在电商场景中,商品知识的专业性和精确度至关重要。然而,通用大模型在这方面表现出了一些不足。

  •商品知识专业性不足:通用大模型在商品类目、品牌和属性等方面的专业性不够,难以满足电商平台对商品信息的精细化需求。这导致模型在处理商品相关任务时,可能无法提供准确和有用的结果。

  •通用知识和商品的对齐问题:大模型通常基于广泛的通用知识进行训练,但这些知识与具体的商品信息之间存在对齐问题。例如,模型可能无法正确理解某些商品的特定属性或品牌特征。

  •图像商品理解差:尽管大模型在文本处理方面表现优异,但在商品图像商品理解上仍存在显著差距。这限制了其在需要图像识别和处理的电商应用中的效果。

  效果和个性化

  在电商平台上,个性化推荐和精准营销是提升用户体验和促进销售的关键。然而,直接应用大模型并未展现出绝对的效果优势。

  •理解购物历史和偏好:大模型在理解用户的购物历史、偏好、评论和商品细节方面面临挑战。个性化推荐需要对用户统计行为进行深度分析,而通用大模型在这方面的能力有限。

  •个性化挑战:尽管大模型可以处理大量数据,但要实现真正的个性化推荐,仍需克服许多技术难题。例如,如何在短时间内分析和理解用户的复杂需求,并提供精准的商品推荐。

  时效性

  电商行业的动态性和时效性要求极高,而大模型在这方面存在明显的不足。

  •更新速度慢:大模型本身的更新速度较慢,导致其知识容易陈旧,无法及时反映最新的商品信息、促销活动和价格变动。

  •高时效性需求:电商平台需要实时更新新商品、促销信息和价格变动,以确保用户获取最新的商品信息。然而,大模型在这方面的更新时效性难以满足电商平台的需求。

  成本和速度

  大模型的训练和推理成本高昂,给电商平台带来了巨大的经济压力。

  •高训练和推理成本:大模型的训练需要大量的计算资源和时间,推理过程也消耗大量的计算能力。这使得其在大规模商用中的ROI(投资回报率)较低,难以广泛应用。

  •实时性挑战:在线推理速度难以满足电商平台的实时性要求,尤其是在高并发的购物场景中,模型的响应速度成为瓶颈。

  安全性

  在电商场景中,用户数据的安全性和生成内容的合规性至关重要。

  •用户敏感数据泄露风险:大模型在处理用户数据时,存在敏感数据泄露的风险。这对用户隐私保护和数据安全提出了严峻挑战。

  •生成内容的安全合规:大模型生成的商品相关内容需要确保安全和合规,避免出现虚假信息或不当内容。这对电商平台的内容审核和监管提出了更高要求。

  2.3 电商大模型解决方案

  基于上述问题分析和大模型优劣势,结合我们京东的业务场景我们提出了一整套基于大模型的AIGC架构:  

  后面章节讲分别介绍整个AIGC框架的关键技术

  3.电商大模型关键技术

  3.1 数据和预训练

  在大模型的预训练过程中,数据预处理是至关重要的一环。特别是在电商领域,数据源的多样性和复杂性决定了预处理的质量直接影响到模型的最终效果。

  数据预处理

  核心去除站外和站内商品相关数据中的噪音,提升专有数据的电商知识密度,整体流程如下图:  

  预训练数据处理的核心目标是提升电商知识密度,为了提升大模型在电商领域的专业性和准确性,预处理的核心目标是去除数据中的噪音,确保数据的高质量和高相关性。这不仅有助于模型更好地理解商品类目、品牌和属性,还能提高模型在实际应用中的表现。

  数据预处理的核心流程包括以下几个步骤:

  •文法引擎过滤:文法引擎通过分析文本的语法和结构,过滤掉不符合语法规则的噪音数据。这一步骤确保了输入数据的基本语法正确性,减少了模型处理无效信息的负担。

  •困惑度评分器:困惑度评分器用于评估文本的复杂度和合理性。通过计算文本的困惑度,可以识别和过滤掉那些难以理解或不符合常识的内容,从而提高数据的质量。

  •质量评分器:质量评分器根据预定义的标准(如信息完整性、准确性和相关性)对数据进行评分。在技术上一般组合使用多种分类器,可基于CNN或Bert模型进行构建,只有那些高质量的数据才会被保留下来用于训练模型。

  •数据去重分析:数据去重分析通过识别和删除重复数据,确保训练数据的独特性和多样性,可以使用多种去重算法,这不仅提高了数据的有效利用率,还避免了模型因重复信息而产生的偏差。

  •基于聚类和分类的过滤:通过聚类和分类算法,可以将数据按照不同的类别和特征进行分组和筛选。此步骤有助于识别和过滤掉不相关或低质量的数据,进一步提升数据的电商知识密度。

  •安全性过滤:安全性过滤确保数据不包含敏感信息或违反隐私和安全规定的内容。这一步骤至关重要,特别是在处理用户数据时,必须严格遵守相关的法律法规和隐私政策。

  •数据配比均衡策略:数据配比均衡策略通过调整不同类别和类型数据的比例,确保训练数据的均衡性和全面性。这有助于模型在各个方面都能得到充分的训练,避免因数据不均衡而导致的偏差。

  Continue Pretraining 启发于人类学习总是在前人积累的知识和经验上进一步学习,我们提出了一种基于知识继承的增量学习方法来持续学习,在数据上通过提升知识密度和配比调整,通过模型结构优化,退火学习,多阶段指令对齐优化,增强安全治理对齐等方法提升我们电商大模型的性能表现。  

  •平台和框架

  我们的增量学习框架支持基于华为NPU集群,利用其强大的计算能力和并行处理优势,实现高效训练。

  •底座大模型

  采用支持100B参数规模的底座大模型,并结合MOE(Mixture of Experts)架构,进一步提升模型的表达能力和计算效率。MOE架构通过动态选择专家网络,显著提高了模型的参数利用率和推理效率,使其在处理复杂任务时表现更加出色。

  •参数扩展

  为进一步提升模型的性能和适应性,我们引入了Depth Up-Scaling和MOE的参数扩展技术。Depth Up-Scaling通过增加模型的深度,增强其对复杂模式的捕捉能力;MOE扩展则通过增加专家网络的数量和多样性,提高模型的泛化能力和鲁棒性。

  •长上下文扩展

  在处理长上下文数据时,我们通过增加长上下文数据的配比,并优化分块缓存工程架构,显著提升了模型在长序列任务中的表现。

  •持续预训练

  为了实现持续预训练,我们采用了Cosine Learning Rate Scheduler和退火学习策略,并结合数据配比调整,确保模型在训练过程中能够逐步适应新的数据和任务。退火学习则通过逐步降低学习率,避免模型陷入局部更优解,提升模型的整体性能。

  3.2 通用对齐和领域对齐

  对齐学习不仅可以提升模型在通用任务中的表现,还能够在特定领域(如电商)中增强其专业性和准确性。通用对齐学习旨在优化模型对通用指令的遵循能力,使其在广泛的任务中表现出色。同时,电商领域对齐学习则专注于增强模型在电商场景中的专业性。  

  •SFT阶段

  在SFT阶段,模型通过监督学习进行微调。对于通用对齐,训练数据涵盖各种通用任务和指令,确保模型具备广泛的应用能力。对于电商领域对齐,训练数据则包括大量电商相关的任务和指令,核心是数据多样性和准确率。

  •DPO阶段

  在DPO阶段,模型通过直接偏好优化进行进一步调整。此阶段的目标是提升模型在特定任务中的表现,基于用户反馈或专家的直接反馈进行优化。对于通用对齐,DPO阶段通过收集用户对模型输出的偏好反馈,调整模型参数,使其更符合用户期望。对于电商领域对齐,DPO阶段则通过分析用户在电商平台上的行为和反馈,优化模型在商品推荐和客户服务等方面的表现。

  •PPO阶段

  PPO阶段采用近端策略优化方法,通过强化学习进一步提升模型的对齐能力。此阶段通过模拟真实环境中的任务和指令执行过程,模型在不断试错和优化中学习更优策略。对于通用对齐,PPO阶段使模型能够在动态和复杂的环境中表现出色,具备更强的适应能力。对于电商领域对齐,PPO阶段则通过电商场景中的各种任务中用户行为反馈使模型能够在实际应用中表现更好。

  在实践中,也可以利用KTO对齐来替代DPO/PPO。

  3.3 安全性

  随着大模型在各类应用中的广泛部署,其安全性问题日益受到关注。大模型安全性可以从潜在安全事件发生前后进行划分,分别为被动安全和主动安全。这两种策略共同构建了一个全面的安全防护体系,确保大模型的生成内容在各个方面都是安全和可控的,我们设计了一套完整的大模型安全体系:  

  被动安全:安全检测服务

  被动安全侧重于安全检测服务,从检测方向入手,确保用户输入的提示词(prompt)和大模型生成的内容在发布前经过严格的安全审查。具体措施包括:

  •用户输入检测:对用户输入的提示词进行实时监控和分析,识别并过滤潜在的恶意或不当内容,防止其对大模型的生成过程产生不良影响。

  •生成内容检测:对大模型生成的内容进行全面的安全审查,检测其中可能存在的幻觉(hallucinations)、毒性(toxicity)、偏见(bias)等问题,确保输出内容符合安全和道德标准。

  通过这些检测服务,可以在潜在安全事件发生前及时发现和处理问题,降低风险。

  主动安全:大模型生成安全性

  主动安全则从生成方向着手,确保大模型在任何输入情况下都能生成安全可控的回复内容。主要技术手段包括监督微调(SFT)和基于人类反馈的强化学习(RLHF)。

  •监督微调(SFT):通过在大量标注数据上进行微调训练,使大模型学习如何生成符合安全标准的内容。训练数据涵盖各种可能的输入场景和生成要求,确保模型具备广泛的安全生成能力。

  •基于人类反馈的强化学习(RLHF):通过收集和分析人类对大模型生成内容的反馈,不断优化模型的生成策略。RLHF方法能够动态调整模型参数,使其在生成过程中更加注重安全性,减少幻觉、毒性和偏见等问题的出现。

  主动安全策略不仅在大模型生成内容的过程中进行实时控制,还通过持续学习和优化,不断提升模型的安全性和可靠性。

  被动安全的方法核心是检测,主要方法包括:

  •文法规则引擎:以句法分析模板 + 词典进行识别,侧重关键词特征明显的文本识别

  •分类模型:以NN为核心的小模型,例如基于bert的分类,保证一定泛化,同时满足实时要求

  •大模型安全检测:通过SFT等技术通过大模型来检测,为了满足低时延往往小参数LLM实现

  主动安全算法核心是两种思路

  •融合路线:通用对齐+电商对齐+安全对齐在SFT和DPO阶段数据融合,PPO阶段模型融合

  •两阶段对齐:最后单独进行二阶段的安全对齐

  3.4 评估体系

  电商大模型的评估体系至关重要。为了确保模型在实际应用中的高效性和可靠性,我们构建了一套综合性的电商大模型评估体系。该体系涵盖了通用Benchmark、电商Benchmark以及安全性评分等多个维度,力求全面、客观地评估模型性能。  

  通用Benchmark评估

  通用Benchmark评估是衡量大模型在各种标准任务上的表现。我们采用了一系列主流Benchmark,包括以下但不局限:

  •MMLU:评估模型在多任务语言理解上的能力。

  •CMMLU:针对中文多任务语言理解的评估。

  •C-Eval:评估模型在中文环境下的综合表现。

  •GSM8K:用于评估模型在数学推理任务上的能力。

  •GAOKAO:模拟中国高考题目,评估模型的知识水平和解题能力。

  •SuperCLUE:中文语言理解评估基准。

  •AlignBench:评估模型在对齐任务上的表现。

  这些Benchmark涵盖了从语言理解到数学推理的多种任务,确保模型在广泛应用中的通用性和鲁棒性。

  电商Benchmark评估

  为了更好地服务于电商应用,我们专门构建了电商Benchmark。该Benchmark与电商应用任务高度对齐,评估模型在电商场景中的具体表现。评估方法包括自动评估和人工评估:

  •自动评估:利用自动化工具和算法,快速评估模型在电商任务中的表现,如商品推荐、客户服务等。

  •人工评估:由专业评估人员对模型生成的内容进行人工审核,确保评估结果的准确性和可靠性。

  通过电商Benchmark,我们可以深入了解模型在电商领域的实际应用效果,并进行针对性优化。

  安全性评估

  安全性是大模型评估中的重要一环。我们通过以下指标进行安全性评分:

  •CValues:评估模型输出内容的安全性和合规性。

  •Safety-Prompts:使用特定的安全提示词,测试模型在处理敏感话题时的表现。

  •自建安全评估集:基于实际应用场景,构建专门的安全评估数据集。

  安全性score计算公式为:Score =安全回复数量/总回复数量或总prompt数量

  此外,我们还关注错误拒答率(FRR),即大模型误判良性提问场合的概率。

0
相关文章