业务背景
货拉拉成立于 2013 年,成长于粤港澳大湾区,是一家从事同城、跨城货运、企业版物流服务、搬家、汽车销售及车后市场服务的互联网物流公司。截至2023年6月,货拉拉业务范围覆盖全球11个市场,包括中国及东南亚、南亚、南美洲等地区,其中中国内地总共覆盖360座城市,月活司机达90万,月活用户达1050万。
据公开资料不完全统计显示,截至2023年11月底,国内已经有200+大模型推出,并且在各行各业“落子不断”。基于目标人群、用途和适用场景的不同,大模型市场可分为通用大模型和垂直大模型两大类。
通用大模型,聚焦基础层,以技术攻关为目的。他们对标ChatGPT做通用大模型,百度的文心一言,阿里的通义千问、科大讯飞的星火大模型等都归属这一类。
垂直大模型,聚焦解决垂直领域问题,以产品开发为目的。他们在通用大模型基础上训练行业专用模型,应用到货运、金融、医疗、教育、养老、交通等垂直行业。
图为:弗若斯特沙利文发布的《AI大模型市场研究报告(2023)》对中国市场提供大模型产品服务的厂商进行了分析和评估。
因此,如何在海量通用大模型和垂直领域大模型中,找到更适合货拉拉业务场景的大模型;在AI应用领域内,比如AI客服话术评测、AI智能数据分析评测、AI知识库评测等场景中,找到更适合货拉拉特定业务场景的AI基座,一个一站式的在线评测工具平台就很有必要了。
所以,货拉拉AI一站式测评平台-拉拉智评应运而生,平台承载着“出-测-评”三位一体化智评能力。
拉拉智评介绍
平台目标是打造物流行业的领先评测平台,覆盖公司评测全场景,加速数智化转型进程。
AI应用赋能在公司内目前百花齐放,但是采取哪家基座模型进行业务赋能缺乏评测数据支撑。在没有平台之前,评测需要花费大量精力进行评测集输出,通过线下流程进行随机出题测评,数据回收效果评估,测评效率低。如果要跟随业界大模型开放的能力,目前的运转方式是无法满足公司快速赋能应用场景的诉求。
因此,通过抽象测评流程,产品架构如下:
使用流程: 定义项目空间,输出评测题库,确认评测分类->配置化接入AI答卷,随机组卷,自动答题->人工orAI自动评分->定义评测方法,通过拖拽配置,可视化评测结果
关键流程解释:
• 项目空间定义评测域,收集当前评测空间题目进行评测分类,分类下题目绑定评分方法
• 拉拉智评可接入API评测源,评测应用场景下的AI应用能力是否满足线上表现,也可以直接评测AI源分评测维度表现情况,流程如下图:
• 可视化依托于大数据部门云台产品,基于数据明细可以自定义评测结果展示:
技术架构设计
基于业务特性,设计了如下的技术架构:
接入层: 项目入口为web,web通过kong网关转发到后端系统
应用层: 拉拉智评简单来说就是一个集成出题、题目管理、试卷管理、考试、评测的系统,因此将核心模型进行封装,与之对应,需要配置化能力开放的单独封装
基建层: 评测平台是一个工具化平台,对应的可视化、权限管理以及推送机制依赖于第三方能力,涉及到大模型评测场景,需要额外对接GPT网关,系统对GPT能力进行了一次二次封装
通过分析实际问题场景,对于系统有如下几方面诉求:
通用配置体系
为了方便理解,如上图,通用配置体系的设计思路就是在各种自定义API中,解析出系统能够识别的字段,通过拆解项目内容,系统支持
• 出题人配置化:可以通过接入第三方API,无缝接入当前系统出题体系
• 答卷人配置化:通过接入第三方API(gpt3.5,gpt4.0...),实现AI自动化答题
• 评卷人配置化:通过接入第三方API,对答卷结果进行自动化评分
下图为答卷人配置示例:
数据空间隔离
权限分为功能权限和数据权限。功能权限指的是用户角色权限体系,能看到哪些模块,哪些页面。数据权限则指的是能看到哪些数据,能看到几条数据。
合理的权限划分可以减少上图混乱的功能绑定,在拉拉智评项目中,功能权限和数据权限的组合分别对应评测各个环节的角色所能使用的系统功能范围和测评范围,设计一套便于理解的权限理解体系是很有必要的。
这里面需要考虑的点包括:
• 角色权限划分:根据目前工作协同范围包括(出题人、测评人、评分人、管理员等),角色可以存在交集
• 功能点细化:包括页面权限和接口权限,预留接口,防止过度集成
• 数据权限定义:不同人员对应的数据权限级别等级是不一样的,特殊项目可能只对部分角色or人员开放
因此,系统集成公司的UAC权限管理中心,合理设计功能权限和数据权限,通过角色为桥梁,不同用户绑定对应的角色进行系统使用。
实际来看,不同权限的用户,看到的首页是不一样的,这些只用线上配置,对于前后端开发是无需发版适配的。
通用评测评估
智源研究院的FlagEval 天秤大模型评测平台大模型评测排行榜
不同评测任务下,评测规则是灵活的。大模型评测下,智能研究院针对客观性、语言、分类等多维度下对模型进行打分。拉拉智评平台不仅是针对大模型评测场景,针对其他评测场景,同样是适用的,这里需要考虑的点包括:
• 灵活配置评分分类:通过灵活配置不同评分类型,实现不同评测任务下的评分
• 支持AI自动/人工评分:评测包含AI自动打分,但是很多时候,一些主观题只能基于标注人员进行评测,因此灵活的打分能力系统也需要支持
• 支持不同维度可视化打分结果:不同评测任务,观察评分结果的维度是不一样的,这里我们依托于公司的BI工具平台——云台来支撑,通过提供评测明细表,拖拽式配置可视化看板
云台拖拽式看板
行业对比和展望
AI模型评测平台已经层出不穷了,出名的当属hugging face,国内也有智源研究院的FlagEval 天秤大模型评测平台。
ai 工具网站的评测系统—— https://ai-bot.cn
拉拉智评相对于他们也只是起步阶段,要补齐的能力还有很多,只是相较于这些商业化模型评测平台,个人认为它的优势在于如下几个方面:
• 安全性:题目录入后,数据所有流转都在公司网络内,不存在数据泄露风险(涉及GPT调用那块有安全过滤)
• 通用性:系统设计之初,考虑更多的是通用评测平台,只是基于大模型评测机遇下孵化出来的系统,从设计思路和功能复用上,同样可以评测非大模型场景
• 可开发:系统可以随时对接内部API能力,定制化周期短
• 领域特性:公司主要在货运领域,内部存在大量货运专业问答和问答,一个内部评测系统对领域问题进行评测收口意义大于使用开源商业模型
对于产品的下一步,我觉得,大概分几个方面:
• 补齐基础能力:系统已经覆盖单一领域的AI出题,题库-试卷-考试-评测-可视化已经做到了全流程配置化,后续模仿行业评测平台,补齐评测集合、模型部署、通用化评测标准等能力。
• 增强AI场景:除开评测大模型能力本身,后续如何全流程AI出题、如何AI评测其他日常评测任务是将产品从可用到智能化很关键的一步。