前言
以 ChatGPT 为代表的生成式 AI 浪潮席卷全球,但企业落地过程中普遍面临“技术热、落地难”的困境。货拉拉基于自身在物流领域 AI 落地的深厚积累,打造了货拉拉的大模型应用一站式开发平台 -- 悟空平台。依托于悟空平台,货拉拉已在 14+ 个业务或部门,50+ 个真实业务场景,探索和落地大模型应用。
图:货拉拉大模型应用关键场景
尽管大模型技术已广泛应用于货拉拉的各业务线,并显著提升了运营效率,但在实际大模型应用开发过程中,我们仍面临多重挑战。例如,如何统一结构化和非结构化的企业知识数据供大模型消化、如何动态组合智能体协作满足单一机器人无法满足的复杂业务流程等。
针对这些问题与挑战,我们对货拉拉大模型开发体系做了针对性技术突破,构建了一套覆盖文档、表格、图片、视频等格式的多模态知识引擎,并通过自研 AI 工作流编排模式,打造了一个灵活通用、低门槛、高稳定的多智能体协作引擎。
下面将详细介绍这些挑战和解决方案。
货拉拉大模型应用落地的挑战
数据之困
货拉拉内 89%的大模型应用都使用到了企业知识数据,企业知识中非结构化数据占比超 80%,如何使用这些数据构建高质量的企业知识图谱是大模型应用的基石。
多模态数据割裂:文本工单、数据表格、车贴审核图、语音客服记录等异构数据难以统一解析
知识关联断层:结构化数据和非结构化数据之间存在语义鸿沟,导致企业知识库构建效率低下
处理流程碎片化:传统单模态处理流水线需要维护图像识别、文本分析、视频标注等多套独立的系统
场景之惑
多数 AI 产品仍停留在“Q&A”阶段,但我们的真实业务场景需要动态协同的智能体群。例如在营销决策场景中,需同时调用特征查询 Agent、策略执行 Agent、任务创建 Agent 等,传统单 AI 模式无法支撑复杂决策。
跨业务需求差异:运营需要报表解析、客服需要对话质检、地图需要路径提取,难以用统一架构支撑
长尾场景覆盖难:传统定制化开发模式无法快速响应业务部门的临时性、突发性大模型应用需求
能力复用率低下:不同场景重复开发相似功能模块,导致开发和维护成本呈指数级增长
落地之痛
近期以 Deepseek-R1 为代表的混合专家模型(MoE)引起热议,在生成式大模型不断迭代的浪潮下,企业往往陷入“技术狂欢”与“落地迷茫”的矛盾中,如何将大模型的强大能力与特定业务逻辑相结合,并快速支撑业务落地使用和后续效果迭代,成为从实验室到生产线的最后一道拦路虎。
货拉拉大模型开发体系的技术突破
悟空平台介绍
悟空平台是一款面向货拉拉内部所有业务和团队而设计的大模型应用一站式开发平台,依托于先进大模型为核心元能力引擎,提供 AI 工作流、低代码、零代码等多种应用开发方式,集成了大模型广场、多模态知识引擎、Multi Agent 协作、企业插件动态插拔、应用部署与推理、应用监控与观测等核心能力,提供多样化的业务交互渠道,最终为货拉拉业务场景提供了高效、便捷、稳定、可视化的大模型应用开发 SOP。
平台架构如下:
多模态知识引擎
下图展示了如何使用悟空平台进行一个多模态知识引擎构建与交付的流程,业务人员只需在平台内即可实现从引擎创建、数据灌入、知识处理到集成大模型应用落地的全过程。知识引擎支持将文本/表格/视频/图像/网页/云文档等多种模态数据的统一接入,内置不同模态的处理流水线,实现跨模态语义对齐,知识的管理与更新无需全量训练,通过增量式技术实现局部更新,更新即生效。真正解决了货拉拉企业知识仓储的痛点。
2.1 知识构建
上图主要介绍货拉拉的企业知识是如何构建出来的。业务在知识准备阶段交付给悟空平台多模态的文档源信息,这些文档源信息中非结构化信息占比 80%+,跨模态信息占比 60%+。
在引擎配置阶段,引擎支持灌入超过 15+种模态的源文档。涉及需要语义处理的引擎,业务根据精度需要选择合适的 Embedding Model,并对知识分片进行规则设置。此外,知识引擎联动了信息安全的 Waf 和 DLP 等能力,在知识数据处理前和处理中对企业敏感信息做到前置识别和处理中脱敏。
知识处理阶段,可为业务人员生成预期知识预览,确认配置无误后,下发处理。处理过程中基于智能文档解析和多模态大模型能力,做文档结构化解析和模态语义表征统一。处理完成后生成知识索引并将数据分发到不同的元存储引擎中。
2.2 知识管理
区别于传统的仓储模式,知识引擎在使用中并不是一成不变的。例如企业内部文档编辑、报表修改、新的通话录音生成、爬虫挖掘数据、网页内容变更等。在知识引擎的生命周期期间,如何有效管理引擎内的源文档和知识集合,保证 大模型应用召回最新稳定的知识也是至关重要。
知识引擎对文档源采取智能局部感知技术,识别到新增、修改、废弃知识点时,触发局部的知识重载入库和知识关联重构,并对本次知识节点创建新映射版本,旧节点版本标记无效,保证可追溯但不再参与召回。
知识管理展示如下:
2.3 知识使用
平台支持召回实测,针对在不同场景中快速实践与调优准召率。实测通过后即可在 大模型应用中使用。目前知识检索已支持模块化和配置化,支持多种检索模式,检索前后处理设置,跨模态检索等功能。
Agent Workflow 智能引擎
“真正的创新不在于掌握最新技术,而在于用其解决真实业务挑战。”
货拉拉的 Agent Workflow 是传统低代码 大模型应用和 AI Agent 的升级体。传统低代码受限于框架,不够自主灵活,很多业务方反馈想要定制化任务流程时无法支撑;而 AI Agent 的“类人交互”准确率不足和成本挑战等问题阻碍着真实落地。因此,悟空支持了自研的 Agent Workflow 引擎,提供更加灵活、通用化、易理解、便捷、稳定的流程编排交互,规范化所有节点和工作流整体的输入输出,降低用户的理解和操作成本,提供了更强的可定制化和扩展性能力。
3.1 动态 Workflow 编排
Agent Workflow 引擎提供可视化操作界面,允许业务用户根据自身需要拖拽节点到画布中并连接起来,每个节点是一个具有特定功能的独立组件,代表一个独立的步骤或逻辑,最终形成一个可执行执行指令的集合。核心在于将大模型的强大能力与特定业务逻辑相结合。
此外,悟空平台面向不同的场景,提供了任务流(专注处理复杂任务)、对话流(基于对话场景的特殊任务流)、语音流(基于语音交互的特殊对话流)等多种流类型,用户可自由切换以面向场景需要。
可视化界面展示:
3.2 Multi Agent 协作
为了解决重复开发相似功能 Agent Workflow 导致维护成本飙升,以及多场景 Agent 融合等问题,我们将 Agent Workflow 自身作为了一个扩展节点,支持在某个 Agent Workflow 编排中,动态引入多个 Child Agent Workflow,形成一个合作型 Multi-Agent。
3.3 落地打通
为了解决场内用户和业务便捷使用 大模型应用能力,彻底打碎最后一道屏障,悟空平台集成了 Lalabot(浏览器插件)、小程序、企业服务台、飞书机器人、开放 API&SDK 等预置使用渠道,提供统一的发布步骤,支持一键部署和下发多个使用渠道,供业务和用户自行适配所需场景。
以下是部分使用渠道展示:
稳定性建设
4.1 可观测性
大模型应用的一次运行过程,可能涉及大模型调用、提示词组装、知识检索、工具调用、历史记忆提取、Agent Planning、Action 下发、意图识别、流程控制、中间结果输出等多个动作的执行过程,最终输出一个终态的结果。
但终态结果是否符合用户预期,中间动作过程经历了什么及怎样追踪推理链路,最终结果如何复现,本次推理耗费了多少资源,花销了多少成本,这些都不得而知。
悟空平台的可观测性主要包含三方面:
4.2 可用性建设
货拉拉大模型应用落地
办公Copilot
货拉拉内部有着数十个服务台,例如办公、安全、运维、人事等。这些服务台数量众多,入口分散,运维困难。我们利用 Agent Workflow 实现场景融合,形成一个具有统一入口、涵盖公司内部重点服务能力的 AI Copilot。
车险报价
车险报价方案生成,业务需要处理多个公司图片形式的报价单,利用多模态大模型对比图片中的内容并生成报价方案。
智能体广场
随着大模型技术在场内的普及和 大模型应用开发体系的完善,技术和使用门槛降低,我们推进业务和用户打造大模型专属应用,并将这些应用整合起来,形成了智能体广场,其他业务和用户可以直接复用,无需重复造轮子。
展望与规划