金融大模型落地实践

分享嘉宾｜杨剑奇富科技高级算法总监
出品社区｜DataFun

奇富科技是中国卓越的人工智能驱动的信贷科技服务平台，目前合作的金融机构超越 150 家，有 2 亿 + 注册用户，累计放款 1.7 万亿 +，今天由奇富科技的高级算法总监杨剑老师给大家带来分享。

分享主要从以下四个方面展开

1. 金融大模型特点

2. 如何构建金融大模型

3. 金融大模型落地实践

4. Q&A

金融大模型特点

金融行业中数字化和科技化的发展历史悠久，从传统的纸质单据到数字单据的数字金融，再到利用互联网技术的智慧金融，之后是大数据和深度学习技术带来的大数据金融时代，而现在进入了利用大模型能力辅助人工判断的大模型金融阶段。

大模型辅助人工判断是金融行业数字化的未来方向，将带来金融科技属性的又一次飞升。

金融行业大模型就像一辆在高速路上行驶的汽车：汽车中控是业务理解，控制汽车的行驶状态和行驶方向；方向盘是安全合规，指导金融行业大模型的安全，防止跑偏；金融行业独有的数据是汽车的燃料，金融行业数字化由来已久，所以私域数据十分丰富，大模型训练需要大量公开数据和独有数据，帮助大模型向前发展；逻辑推理是发动机和动力系统，大模型的一个优势在于逻辑推理能力，包括信息抽取、总结能力等；算力储备是轮胎，保证车能正常行驶。

在车辆外围也有一些比较重要的东西，道路是行业规范和安全隐私保护，这是金融行业非常关注的。复杂的金融业务场景是指示牌，会提示高速行驶汽车如何准确到达目的地。

一辆汽车为了到达目的地，在行驶过程中需要不断调整运行方向和速度，客户营销、增长获客、资金管理、风险管理是主营的业务场景，其他场景比如代码开发、企业内部服务功能是围绕主营业务展开的。金融行业的容错率比较低，在风险管理场景中，一批客户的误判会造成比较严重的资损，一旦发生错误，会花费大量时间和成本。

行业经营规范是车道，根据不同车型要求不同的行驶车道。安全隐私保护是车道外的白实线。

金融行业大模型这辆车一定是有人驾驶的，是和人相互配合的，而不是代替人，大模型会给予驾驶者一系列反馈和风险提示帮助。风险辅助识别是相对困难的，因为行业容错率低的特性，大模型在这块仍有一定的提升空间。

为什么市面上的通用大模型提供基础服务能力后，还需要金融领域大模型的存在？举个例子：飞艇、帆船等是交通工具，但是无法在高速公路行驶，通用大模型好比抽象的交通工具，代表了通用领域能力，不是具象化的交通工具概念。金融领域的私域语料丰富，无法在公开市场采购或者获取到，会导致金融领域大模型有自身独特的需求。

如何建设金融大模型

1. 金融行业大模型特性

金融行业大模型和其他行业存在着一些差异，主要可以归纳为两大部分：“软”实力和“硬”功夫。

“软”实力部分，首先，金融场景的业务范围比较广泛，同时有一些垂直领域的要求，因此需要对业务场景有深入而敏锐的洞察；另外，由于行业特殊的规则，要求合规严控。

“硬”功夫方面，首先，由于业务场景多样，数据非常丰富；另外，技术储备持续多元；同时，算力规模虽然不一定很大，但要保持充足并持续可用。

下面具体来看这五大特性。

业务场景洞察，是要对业务有深入的理解，实现业务指标（如转化率、收入等）和 ROI 的提升，并了解客户构成和人群特征，提升 KYC 和客户满意度。同时，防范风险，配合合规改造。最终通过技术为业务赋能。

严控合规方面，理解并总结金融规范；针对非法信息和域外信息进行过滤，构建信息围栏；人工介入抽查/抽检和规则的管理。

数据方面，丰富的私域数据构成了金融领域大模型和其他领域大模型的差异。私域数据包括金融图谱和用户对话、金融用户行为、高频用户对话数据、高度定制化数据、行业报告、解读类的数据等。

数据需要经过提炼，有价值的、准确的数据才有益于模型的训练。一般数据处理包括：低质过滤、冗余去除、质量控制和数据分类、隐私消除和数据筛选、token 切分和数据排序拼接。

技术储备也在持续多元，主要是多模态和 NLP 领域，长期应用及落地判别式和生成式 NLP 技术、CV 图像等技术，具体技术包括：

语音机器人：覆盖全场景的信贷专属智能外呼机器人。
图文识别：自研信贷场景专属高识别精度 OCR、图像反欺诈。
自然语言任务：大规模的 NLP、NLU、NLG 自研算法辅助风险管理、意图识别、广告营销。
知识图谱：利用文本数据、关系数据，规模化构建图谱型知识库。
大语言模型：在当前大语言模型井喷之前，主要是短语、短句，营销短信的生成，用以提高人效。

算力方面也有着一定的积累，需要合理高效地利用。包括训练推理优化、弹性调度、多样性混合部署，金融行业未来的部署一定是私有化部署，基于合规要求，数据不能进入域外，故而私有化是必然的。

2. 技术框架

接下来分层介绍大模型的架构。

数据层：包括金融领域数据和通用领域数据。其中金融领域数据主要来自行业报告、咨询、公司财报、金融图谱、行为数据、用户对话等等。在通用领域数据，会挖掘和金融交叉的相关数据，从而使得金融领域大模型主要具备金融领域专家能力，同时具备一些其他和金融相关领域的专家能力，比如国民经济发展和社会行业发展数据等会被引入作为大模型训练数据。

数据工程层：包括数据处理、数据配比和指令 Prompt。数据处理主要是去重、目标语言识别等工作。数据配比相对而言没有过多的理论指导方法，更多是通过一些实践进行尝试，时间和算力成本相对有限，无法无限去进行多组尝试，故而考虑减少大模型参数，保证可以快速尝试数据配比所带来的提升和价值。指令是将针对情感分析、阅读理解、指标预测、领域问答等通用场景或金融场景的能力注入到大模型中。

大模型层：金融领域大模型是 L1 层的金融大模型，针对特定任务，在 L1 层大模型基础上，面向最顶层应用层中风控、电销等应用进行微调，使得模型具备解决特定任务的能力。

评测层：每一层有对应的评测要求，数据层主要是针对数据质量的评估，数据工程层中则是针对数据配比和训练数据进行评估，大模型层包括金融和通用测评集，也会自建测评集。应用效果的测评是需要厘清业务收益和业务效果。

3. 技术流程

领域大模型构建的技术流程主要分为三部分：

金融领域大规模语言模型构建：将金融领域的信息知识注入到通用模型中，为构建领域能力提供基础。
通用/金融领域能力注入：使得模型具备解决金融问题的能力。
特定任务应用：面对任务应用落地的目标，关于特定领域的任务进行微调，包括任务数据、指令构造、任务结果追踪。

4. 测评方案

测评内容的类型包括：主观题和客观题。其各有优缺点，可以形成互补，主要从评测效果来配比两部分内容。

测评内容难度分为初高中、本科以上、专业领域。

测评方式包括人工测评、自动化测评、更大规模参数大模型辅助测评。选择测评方式的配比在不同阶段是不同的，比如在大模型迭代中，更倾向自动化测评和更大规模参数大模型辅助测评，人工测评占比较少。因为需要人工是需要经过专业培训的，即使已经具备一定的专业知识，对数据直接标注，也是相对困难的。没有形成固定方法论之前主要是快速测评。等大模型定版后，则会考虑加入更大比重的人工测评，以论证大模型的能力。

测评范围包括通用领域、垂直领域以及专业任务领域。

金融大模型落地

1. 利用大模型提升质检效率

首先来介绍，大模型是如何帮助我们提高质检效率的，这里的质检指的是通话质量检测。

质量检测既有规则也有人工判断，下面从大模型训练和结果生成、结果复盘几个模块进行流程梳理。

训练数据包括舆情、法规、脱敏通话，还有对于质检比较重要的客诉和问题反馈等。将脱敏的通话数据输入大模型，并通过人工指令设置检测范围，进行推理。生成的质检结果要经过审核员的复审，审核通过后会生成质检报告，反馈给业务团队，进行质量复盘。

目前质检业务场景已经完成 100% 覆盖，相对于原有的人工加传统模型识别的方式，检出率有 15% 的提升。

2. 利用 AIGC 能力批量生成广告素材

包括素材生产、素材管理、素材投放三个环节。成品素材利用 AIGC 能力进行成品生成和变换，再利用 AI 能力进行素材打标，包括类别、颜色、版式、场景等，为后续机审和人审提供依据。基于 70% 的素材覆盖规模，可以达到客户触达规模提升 21.4% 的投放效果。

3. 利用大模型挖掘销售线索

过往电话销售产生大量客户对话数据，从这些数据中可以挖掘一系列客户营销线索，包括机器人和人的通话记录、坐席通话记录，脱敏后进行模型训练。如何定义销售线索的数据，和信贷领域关联较强。应用场景包括坐席转接、主动外呼、协销（之前的坐席转到下个坐席的过程中，信息是不连续的，但其实历史交流坐席的主题内容能够帮助后续坐席提前预判本次销售的成功率和营销沟通话术）。应用效果为，线索识别准确率 98%，人效提升 3.1%，转化率提升 4.6%。

4. 结合大模型推理能力和知识图谱进行智能问答

最后一部分介绍下大模型推理能力和知识图谱结合的智能问答服务。首先利用思维链，从用户提问中识别用户意图、实体构成、所需的属性、实体和属性的关系等构成要素。再利用大模型微调，生成图谱查询语句，去知识图谱中查询具体内容，交给另一个微调大模型，完成后输出给客服人员，再由客服人员判断、筛选、修改后反馈给用户。

知识图谱存储的信息除了通用信息，还会包括用户自身的问题。从用户提问中找到用户的主要诉求点，再根据图谱抽取、传播的能力，进行多级查询，信息扩充，使得生成结果更精准、自然。

最后需要重申的是，金融领域大模型所扮演的角色，应该是单一或者有限几个领域的专家，并非代替人工进行金融决策和判断，在金融体系中，操作人员仍然是掌舵人。

Q&A

Q1：素材生成中，模型是自己训练的吗？Prompt 这部分是否有特殊技巧？素材生成的压制和替换可以详细介绍下吗？

A1：这块并没有过多依赖文字描述，应用场景更多是利用 AIGC 的能力直接进行替换和压制。素材完成预生成后形成素材库，从过往广告投放中消费比较好的素材中抽取关键信息，再结合之前比较成熟的模版直接进行压制。这里 AIGC 更多是进行各种元素的组合。

Q2：识别用户意图在金融领域中的作用是什么？意图一定能识别准确吗？如果不准确，应当如何处理？

A2：意图识别是很重要的，无论是问答场景还是线索挖掘场景，用户的通话和输入的文本中构成用户的主旨，意图识别中会提前预设可能的场景。在限定分类前提下，提示大模型从上述前提进行识别。域外信息的识别上，一部分是哪些信息可以被召回，另一部分是不在需求中的信息会被丢弃。

Q3：挖掘营销线索的时候，大模型的能力是如何实现的？如何提取关键信息？

A3：先对关键信息进行人工标注，同步嵌入所需识别的信息，哪些是需要识别的线索意图。一般有两种方法：人工标注以及更大规模参数的大模型辅助发散寻找额外意图。这两部分作为后续大模型的指令或者微调中所需意图。营销线索不是发散的营销线索，仍然是在一定范围内的，不是开放领域的营销线索挖掘。

以上就是本次分享的内容，谢谢大家。

金融大模型落地实践

分享主要从以下四个方面展开

金融大模型特点

如何建设金融大模型

1. 金融行业大模型特性

2. 技术框架

3. 技术流程

4. 测评方案

金融大模型落地

1. 利用大模型提升质检效率

2. 利用 AIGC 能力批量生成广告素材

3. 利用大模型挖掘销售线索

4. 结合大模型推理能力和知识图谱进行智能问答

Q&A

相关推荐

清华大学科技政策研究中心：2018人工智能发展报告

ChatGPT聊金融：什么是AI诈骗？银行如何防止AI诈骗？

甲子光年：中国AI产业地图研究（55页）

人工智能在WEB安全中的实践-冯景辉

亿欧智库：2018中国人工智能投资市场研究报告

IBM 商业价值研究院：通过人工智能和自动化获得竞争优势（12页）

分享到: