技术应用 | 大语言模型在证券行业的应用测评分析_

文 / 湘财证券股份有限公司信息技术中心总经理邓纲

湘财证券股份有限公司李鹏吴星谕王郑毅刘文贵

大语言模型（LLM）包含数千亿参数，在大规模文本数据上训练，展现出强大的自然语言理解和复杂任务解决能力。第一个重要里程碑是OpenAI发布的ChatGPT，它优化了对话能力，能够在多轮对话中准确追踪上下文，且保持与人类价值观的一致性。GPT-4在语言模型的基础上进一步扩展到多模态信号，能够解决复杂任务，显著提升评估任务的性能。其他开源大语言模型如Llama-2、Falcon、ChatGLM3等也在迅速发展。LLM在金融领域展现出巨大潜力，逐渐成为处理金融问题的强大工具。金融大语言模型的起始是BloombergGPT，混合专业领域数据集的训练使其在金融任务上表现优秀，另外，首个针对中文金融领域优化的千亿级开源对话大模型是XUANYUAN，在金融场景的测评中，全面超越其他主流开源大模型。

金融证券领域的LLM应用对数据合规性、准确性、时效性要求高，需要私有化部署并进行个性化训练，因此存在训练数据和资源限制。我们尝试利用小型高质量指令数据集微调LLM，验证其在金融证券领域工作助手的有效性，构建了SecPile数据集用于微调训练，包含金融和通用数据集。基于金融领域常见场景设计评测集，对微调后的模型在通用能力和金融能力方面进行SecScope评测。

证券行业大模型研发进展

Transformer模型自2017年提出以来，通过注意力机制和自监督学习极大地提升了语言理解和生成能力，成为众多大语言模型如BERT、RoBERTa、T5等的基础。目前，技术如LoRA、P-tuning和Prompt-tuning展现了参数高效微调的优势，包括缩短训练时间、减少显存占用，并保持良好的泛化性，使用较少参数进行高效微调以获得更佳效果是主流趋势。

在金融领域，训练数据集的构成对模型性能有显著影响。研究表明多任务种类的微调数据，特别是COT数据，能进一步提升微调效果。数据质量被认为比数据集大小更重要，一个小规模高质量数据集可能优于大规模低质量数据集。BloombergGPT和XUANYUAN金融大模型通过不同比例的垂直领域数据和通用数据平衡专业知识与多元应用能力。通过不同的预训练模型和微调策略发掘金融领域大语言模型的潜力，例如通过混合调优方法缓解灾难性遗忘，为金融领域提供更加专业和精准的模型解决方案。

证券行业正处于推进金融与科技融合的关键阶段，77家证券公司将数字化转型作为公司发展的核心战略，意在实现高质量发展并全面服务实体经济。大模型技术在行业内的应用逐渐从零售经纪业务扩展到机构业务、资产管理、投资银行等多个领域。一些头部券商积极探索大模型技术在智能客服、数字化投行、智能投研、智能协作等细分应用领域的实际应用，中小券商也在积极利用AIGC技术提升自身的内容输出水平。基于大模型技术的语义理解和内容生成能力，行业内已有多家财富管理机构将其应用于生成符合要求的营销文案和推广策略，以提高营销效果和用户转化率。此外，AI数字人等新技术也逐渐在证券行业落地，部分机构正探索将其嵌入到开户流程、客户服务等具体业务办理中，与客户进行实时互动和沟通。为了支撑上述的技术应用，部分券商正持续提升数据、算力、算法等能力，强化AI中台技术沉淀和组件复用。但在实际应用中，合规、数据隐私保护等问题仍然需要重视。因此，行业需要进一步深度融合科技与业务，符合法律法规，方能实现科技在金融领域的价值。

SecPile金融与通用数据集

SecPile数据集包含金融和通用两个数据集，SecPile金融数据集由司内沉淀的问答数据和金融行业公开知识数据组成，经过预处理和迭代更新机制，保证时效性和准确性。数据集细分为金融从业考试知识点、金融基础信息、行业知识数据和金融NLP任务数据。金融从业考试知识点包括高质量试题和教材资料，涵盖证券、基金、期货等专业科目。金融基础信息来源于传统金融数据平台，包括上市公司、基金、债券等基础信息。行业知识数据来自证监会、证交所等，涵盖专业知识、法律法规等。金融NLP任务数据收集来自开源社区和比赛网站，包括文本摘要、实体识别、情感分析等任务，经过数据清洗和标准化处理，适用于模型微调和评测。

SecPile通用数据集由五个高质量的中英文微调数据集组成，覆盖多轮对话、文本创作、中英翻译、数据与编程等多领域任务。这些数据已在大型语言模型训练中展现有效性，经过彻底清洗和预处理，具备丰富多样性，支持模型在多领域、多场景下的训练和优化。数据集包括开放式问答与逻辑推理、文本生成与理解、交互式对话与翻译等类型，来源多样，通过自动化处理和人工审核确保数据质量。开放式问答与逻辑推理数据旨在提升模型的自然语言理解和逻辑推理能力；文本生成与理解数据集支持模型在复杂文本处理场景下的应用；交互式对话与翻译数据集增强模型在语言转换和逻辑编程方面的能力，确保了数据的高质量和实用性。

模型训练与调优过程

ChatGLM3-6B-Base是当前三个可选的开源基模型之一，以65.3分的最高综合得分，位列OpenCompass 1.0大语言模型榜单首位。该模型继承并发展了前代模型的优点，如流畅的对话体验和低门槛部署要求，同时引入新特性如Prompt格式和函数调用功能，优化多轮对话流畅性和连贯性，并支持复杂场景如代理任务。ChatGLM3通过多样化训练数据集、增加训练步骤和采用合理训练策略，提升学习效率和性能，在多任务上表现出色。ChatGLMForConditionalGeneration模型架构专为条件生成任务设计，包括词嵌入层、旋转位置嵌入技术、由28个GLMBlock组成的编码器和输出层，具备改进的长距离依赖处理能力、更高处理效率和准确性，以及更好的稳定性和性能。训练配置方面，优化了多项参数以提高模型性能，采用混合精度训练和Deepspeed框架，通过零冗余优化和Offload技术减少内存占用，实现更大参数量模型的训练。

我们基于BloombergGPT的经验，将初始学习率设定为6e-5，并使用带线性预热和线性衰减的学习率调度器（见图1）。通过不同学习率的控制变量训练，发现2e-5的学习率在训练过程中表现出更好的稳定性和平滑性（见图2）。为应对学习率下降过快的问题，我们采用了WarmupCosineLR策略进行更缓慢的学习率衰减，但这一调整并未显著改善损失曲线的最终值。进一步，我们通过调整weight_decay值从1e-6降低至1e-7，减小了损失函数的波动。综合考虑损失下降速度、最终损失值和训练过程的稳定性，我们选择了学习率为2e-5、调度器为cosine、权重衰减为1e-7的训练方案，以优化模型的性能和稳定性，最终微调训练成XCGLM证券垂类大语言模型。

SecScope通用与金融能力评测

大语言模型在通用能力方面需掌握跨学科知识进行推理，研究通过C-Eval、CMMLU、MMLU和AGIEval四个评测集评估模型的逻辑推理和数学计算能力，并构建专门的意图识别评测集评估模型对文本意图的理解能力。在金融领域，模型常应用于摘要生成、关键词提取、实体识别和情感分析等任务。我们设计了SecScope测试集，用来评估XCGLM在证券领域任务的表现，包括金融能力评估、摘要生成、关键词提取、实体识别和情感分析五部分。对FiQASA和FPB金融情绪分析数据集进行清洗和校准，构建了金融行业专用情感分析测试集。我们用上述情感分析测试集结合XSum、LCSTS、CSL评测集和新浪新闻等数据作为评估基准。

在参数量相近的情况下，大语言模型展现出了类似的性能水平，且随着参数量的增加，性能有显著提升。经过测试，针对金融特定任务专门化训练的模型，如XCGLM和Tongyi-Finance-14B，在通用能力上略逊于原始基础模型，但在金融领域的知识、从业能力和特定文本分析任务上表现卓越，尤其是在处理复杂特定提示词的任务时，XCGLM能更全面地遵循指令，产出更高质量的结果（见图3）。这证明了专业化训练对提升大语言模型在特定领域应用的实际效能的重要性，通过小型高质量数据集微调，能有效打造针对特定行业领域的工作助手，显著提升从业人员的工作效率，发挥重要作用。

总结与展望

本文探讨了大语言模型在证券领域的应用与优化，通过构建综合性的SecPile数据集，平衡模型的通用性和金融特性，提供丰富的微调和评测资源。选用ChatGLM3-6B-Base作为基础模型，优化其结构和训练配置，提升模型在金融领域任务集上的表现。微调后的模型有效完成金融实体识别、问答、关键词提取、情感分析等任务，提高金融从业人员工作效率。本文证明利用小型高质量指令数据集微调大语言模型的有效性，为构建特定领域工作助手提供经验。同时，也突显了大语言模型在金融领域的潜力及持续探索优化的重要性。

未来，大模型的发展更加侧重垂直领域应用，或分为行业应用和创新创意两个赛道。行业应用是对传统业务的赋能和颠覆，创新创意则是利用AIGC逻辑创造出新质生产力。对于证券行业，大模型赋能券商业务是我们接下来深入研究的方向，科技必须和业务场景结合，才能发挥相应的价值和能力。取经于“互联网+”的经验，在“AIGC+”时代下，进一步帮助企业和个人提质增效。对于信息技术部门来说，通过数据、算力、算法能力研发大模型应用开发平台是首要工作事项。在此平台上，基于目前大模型成熟的语义理解和内容生成能力，证券行业可以在营销软文创作、智能投顾、群聊智能助手、代码助手等方向寻求应用落地。随着大模型的能力逐步提升，大模型Agent与RPA机器人的结合是我们持续探索和落地的方向。

（此文刊发于《金融电子化》2024年6月上半月刊）