Hongyang (Bruce) Yang, Xiao-Yang Liu, Christina Dan Wang Hongyang (Bruce) Yang, Xiao-Yang Liu, Christina Dan Wang:金融大语言模型：开源金融大型语言模型

摘要

大语言模型（LLM）已经显示出在不同领域革命自然语言处理任务的潜力，引发了人们对金融的极大兴趣。访问高质量的金融数据是金融LLM（FinLLMs）面临的第一个挑战。虽然BloombergGPT等专有模型利用了其独特的数据积累，但这种特权访问需要一种开源的替代方案来实现互联网规模的金融数据民主化。
在本文中，论文提出了一个用于金融部门的开源大型语言模型FinGPT。与专有模型不同，FinGPT采用以数据为中心的方法，为研究人员和从业者提供可访问和透明的资源来开发他们的FinLLM。论文强调了自动数据管理管道和轻量级低秩自适应技术在构建FinGPT中的重要性。此外，论文还展示了一些潜在的应用程序，作为用户的垫脚石，如机器人咨询、算法交易和低代码开发。通过开源AI4Finance社区内的合作，FinGPT旨在刺激创新，使FinLLM民主化，并释放开放金融的新机遇。

1 介绍

人工智能的不断扩展和进化为大型语言模型的扩散提供了肥沃的土壤[Vaswani等人，2017；Radford等人，2018；Devlin等人，2018年；Ethayarajh，2019；Lewis等人，2019；刘易斯等人，2020；Brown等人，2020年；Thoppilan等人，2022]，从而实现了跨不同领域的自然语言处理格局的变革。这一全面的变化引起了人们对这些模式在金融领域的潜在应用的浓厚兴趣。然而，很明显，获取高质量、相关和最新的数据是开发有效、高效的开源金融语言模型的关键因素。

在金融领域使用语言模型揭示了复杂的障碍。这些问题包括获取数据的困难、处理不同的数据格式和类型、管理数据质量的不一致，以及对最新信息的基本要求。特别是，由于网络平台、API、PDF文档和图像等不同的数据介质，历史或专门的金融数据提取被证明是复杂的。

在专有领域，BloombergGPT[Wu et al.，2023]等模型利用其对专业数据的独家访问来训练特定于金融的语言模型。然而，他们的数据收集和训练协议的可访问性和透明度受到限制，这加剧了对更开放和包容的替代方案的需求。为了回应这一需求，我们正在目睹一种转变趋势，即在开源领域实现互联网规模的金融数据民主化。

在本文中，解决了上述与金融数据相关的挑战，并介绍了金融大型语言模型（FinLLM）的端到端开源框架FinGPT。FinGPT采用以数据为中心的方法，强调了数据采集、清理和预处理在开发开源FinLLM中的关键作用。通过支持数据可访问性，FinGPT渴望加强金融领域的研究、合作和创新，为开放金融实践铺平道路。

论文的贡献总结如下：
民主化：FinGPT作为一个开源框架，旨在使金融数据和FinLLM民主化，揭示开放金融中尚未开发的潜力。

以数据为中心的方法：认识到数据管理的重要性，FinGPT采用以数据为核心的方法，并实施严格的清理和预处理方法来处理各种数据格式和类型，从而确保高质量的数据。

端到端框架：FinGPT为FinLLM提供了一个全栈框架，共有四层：
–数据源层：该层确保全面的市场覆盖，通过实时信息捕获解决金融数据的时间敏感性问题。
–数据工程层：该层主要用于实时NLP数据处理，解决了金融数据中高时间敏感性和低信噪比的固有挑战。
–LLM层：该层专注于一系列微调方法，缓解了财务数据的高度动态性，确保了模型的相关性和准确性。
–应用层：展示实际应用和演示，该层突出了FinGPT在金融领域的潜在能力。

对FinGPT的愿景是成为刺激金融领域创新的催化剂。FinGPT不仅限于提供技术贡献，它还为FinLLM培养了一个开源生态系统，促进了实时处理和用户定制适应。通过在开源AI4Finance社区内培育强大的协作生态系统，FinGPT能够重塑我们对FinLLM的理解和应用。

2 相关工作

2.1 LLM和ChatGPT

大语言模型（LLMs）已被公认为自然语言处理的技术突破，如GPT-3和GPT-4[Brown et al.，2020]。它们采用基于Transformer的架构，在各种生成任务中表现出令人印象深刻的性能。

2.2 金融中的LLMs

LLMs已被应用于金融部门的各种任务[Dredze et al.，2016；Araci，2019；Bao et al.，2021；DeLucia et al.，2022]，从预测建模到从原始金融数据生成富有洞察力的叙述。鉴于这一领域的文本数据丰富，如新闻文章、电话财报会议记录和社交媒体帖子，最近的文献将重点放在使用这些模型进行金融文本分析。

金融LLMs的第一个例子是BloombergGPT[Wu et al.，2023]，它是在金融和一般来源的混合数据集上训练的。尽管其能力令人印象深刻，但访问限制仍然存在，高昂的培训成本促使人们需要低成本的领域适应。

论文的FinGPT应对了这些挑战，推出了开源金融LLM。它采用从人类反馈中强化学习（RLHF）来理解和适应个人偏好，为个性化财务助理铺平了道路。论文的目标是将ChatGPT等普通LLMs的优势与财务适应相结合，利用LLMs在金融方面的能力。

2.3 为什么选择开源FinLLM？

AI4金融基金会是一个非营利的开源组织，集成了人工智能（AI）和金融应用程序，包括金融大型语言模型（FinLLM）。凭借在培育金融科技（FinTech）工具创新生态系统方面的良好记录，如FinRL[Liu et al.，2021]和FinRL-Meta[Liu等人，2022]，该基金会准备进一步加速FinLLMs的发展。这是坚定的承诺和前沿的贡献，为人工智能在金融领域的变革性应用铺平了道路。

通过使FinLLMs民主化来促进平等机会：采用开源方法促进普遍获得最先进的技术，秉承使FinLLMs民主化的精神。

培养透明度和信任：开源FinLLMs全面概述了其基础代码库，增强了透明度和信任。
加速研究和创新：开源模式推动了人工智能领域的研究和开发进展。它使研究人员能够利用现有的模型，从而促进创新和科学发现的更快发展。
加强教育：开源FinLLMs是强大的教育工具，为学生和研究人员提供了通过直接参与全面运作的模型来探索FinLLMs复杂性的前景。
促进社区发展和协作参与：开源促进了全球贡献者社区。这种合作参与增强了该模型的长期耐用性和有效性。

3 以数据为中心的FinLLM方法

对于金融大语言模型（FinLLMs），成功的策略不仅基于模型架构的能力，而且同样依赖于训练数据。论文以数据为中心的方法优先考虑收集、准备和处理高质量数据。

3.1 金融数据和独特特征

金融数据来源多种多样，具有独特的特点。我们深入研究了不同财务数据来源的细节，如财务新闻、公司档案、社交媒体讨论和公司公告。

金融新闻报道了有关世界经济、特定行业和个别公司的重要信息。此数据源通常具有以下特点：
及时性：金融新闻报道是及时和最新的，经常捕捉金融世界的最新发展。
动态性：金融新闻中包含的信息是动态的，随着经济状况和市场情绪的变化而迅速变化。
影响：金融新闻对金融市场有重大影响，影响交易员的决策，并可能导致市场剧烈波动。

公司备案和公告是公司提交给监管机构的官方文件，为公司的财务健康和战略方向提供了见解。它们的特点是：

细粒度：这些文档提供了有关公司财务状况的细粒度信息，包括资产、负债、收入和盈利能力。
可靠性：公司填充物包含经监管机构审查的可靠且经过验证的数据。
周期性：公司的填写是定期的，通常每季度或每年提交一次，定期提供公司财务状况的快照。
影响力：公司公告通常对市场产生重大影响，影响股价和投资者情绪。

与金融相关的社交媒体讨论可以反映公众对特定股票、行业或整体市场的情绪。这些讨论往往表现为：

可变性：社交媒体讨论在语气、内容和质量上差异很大，使其成为丰富但复杂的信息来源。
实时情绪：这些平台经常捕捉实时市场情绪，从而能够检测公众舆论的趋势和变化。
波动性：社交媒体上表达的情绪可能高度波动，随着新闻事件或市场波动而迅速变化。

趋势通常可以通过Seeking Alpha、Google Trends等网站以及其他以金融为导向的博客和论坛观察到，为市场走势和投资策略提供了重要的见解。它们的特点是：

分析师视角：这些平台提供了经验丰富的金融分析师和专家的市场预测和投资建议。
市场情绪：这些平台上的话语可以反映对特定证券、行业或整个市场的集体情绪，为主流市场情绪提供有价值的见解。
广泛的覆盖范围：趋势数据涵盖不同的证券和细分市场，提供全面的市场覆盖范围。

这些数据源中的每一个都为金融世界提供了独特的见解。通过集成这些不同的数据类型，像FinGPT这样的金融语言模型可以促进对金融市场的全面理解，并实现有效的金融决策。

3.2 处理金融数据的挑战

时间敏感性高：金融数据具有时间敏感性。市场动态消息或更新一旦发布，为投资者提供了一个狭窄的机会窗口，使他们的阿尔法（衡量投资相对回报的指标）最大化。
高动态性：金融格局正在不断演变，每天都有新闻、社交媒体帖子和其他与市场相关的信息涌入。频繁地对模型进行再训练以应对这些变化是不切实际的，而且成本高昂。
低信噪比：金融数据通常表现出低信噪比[Liu et al.，2022]，这意味着有用的信息通常与大量无关或有噪声的数据相比相形见绌。从信息的海洋中提取有价值的见解需要复杂的技术。

解决这些挑战对于有效利用财务数据和最大限度地发挥FinLLMs的潜力至关重要。

4 FinGPT概述：FinLLM的开源框架

FinGPT代表了一个创新的开源框架，专门为在金融领域应用大语言模型（LLMs）而设计。如图1所示，FinGPT由四个基本组件组成：数据源、数据工程、LLMs和应用程序。这些组件中的每一个都在维护FinGPT在处理动态金融数据和市场条件方面的功能和适应性方面发挥着至关重要的作用。

数据源层：FinGPT管道的起点是数据源层，它协调从广泛的在线来源获取大量财务数据。该层通过整合新闻网站、社交媒体平台、财务报表、市场趋势等数据，确保全面的市场覆盖。目标是捕捉市场的每一个细微差别，从而解决金融数据固有的时间敏感性。

数据工程层：该层专注于NLP数据的实时处理，以应对金融数据固有的高时间敏感性和低信噪比的挑战。它结合了最先进的NLP技术来过滤噪声并突出显示最显著的信息。

LLMs层：它位于核心，包括各种微调方法，优先考虑轻量级自适应，以保持模型的更新和相关性。通过维护更新的模型，FinGPT可以处理金融数据的高度动态性，确保其响应与当前的金融环境同步。

应用层：FinGPT的最后一个组件是应用层，旨在展示FinGPT在实践中的适用性。它提供金融任务的实践教程和演示应用程序，包括机器人咨询服务、量化交易和低代码开发。这些实践演示不仅为潜在用户提供了指南，还强调了LLM在金融领域的变革潜力。

4.1 数据来源

FinGPT管道的第一阶段涉及从广泛的在线来源收集广泛的金融财务数据。这些包括但不限于：

财经新闻：路透社、CNBC、雅虎财经等网站是财经新闻和市场更新的丰富来源。这些网站提供了有关市场趋势、公司盈利、宏观经济指标和其他金融事件的宝贵信息。

社交媒体：推特、脸书、Reddit、微博等平台在公众情绪、热门话题以及对金融新闻和事件的即时反应方面提供了丰富的信息。

备案：美国证券交易委员会等金融监管机构的网站提供公司备案信息。这些文件包括年度报告、季度收益、内幕交易报告和其他重要的公司特定信息。证券交易所的官方网站（纽约证券交易所、纳斯达克、上海证券交易所等）提供有关股价、交易量、公司上市、历史数据和其他相关信息的重要数据。

趋势：像Seeking Alpha、Google Trends和其他专注于金融的博客和论坛这样的网站可以访问分析师的意见、市场预测、特定证券或细分市场的走势以及投资建议。

学术数据集：基于研究的数据集，为复杂的财务分析提供精心策划和验证的信息。

为了利用来自这些不同来源的丰富信息，FinGPT结合了能够抓取结构化和非结构化数据的数据采集工具，包括API、web抓取工具和直接数据库访问（如果可用）。此外，该系统旨在尊重这些平台的服务条款，确保数据收集符合道德和法律。

数据API：在FinGPT框架中，API不仅用于初始数据收集，还用于实时数据更新，确保模型在最新数据上进行训练。此外，还实施了错误处理和速率限制策略，以遵守API使用限制并避免数据流中断。

4.2 金融NLP的实时数据工程管道

金融市场实时运作，对新闻和情绪高度敏感。证券价格可能会因新信息而迅速变化，处理这些信息的延迟可能会导致错失机会或增加风险。因此，实时处理在财务NLP中是必不可少的。

实时NLP管道的主要挑战是有效地管理和处理连续流入的数据。管道中的第一步是建立一个实时获取数据的系统。这些数据可能来自我们的数据源API。以下是设计用于数据摄取的实时NLP管道的步骤。

数据清理：实时数据可能有噪声且不一致。因此，实时数据清理包括删除不相关的数据、缺失值处理、文本规范化（如小写）和错误更正。

标记化（Tokenization）：在实时应用程序中，标记化必须动态执行。这涉及到将文本流分解为更小的单元或标记。

停止词删除和词干/词干化：对于实时处理，可以使用预定义的停止词列表从tokens流中过滤出这些常见的单词。同样，词干和引理化技术可以用于将单词简化为词根形式。

特征提取和情感分析：特征提取包括将原始数据转换为机器学习模型可以理解的输入。在实时系统中，这通常需要一个快速高效的过程。可以使用诸如TF-IDF、Bag of Words或诸如Word2Vec之类的嵌入向量之类的技术。情感分析也可以对清理后的数据进行（将一段文本分为正面、负面或中性）。

提示工程：创建有效的提示，引导语言模型的生成过程达到理想的输出。

警报/决策：一旦输入提示，就需要对结果进行沟通或采取行动。这可能包括根据特定条件触发警报，通知实时决策过程，或将输出输入另一个系统。

持续学习：在实时系统中，模型应该适应数据的变化。可以实现连续学习系统，其中在新数据上定期对模型进行再训练，或者使用可以用每个新数据点更新模型的在线学习算法。

监控：实时系统需要持续监控，以确保其正常运行。管道中的任何延误或问题都可能产生直接影响，因此制定强有力的监控和警报非常重要。

4.3 大语言模型(LLMs)

一旦数据准备好，就可以与LLMs一起使用，以生成富有洞察力的财务分析。LLM层包括：

LLM APIs：来自已建立的LLMs的API提供基线语言功能。

可训练模型：FinGPT提供了可训练模型，用户可以对其私人数据进行微调，为金融应用程序进行定制。

微调方法：各种微调方法使FinGPT能够适应个性化的机器人顾问。

为什么要微调LLM而不是从头开始重新训练？

利用预训练的大型语言模型（LLM）并对其进行金融微调，为从零开始进行昂贵而漫长的模型再训练提供了一种高效、经济高效的替代方案。

BloombergGPT虽然在金融方面有着非凡的能力，但也有着密集的计算需求。它使用了大约130万GPU小时进行训练，当使用AWS云的2.3美元费率计算时，这意味着每次训练的惊人成本约为300万美元。与BloombergGPT等模型的高计算成本相比，FinGPT通过专注于顶级开源LLMs的轻量级改编，提供了一种更容易访问的解决方案。适应成本大幅下降，估计每次训练不到300美元。

这种方法确保了及时更新和适应性，这在动态金融领域至关重要。FinGPT是开源的，它不仅提高了透明度，还允许用户定制，以适应个性化金融咨询服务的兴起趋势。最终，FinGPT的成本效益高、灵活的框架有可能使金融语言建模民主化，并促进以用户为中心的金融服务。

通过低秩自适应（LoRA）进行微调

在FinGPT中，利用一个新的金融数据集对预训练的LLM进行微调。众所周知，高质量的标记数据是包括ChatGPT在内的许多成功LLMs的关键决定因素。然而，获取此类顶级标签数据往往在时间和资源方面代价高昂，而且通常需要金融专业人员的专业知识。

如果我们的目标是使用LLMs来分析金融相关的文本数据并协助量化交易，那么利用市场固有的标签能力似乎是明智的。因此，论文使用每个新闻项目的相对股价变化百分比作为输出标签。论文建立了阈值，根据新闻项目的情感将这些标签分为积极、消极和中性三类。

在相应的步骤中，在提示工程过程中，提示模型从正、负和中性输出中选择一个。此策略确保了预训练信息的最佳利用率。通过部署LLMs的低阶自适应（LoRA）[Hu et al.，2021；Dettmers et al.，2023]，将可训练参数的数量从61.7亿减少到仅367万。

通过股票价格强化学习进行微调（RLSP）

同样，可以用股票价格强化学习（RLSP）代替人类反馈强化学习，正如ChatGPT所使用的那样。这种替代背后的原因是，股价提供了一个可量化的客观指标，反映了市场对新闻和事件的反应。这使得它成为训练我们的模型的一个强大的实时反馈机制。

强化学习（RL）允许模型通过与环境的互动和接收反馈进行学习。在RLSP的情况下，环境是股票市场，反馈以股票价格变化的形式出现。这种方法使FinGPT能够完善其对金融文本的理解和解释，提高其预测市场对各种金融事件反应的能力。

通过将新闻情绪与相关股票的后续表现联系起来，RLSP提供了一种微调FinGPT的有效方法。从本质上讲，RLSP允许模型推断市场对不同新闻事件的反应，并相应地调整其理解和预测。

因此，将RLSP集成到FinGPT的微调过程中，为提高模型对金融市场的理解和预测准确性提供了强有力的工具。通过使用实际股价走势作为反馈，直接利用市场的智慧使FinGPT模型更加有效。

4.4 应用

FinGPT可以在金融服务中找到广泛的应用，帮助专业人士和个人做出明智的财务决策。潜在应用包括：

智能投顾：提供个性化的财务建议，减少定期面对面咨询的需要。
量化交易：为明智的交易决策产生交易信号。
投资组合优化：利用众多经济指标和投资者档案，构建最佳投资组合。
金融情绪分析：评估不同金融平台的情绪，以获得富有洞察力的投资指导。
风险管理：通过分析各种风险因素制定有效的风险策略。
金融欺诈检测：识别潜在的欺诈交易模式，以增强金融安全。
信用评分：根据金融数据预测信用度，以帮助贷款决策。
破产预测：根据财务和市场数据预测公司的潜在破产或破产。
并购预测：通过分析财务数据和公司简介来预测潜在的并购活动，帮助投资者预测市场走势。
ESG（环境、社会、治理）评分：通过分析公开报告和新闻文章来评估公司的ESG评分。
低代码开发：通过用户友好的界面促进软件创建，减少对传统编程的依赖。
金融教育：担任人工智能导师，简化复杂的金融概念，提高金融素养。

通过将这些不同但相互关联的组件联系起来，FinGPT为在金融领域利用人工智能、促进金融行业的研究、创新和实际应用提供了一个全面且可访问的解决方案。

5 总结

总之，大语言模型（LLM）与金融部门的变革性整合带来了独特的复杂性和巨大的机遇。应对高时间敏感性、动态金融环境和金融数据信噪比低等挑战需要高效的解决方案。FinGPT通过利用预先存在的LLMs并根据特定的金融应用对其进行微调，做出了创新性的回应。与BloombergGPT等模型相比，这种方法显著降低了适应成本和计算需求，为金融语言建模提供了一种更易于访问、更灵活、更具成本效益的解决方案。因此，它能够持续更新，以确保模型的准确性和相关性，这是动态和时间敏感的金融世界中的一个关键方面。

6 未来工作

FinLLMs，或金融大语言模型，呈现了一个未来的愿景，个性化的机器人顾问或助手触手可及。它旨在使获得高质量财务建议的途径民主化，利用先进的语言建模技术来理解大量的财务数据，并将其转化为可操作的见解。以下蓝图概述了FinLLM的未来方向。

个性化：FinLLM战略的核心是个性化微调的概念。FinLLM使用LoRA和QLoRA等技术，使用户能够根据自己的特定需求定制模型，从而创建个人机器人顾问或助手。这与金融服务定制的更广泛趋势相一致，因为消费者越来越多地需要符合其独特风险状况和财务目标的个性化建议。
开源和低成本适应：FinLLM支持开源价值观，为用户提供所需的工具，以低成本（通常在100美元至300美元之间）将大型语言模型（LLM）适应自己的需求。这不仅使人们能够民主地获得先进的金融建模技术，而且还培养了一个充满活力的开发人员和研究人员社区，共同推动金融人工智能领域的发展。
获得高质量的金融数据：FinLLM不仅提供建模技术，还提供了获得高质量金融数据的机会。这确保了用户拥有有效训练其模型所需的数据，同时也简化了数据管理过程。通过提供带有演示的数据管理管道，用户能够充分利用其财务数据的潜力，进一步增强了这种访问能力。

附：论文英文版

2306.06031 下载

Post Views: 299

Hongyang (Bruce) Yang, Xiao-Yang Liu, Christina Dan Wang Hongyang (Bruce) Yang, Xiao-Yang Liu, Christina Dan Wang:金融大语言模型：开源金融大型语言模型

1 介绍

2 相关工作

2.1 LLM和ChatGPT

2.2 金融中的LLMs

2.3 为什么选择开源FinLLM？

3 以数据为中心的FinLLM方法

3.1 金融数据和独特特征

3.2 处理金融数据的挑战

4 FinGPT概述：FinLLM的开源框架

4.1 数据来源

4.2 金融NLP的实时数据工程管道

4.3 大语言模型(LLMs)

4.4 应用

5 总结

6 未来工作

评论

发表回复 取消回复

更多文章

海瑞：治安疏

陈志武 等：清代妻妾价格研究——传统社会里女性如何被用作避险资产

顾春芳：敦煌星图与古代天文[节]

李泽椿 等：从“75·8”到“21·7”的思考

发表回复取消回复

陈志武等：清代妻妾价格研究——传统社会里女性如何被用作避险资产

李泽椿等：从“75·8”到“21·7”的思考