财经数据科学重点实验室举行2025年第006学术讨论


202547日至413日,财经数据科学重点实验室第006期学术讨论会在财数中心大楼举行。本期讨论会围绕“海洋数据科学研究与应用”“宏观经济预测”等主题,共开展两场学术讨论

47日晚,第一场学术讨论在财数中心大楼406会议室举行,中国宏观经济系统数字孪生团队中的“预测+文本+大模型小组”相关师生共30余人含线上参加了会议本次会议围绕“金融文本分析”“宏观经济预测”及“图检索增强生成(GraphRAG)”三个方向展开,共进行了3场专题汇报与研讨。

杜维美首先汇报了《经济学》(季刊)的一篇文献《调预期,防风险:央行金融稳定效果研究—基于文本分析的视角》(姜富伟等,2024)。文章主要利用Word2Vec算法(用来产生词向量的相关模型)构建了一款金融稳定沟通词典,测度了央行金融稳定沟通的文本情绪,填补了国内该领域研究的空白。文章方法上的创新在于其借助Mikolov等(2013)提出的Word2Vec算法将文本词语转化为词向量,生成的低维稠密向量不仅能够有效解决维度灾难的问题,而且基于词语间的上下文关系来对词向量进行训练,使得词向量中的每个维度都体现了词语的某些特定特征,可以通过计算词向量间的余弦相似度来表示词语之间的相似程度。该Word2Vec算法也可以应用到宏观经济系统的文本词典构建。

魏欣怡汇报的文献题目为“Real-timemeasurement of business conditionsS.BorağanAruoba 2009Journalof Business & EconomicStatistics)”。文章聚焦于实时高频测量经济活动的问题研究,为解决商业周期年表无法实时准确评估经济活动问题,提出了一个高频、潜在实时衡量商业状况或经济活动的系统、可复制的评估框架。利用多种混合频率(包括高频)的存量和流量数据,通过动态因子模型进行精确滤波,以实现对经济活动的高频、实时测量,并通过实证和模拟研究验证框架的有效性。文章所构建的框架提取的实际活动指标与NBER年表大致相符,但能更早显示转折点,且可高频获取,是有用的“即时预测”工具。同时,纳入高频数据可提高提取因子的准确性。该文献的研究思路和方法为宏观经济预测纳入更多类型指标、构建实时综合领先指数具有一定参考借鉴意义。

孙宾言介绍了微软开源的一种基于图的检索增强生成方法,可以对私有或以前未见过的数据集进行问答。其汇报题目为“FromLocal to Global: A GraphRAG Approach to Query-FocusedSummarization( 源自arXiv.org2024)”。主要介绍了GraphRAG的原理和工作流,以及优缺点等方面内容。传统的RAG(检索增强生成)是一种使用来自私有或专有数据源的信息来辅助文本生成的技术,因其可以有效应对大语言模型在诸如回答问题和内容生成等任务上的局限性,受到业内的广泛关注。而GraphRAG(图检索增强生成)能够从源文档中构建一个基于图的文本索引(知识图谱),并利用该索引生成对全局查询的综合且多样化的答案,在进行全局查询和摘要总结类任务上的表现要优于传统RAG。其主要优点在于分解文本为小型社区,克服了上下文窗口局限;并借助社区摘要技术,从全局数据中萃取信息,能够全局精准查询,善于处理摘要、总结类等复杂任务,显著提升模型对长文本的理解与生成能力,更准确、全面地检索关系信息。其缺点是需要大量的计算资源,耗时较长,计算成本高,受LLM(大语言模型)自身能力影响大,进而影响整个系统输出的质量,以及直接性较弱,在某些简单直接的任务情境下,输出的答案可能由于过于全面和复杂,导致提问者获取所需信息的难度增加,进而决策受到影响。

GraphRAG方法可以归结为:利用大型语言模型从知识的来源中提取知识图谱;将此图谱聚类成不同粒度级别的相关实体社区;对于RAG操作,遍历所有社区以创建“社区答案”,并进行缩减以创建最终答案,极大增强LLM在处理私有数据时的性能,同时具备连点成线的跨大型数据集的复杂语义问题推理能力。

410日下午,第二场学术讨论在景德镇景瀚大酒店举行,实验室师生共20余人参加了讨论会议。

本期会议围绕“海底地形反演与模型优化”,共开展6场专题汇报与研讨,涵盖以下方向:贝叶斯模型融合、空间异质性反演算法、双界面密度模型、多源卫星数据融合、神经网络反演算法、huber损失函数设计。

邓子威汇报的主题为《基于重力异常信号的数字海底地形模型融合:贝叶斯方法》,主要从垂向重力梯度与海底地形的物理关联性、贝叶斯融合方案设计、模型修正效果验证三个方面展开,提出了以垂向重力梯度为基准的融合方法,通过多波束测深数据修正Parker反演基础水深,精度提升约10米,可应用于复杂海域地形建模。

胡天英汇报的主题为《顾及空间异质性的海底地形反演算法》,主要从特征地形识别、地理位置矫正、与传统模型对比三方面展开,创新性引入空间异质性处理机制,反演结果RMSE较传统GGM降低11.5%,较GEBCO降低38%,适用于船测数据覆盖区域的精度优化。

化麓婷和曾嘉豪汇报的主题为“EnhancedBathymetry Prediction Using Parker's Method with a Double InterfaceModel from SWOT GravityData”,主要从双密度分界面模型构建、地质分层与密度不均因素分析、SWOT数据融合实验三方面展开,改进了Parker公式推导方法,通过分层实验验证了双层模型对反演精度的提升,可扩展至全球海域地形预测。

陶羽彤和周钰玮汇报的主题为《多源卫星平均海平面高估计及其融合》,主要从完全拟似然函数估计、局部核平滑方法、meta分析改进的交叉点平差法三方面展开,提出了卫星数据融合与格网化方案,为区域海平面高建模提供了新思路。

罗怡峰汇报的主题为《融合空间物理约束的神经网络水深反演算法》,主要从位置编码设计、注意力机制优化、物理损失函数计算三方面展开,构建了结合物理约束的神经网络框架,与传统模型相比在复杂地形反演中更具潜力,建议进一步与多波束数据对比验证稳定性。

饶佳丽汇报的主题为《残差自适应Huber损失(RAHL)CNN在海底地形反演中的应用》,主要从异常值抑制策略、损失函数鲁棒性分析、实验效果对比三方面展开,提出RAHL损失函数显著提升CNN模型稳健性,为船测数据异常值处理提供了新方法。