龙空技术网

AI研习丨优秀博士学位论文:面向互联网金融微观对象的数据挖掘

中国人工智能学会 1013

前言:

现在咱们对“数据挖掘分析论文”大约比较珍视,同学们都想要分析一些“数据挖掘分析论文”的相关内容。那么小编也在网摘上收集了一些对于“数据挖掘分析论文””的相关知识,希望各位老铁们能喜欢,姐妹们快快来学习一下吧!

摘 要

近些年,互联网金融市场的蓬勃发展对传统金融行业造成了巨大冲击;与此同时,互联 网金融市场中积累的海量用户和交易数据为研究智能化、个性化、精准化的服务提供了 支持。本文通过大数据驱动的研究方法,分别针对互联网金融平台中的参与三方——用 户、金融产品和市场管理进行了系统性的研究。在真实互联网金融数据上的实验结果验 证了本研究中所提出方法的有效性。

关 键 字

互联网金融;微观对象;数据挖掘;行为分析;推荐系统

0引言

互联网金融是指传统金融机构或者互联网企 业利用互联网等信息技术实现资金融通、支付、 投资和信息中介等服务的新型金融业务模式。互 联网金融是目前金融科技(Fintech)领域的重要 形态和研究对象之一。相比于传统金融,互联网金融具有效率高、成本低、范围广、操作方便等 优势。但是,互联网金融模式也在一定程度上造 成了金融市场门槛降低、市场流动性增大,以及 监管困难等问题。

互联网金融市场的易变性和业务复杂性对传 统经济学、金融学的研究范式提出了挑战。与此 同时,互联网金融市场中积累的海量用户和交易数据,也为研究者深入探索互联网环境下金融市场的潜在价值,解决互联网金融市场中存在的问题,开发大数据驱动的智慧金融服务带来了全新的机遇。

基于以上背景,本文调研了互联网金融的现状,并采用数据驱动的研究方法对互联网金融市场的主要微观对象(用户、产品和市场管理)分别开展了研究工作。本文主要工作与贡献可以概括如下:在用户方面,进行了智能投顾方法研究。具体地,针对用户如何选择借贷项目的问题,分别提出了基于风险管理的投资推荐方法和基于多目标优化的组合选择方法。

在金融产品方面,进行了产品和市场的建模与分析研究。具体地,针对互联网金融产品和市场动态,分别提出了层次时间序列预测方法和基于隐马尔可夫模型的市场状态建模方法。

在市场管理方面,进行了用户生命周期管理 研究。具体地,针对微观用户流动性,提出了面 向交易行为和用户流失的联合生存分析方法。

1 智能投顾方法研究

1.1 基于风险管理的投资推荐方法

在互联网金融市场中,用户面对纷繁多样的金融产品,难以做出高效的投资理财决策。为帮助用户投资决策,可以给每个投资用户生成个性化推荐。

针对互联网金融市场,本文提出了基于风险管理的投资推荐方法,如图1所示。该方法对每一个投资者配备个性化投资推荐组合,使其能够匹配用户的个性化偏好,并且达到降低风险的目的。具体来说,研究中首先提出了产品和投资者画像建模方法,并在此基础上,通过同时考虑投资者经验和偏好解决“选择哪些产品”的问题。进一步,根据投资组合理论,将投资者当前已经持有的投资产品纳入考虑,设计优化过程对每个候选推荐产品进行权重分配,达到最小化投资者风险的目的。

为评估所提出的方法,本文在Prosper数据 集上进行了大量实验,结果表明所提出的方法能 够在满足用户偏好的同时,提高用户的投资收益。

1.2 基于多目标优化的投资组合选择方法

事实上,用户在实际投资决策中的考虑非常复杂,并且会受到平台交易机制的影响。目前,很多互联网金融平台(特别是一些网络借贷平台)采用基于拍卖的交易机制。在这类平台上,理性用户在投资决策过程中往往追求多种目标,例如风险(产品违约概率)和交易效率(产品成功融 资概率和投标中标概率)等。另外,很多用户在投资中会同时选择多个产品作为组合投资。

针对这类市场,本文提出了一种基于多目标优化的组合选择方法,如图2所示。该方法能够在满足出借人利率偏好的基础上,同时最小化投资风险(产品违约概率)和最大化交易效率(成功融资概率、中标概率)。具体地, 研究中首先识别出当前市场中的活跃出借者, 作为后续选择服务的目标客户。然后,从三个目标维度对拍卖中的借款产品进行评估。本工作中同时构造了借款产品的静态和动态特征, 并且采用梯度提升决策树(GBDT)融合静态和 动态特征,提高评估预测效果。最后,给定识别出的活跃出借用户和评估后的产品,设计两种产品组合选择策略,即加权目标优化策略和多目标优化策略。加权目标优化策略利用一个目标权重向量将多个目标整合为单一目标,然 后给每个出借人推荐在该目标下唯一的最优借款产品组合。而多目标优化策略则同时优化多个目标,并且得到每个出借人在基于帕累托最优情况下的借款产品组合解集。具体地,基于 多目标优化的组合选择策略如下。

2.2 基于贝叶斯隐马尔可夫的市场状态建模方法

前面介绍了互联网金融市场融资动态预测研究;然而,如何根据市场动态观察变量挖掘和建模隐含的市场状态(例如火爆、冷门),还缺少相应的研究。事实上,由于在线金融市场的波动性和流动性非常高,识别市场状态是非常必要的。本研究通过在不同假设下扩展贝叶斯隐马尔可夫模型专门研究了网络借贷中市场状态建模 问题。具体来说,首先使用马尔可夫链结构来模拟市场状态的动态和顺序特征。在这里,假设借款产品市场状态受其自身属性影响,当前状态仅由其先前一个状态决定。基于此假设,本文提出 了建模市场状态的L-BHMM(Listing-Bayesian Hidden Markov Model)模型。但是,现实调查 结果表明,市场状况可能同时会受到市场形势的影响。因此,本文进一步设计了更全面的模型LM- BHMM(Listing and Market-Bayesian Hidden Markov Model)。L-BHMM和LM-BHMM 都可 以连接借款产品的隐藏市场状态和出借人的投标行为。

为了评估研究中所提出的方法,在Prosper 数据集上进行了实验,其结果充分地说明了所设计模型在市场状态建模及其相关应用任务上的有效性。

3 面向交易和离场行为的联合生存分析

互联网金融用户的流动性非常大,特别是在基于捐赠类众筹中,由于平台非营利性,用户流失(离场行为)问题更加严重。分析影响用户流失的原因,进而预测用户流失,是平台管理中非常重要的内容。研究中具体形式化重复捐赠交易和捐赠者保留两个协同预测任务。该研究具体目的在于预测捐赠者未来每个时间段是否会进行捐赠交易,以及捐赠者到未来某个时间是否仍然活跃在该平台上。事实上,捐赠者保留问题可以用生存分析技术解决。然而,传统的生存分析模型 擅长处理变量之间的线性关系。为了建模捐赠者保留问题中复杂的变量关系并且充分利用异构的特征,本文提出了联合深度生存模型(JDS)来 联合学习两个协同任务。如图4所示,JDS 主要包含输入组件(Input)、表示组件(Representation) 和预测组件(Prediction)三个组件。具体地,输 入组件负责初步地提取所有的异构特征;表示组件用来进一步学习每个特征向量表示;预测组件分别给出在两个任务上的结果。

捐赠者的重复捐赠行为与他在平台上的去留高度相关;另外,JDS模型的两层预测输出共享相同的特征输入和表示。因此,两个目标上的优化方向一定程度上是一致的。受到这些特点启发,本文开发了交替优化算法在两任务上联合训练JDS模型。

为了评估研究中所提出的方法,在众筹平台Kiva数据集上进行了分析和实验,其结果显著地表明了所提出方法在分析和预测重复捐赠交易行为和客户保留问题上的有效性。

4 结束语

本文系统性地开展了针对互联网金融微观对象的数据挖掘方法及应用的系列探索性研究工作。具体地,针对互联网金融市场主要微观对象(用户、 产品和市场管理),分别进行了研究。在微观用户方面,提出了基于风险管理的投资推荐方法和基于多目标优化的投资组合选择方法;在金融产品方面, 提出了面向融资动态的层次时间序列预测方法和基于贝叶斯隐马尔可夫的市场状态建模方法;在市场管理方面,提出了面向捐赠行为和用户流失的联合生存分析方法。通过在多个不同类型、具有代表性的互联网金融平台数据集上的实验,验证了本研究 中所提出系列方法的有效性。

(参考文献略)

选自《中国人工智能学会通讯》

2020年 第10卷 第2期 优秀博士学位论文精华版​​​​

标签: #数据挖掘分析论文