数据挖掘技术在金融领域的应用

2024-10-18 来源：威能网

数据挖掘技术在金融领域的应用

武扬

金融部门每天的业务都会产生大量数据，利用目前的数据库系统可以有效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段，导致了数据爆炸但知识贫乏的现象。与此同时，金融机构的运作必然存在金融风险，风险管理是每一个金融机构的重要工作。利用数据挖掘技术不但可以从这海量的数据中发现隐藏在其后的规律，而且可以很好地降低金融机构存在的风险。学习和应用数据挖掘技术对我国的金融机构有重要意义。

1.数据挖掘概述

1.1 数据挖掘的定义

对于数据挖掘，一种比较公认的定义是W.J.Frawley，G.Piatetsk Shapiro 等人提

出的。数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识、这些知识是隐含的、事先未知的、潜在有用的信息，提取的知识表示为概念(Concepts ) ，规则(Rules )、规律

(Regularities )、模式(Patterns)等形式。这个定义把数据挖掘的对象定义为数据库。

随着数据挖掘技术的不断发展，其应用领域也不断拓广。数据挖掘的对象已不再仅是数据库，也可以是文件系统，或组织在一起的数据集合，还可以是数据仓库。与此同时，

数据挖掘也有了越来越多不同的定义，但这些定义尽管表达方式不同，其本质都是近似的，概括起来主要是从技术角度和商业角度给出数据挖掘的定义。从技术角度看，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程。它是一门广义的交叉学科，涉及数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化等多学科领域且本身还在不断发展。目前有许多富有挑战的领域如文本数据挖掘、Web信息挖掘、空间数据挖掘等。从商业角度看，数据挖掘是一种深层次的商业信息分析技术。它按照企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性并进一步将其模型化，从而自动地提取出用以辅助商业决策的相关商业模式。

1.2 数据挖掘方法

数据挖掘技术是数据库技术、统计技术和人工智能技术发展的产物。从使用的技术

角度，主要的数据挖掘方法包括：

1.2.1 决策树方法：利用树形结构来表示决策集合，这些决策集合通过对数据集的分类产生规则。国际上最有影响和最早的决策树方法是ID3方法，后来又发展了其它的决策树方法。

1.2.2 规则归纳方法:通过统计方法归纳，提取有价值的if- then规则。规则归纳技术在数据挖掘中被广泛使用，其中以关联规则挖掘的研究开展得较为积极和深入。

1.2.3 神经网络方法：从结构上模拟生物神经网络，以模型和学习规则为基础，建立3

种神经网络模型：前馈式网络、反馈式网络和自组织网络。这种方法通过训练来学习的非线性预测模型，可以完成分类、聚类和特征挖掘等多种数据挖掘任务。

1.2.4 遗传算法：模拟生物进化过程的算法，由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。为了应用遗传算法，需要将数据挖掘任务表达为一种搜索问题，从而发挥遗传算法的优化搜索能力。

1.2.5 粗糙集(Rough Set)方法：Rough集理论是由波兰数学家Pawlak在八十年代初提出的一种处理模糊和不精确性问题的新型数学工具。它特别适合于数据简化，数据相关性的发现，发现数据意义，发现数据的相似或差别，发现数据模式和数据的近似分类等，近年来已被成功地应用在数据挖掘和知识发现研究领域中。

1.2.6 K2 最邻近技术：这种技术通过K个最相近的历史记录的组合来辨别新的记录。这种技术可以作为聚类和偏差分析等挖掘任务。

1.2.7 可视化技术：将信息模式、数据的关联或趋势等以直观的图形方式表示，决策者可以通过可视化技术交互地分析数据关系。可视化数据分析技术拓宽了传统的图表功能，使用户对数据的剖析更清楚。

1.3.数据挖掘在金融行业中的应用

数据挖掘已经被广泛应用于银行和商业中，有以下的典型应用：

1.3.1 对目标市场(targeted marketing)客户的分类与聚类。例如，可以将具有相同储蓄和货款偿还行为的客户分为一组。有效的聚类和协同过滤( collaborative filtering)方

法有助于识别客户组，以及推动目标市场。

1.3.2 客户价值分析。在客户价值分析之前一般先使用客户分类，在实施分类之后根据“二八原则”，找出重点客户，即对给银行创造了80%价值的20%客户实施最优质的服务。重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度；通过对交易数据的详细分

分析鉴别哪些是银行希望保持的客户；通过挖掘找到流失的客户的共同特征，就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。

1.3.3 客户行为分析。找到重点客户之后，可对其进行客户行为分析，发现客户的行为偏好，为客户贴身定制特色服务。客户行为分析又分为整体行为分析和群体行为分析。整体行为分析用来发现企业现有客户的行为规律。同时，通过对不同客户群组之间的交叉挖掘分析，可以发现客户群体间的变化规律，并可通过数据仓库的数据清洁与集中过程，将客户对市场的反馈自动输人到数据仓库中。通过对客户的理解和客户行为规律的发现，企业可以制定相

应的市场策略。

1.3.4 为多维数据分析和数据挖掘设计和构造数据仓库。例如，人们可能希望按月、按地区、按部门、以及按其他因素查看负债和收入的变化情况，同时希望能提供诸如最大、最小、总和、平均和其他等统计信息。数据仓库、数据立方体、多特征和发现驱动数据立方体，特征和比较分析，以及孤立点分析等，都会在金融数据分析和挖掘中发挥重要作用。

1.3.5 货款偿还预测和客户信用政策分析。有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法，如特征选择和属性相关性计算，有助于识别重要的因素，别除非相关因素。例如，与货款偿还风险相关的因素包括货款率、资款期限、负债率、偿还与收入(payment-to -income)比率、客户收入水平、受教育程度、居住地区、信用历史，等等。而其中偿还与收入比率是主导因素，受教育水平和负债率则不是。银行可以据此调整货款发放政策，以便将货款发放给那些以前曾被拒绝，但根据关键因素分析，其基本信息显示是相对低风险的申请。

1.3.6 业务关联分析。通过关联分析可找出数据库中隐藏的关联网，银行存储了大量的客户交易信息，可对客户的收人水平、消费习惯、购买物种等指标进行挖掘分析，找出客户的潜在需求;通过挖掘对公客户信息，银行可以作为厂商和消费者之间的中介，与厂商联手，在掌握消费者需求的基础上，发展中间业务，更好地为客户服务。

1.3.7 洗黑钱和其他金融犯罪的侦破。要侦破洗黑钱和其他金融犯罪，重要的一点是要把多个数据库的信息集成起来，然后采用多种数据分析工具找出异常模式，如在某段时间内，通过某一组人发生大量现金流量等，再运用数据可视化工具、分类工具、联接工具、孤立点分析工具、序列模式分析工具等，发现可疑线索，做出进一步的处理。数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势，这些信息对于决策或规划是有用的，金融行业数据的挖掘有助于根据顾客的流量安排工作人员。可以挖掘股票交易数据，发现可能帮助你制定投资策略的趋势数据。挖掘给企业带来的潜在的投资回报几乎是无止境的。当然，数据挖掘中得到的模式必须要在现实生活中进行验证。

2 基于小波分析和支持向量机的指数预测模型

小波分析理论是目前科学界和工程界讨论和研究最多的课题之一，它包含了丰富的数

学内容，又具有巨大的应用潜力。小波分析是在Fourier分析的基础上发展起来的，是调和分析近半个世纪以来的结晶。其基本思想是将一般函数（信号）表示为规范正交小波基的线性叠加，核心内容是小波变换。由于小波变换在时域和频域具有良好的局部化性质，能自动调整时、频窗口，以适应实际分析需要，因而已成为许多工程学科应用的有力工具。在进一步介绍小波分析理论之前，我们先了解一下金融时间序列的概念。

支持向量机（support vector machine, SVM）是数据挖掘中的一项新技术，是借助于最优化方法解决机器学习问题的新工具。它成为克服“维数灾难”和“过学习”等传统困难的有效办法，虽然他还处在飞速发展的阶段，但它的理论基础和实现途径的基本框架已经形成。支持向量机目前主要用来解决分类问题（模式识别，判别分析）和回归问题。而股市行为预测通常为预测股市数据的走势和预测股市数据的未来数值。而当我们将走势看作两种状态（涨、跌），问题便转化为分类问题，而预测股市未来的价格是指为典型的回归问题。我们有理由相信支持向量机可以对股市进行预测。

2.1 金融时间序列概况

金融市场是国家经济生活的核心，寻找其中的变化规律，进行有有效合理的管理是各国政府及相关研究机构孜孜以求的目标之一。同时，人们对金融预测也作了大量的探索，取得了丰硕的成果。典型的金融预测是时间序列预测。金融市场的数据绝大多数都是时间序列数据，即指这些数据是按照时间的排序取得的一系列观测值，如股票或期货价格、货币利率、外汇利率等。这些数据具有非常复杂的变化规律，而利用一定的数学方法对其进行分析和研究将有助于制定更为精确的定价和预测决策，当然对于金融投资与风险管理活动具有十分重要的意义。金融时间序列分析主要是以统计理论和方法为基础，通过模型假设、参数估计、回归分析等技术来描述其内在的规律。适当的数学工具和真实的数据使金融时间序列分析成为金融经济研究中独具魅力的一块领域，例如美国经济学家Engle和英国

经济学家Granger就因其提出的ARCH模型和协整理论而荣获2003年度诺贝尔经济学奖。

一般来说，时间序列的分析可以通过时域和频域两个途径进行。但是很多金融时间序列表现出较强的非平稳性和长记忆性，这使得许多传统的单独集中于时域或频域的研究分析方法已经不再适用。而小波分析作为一种新型的信号分析方法，因其在时域和频域都具有表征信号局部特征的能力，被誉为“数学显微镜“，因而它非常适用于分析分平稳信号。小波分析是近20年发展起来的新兴数学分支，也是目前数学界和工程界讨论最多的话题之一。并且已经在信号和图像处理、模式识别、语音识别、地震勘测等众多学科中得到了广泛应用。相对来说，其在金融时间序列分析和建模中的应用却相对较少。但近年来，小波分析方法在金融时间序列分析中的重要地位已经越来越受到人们的关注。

2.2小波消噪在金融时间序列中的应用

金融市场中数据由于各种偶然因素的影响，即使不存在暗箱操作，或没有什么重要新闻、重要政策出台，也会表现一种小幅的随机波动。这些随机波动可以看成是信号的噪声，不具有分析和预测的价值，而且这些随机波动往往严重地影响了进一步的分析和处理。因而在做金融事件序列的建模分析之前，往往对数据进行预处理，消除这些噪音。

小波消噪的步骤：为了更有效的预测金融市场的未来趋势，我们可以将大幅波动作为有用信号保留，而将小的波动作为噪音消除，先将数据进行预处理之后，再做时间序列的建模分析。假设原始的时间序列S0 ，建模的基本步骤如下：

1、小波分解；选择合适的小波函数和小波分解的层次，计算时间序列S0到第N层的小波分解。即首先对含噪音信号s(k)进行小波变换，得到一组小波系数wf(j,k)根据多分辨率分析理论，分解的层次越高，去掉的低频成份就越多，而低频成份主要代表有用信号。

因而分解的层次越高，去噪效果越好，但是相应的失真程度也越大。

2、阀值处理；将分解得到的小波系数进行阀值处理来区分信号和噪声。阀值的确定对消噪性能有很大影响，阀值过高会使信号失真，阀值过低又会使得消噪不完全。一般来说，选定阀值可以有以下几种常用准则：（1）无偏风险估计准则(rigrsure)，即一种基于Stein的无偏似然估计原理的自适应阀值选择方法，对每个阀值求出对应的风险值，风险最小的即为所选；（2）固定阀值准则(sqtwolog)，设n为小波系数向量长度，则设定阀值为

Tr2logn；（3）混合阀值准则：用于最优预测变量阀值的选择，它是rigrsure准则和

sqtwolog准则的混合。（4）最小最大阀值准则(minmax)，是根据统计学中的绩效极大估计量而设定的一种固定阀值选择方法。以上四种阀值准则中，rigrsure准则和sqtwolog准则是相对比较保守的准则，它仅是部分系数臵零，可以保留较多的高频信号。因而根据金融数据高频性特征，我们一般可以选择rigrsure准则或sqtwolog准备来确定阀值。在我们实证中，阀值取的是140。

3、小波消噪及重构；一般来说，除了简单的强制消噪方法（该方法直接将小波分解结构中的高频系数臵零），阀值消噪方法可分为默认阀值消噪处理和软（硬）阀值消噪处理两种，后者在实际应用中比前者更具有操作性。通过阀值选择的高频和低频系数及小波逆变变换公式，计算出信号的小波重构，达到消噪的目的。常用的小波变换重构公式为：

Sf(j1,k)Sf(j,k)*h(j,k)Wf(j,k)*g(j,k)

其中

Sf(j,k)为尺度系数，

Wf(j,k)为小波系数，h和g分别为对应于尺度函数和小波函

数的低通和高通滤波器。

例：东风汽车时间序列消噪的实证分析

首先我们对2011年5月至2012年3月共222个交易日的东风汽车收盘价信号进行去噪实验。原始的时间序列见下图1。根据上述的理论，对此金融序列进行小波分解，选择小波Daubechies小波系(db4)并确定分解层次为4层，得到4层高半频和4层低半频序列。由于理论上通常认为噪声部分包含在高频中，因此我们对小波分解的高频系数进行阀值量化处理，其中阀值处理选择sqtwolog阀值估计准则。最后根据小波分解的第4层低频系数和经过量化处理后的1至4层高频系数进行小波分析。

图1 2011年5月至2012年3月共222个交易日的东风汽车收盘价信号(包含噪音)

以下依次为小波分解后的第4层低频(图2)和高频第4、第3、第2和第1层信号(图3)：

图2 小波分解后的第4层低频

图3 小波分解后的高频第4、第3、第2和第1层信号

提取第4层的低频信号及根据固定阀值处理的高频信号，进行小波重构，得到新的消噪走势如下图4：

图4 第4层的低频信号及根据固定阀值处理的高频信号，进行小波重构，得到新的消噪走势

2.3 支持向量机在金融时间序列中的应用

2.3.1 支持向量机的原理(理论推导略)

持向量机(Support Vector Machine,SVM)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。它是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以期获得最好的推广能力。所谓VC维是对函数类的一种度量，可以简单的理解为问题的复杂程度，VC维越高，一个问题就越复杂。而SVM正是用来解决这个问题的，它基本不关乎维数的多少，和样本的维数无关（有这样的能力也因为引入了核函数）。机器学习本质上就是一种对问题真实模型的逼近，我们选择的模型与问题真实解之间究竟有多大差距，我

们无法得知，因此统计学习引入了泛化误差界的概念，就是指真实风险应该由两部分内容刻画，一是经验风险，代表了分类器在给定样本上的误差；二是置信风险，代表了我们在多大程度上可以信任分类器在未知文本上分类的结果，第二部分是没有办法精确计算的，因此只能给出一个估计的区间，也使得整个误差只能计算上界，而无法计算准确的值（所以叫做泛化误差界，而不叫泛化误差）。

2.3.2 结合小波消噪的支持向量机预测模型

应用举例：对上述消燥后的金融时间序列进行预报

预测东风汽车指数走势，我们选择了应用50个交易日为训练集预测5个交易日的方法，绘制了下面的近一年预测图形。通过反复观察，我们发现预测走势有滞后真实走势的现象，两者相关系数为99.88%。

图5 ：东风汽车指数的预测走势和真实走势（近一年）

以下为相应参数选择的可视化结果：

2.3.3 后续拓展方向

小波理论的另一广泛应用是在信号的奇异性检测上。信号中的奇异点及不规则的突变部分往往携带比较重要的信息，是信号的重要特征之一。因此如果能检测出这些突变点的位臵及突变程度将具有重要意义，可用于模式识别等重要领域。长期以来，Fourier变换时研究信号奇异性的主要工具，但由于Fourier变换单纯进行频率分析，不具有空间变量的定位功能，它只能确定一个信号奇异性的整体性质。而小波函数具有“自适应”及“变焦”特性，能进行空间局部化分析，对突变信号的突变性即突变点的位臵及突变度大小的分析更加有效。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

数据挖掘技术在金融领域的应用