论文部分内容阅读
摘要:在数据挖掘时代,关键因子的选取是经济投资的一个重要步骤。通过前进法策略进行变量选取。在Goodman-Skruskal-τ模型的基础上,对高维数据进行监督离散化,由历史数据找出新的量化观点,形成新的投资组合模型。实证检验表明,该模型给出的投资策略能获得较好的收益,具有一定的实用性。
关键词:GK-τ模型;前进法;监督离散化
中图分类号:O17 文献识别码:A 文章编号:1001-828X(2016)009-000-01
一、引言
受启发于黄文学[1]等对于变量离散化的研究,本文在GK-τ模型的基础上,利用前进法的监督离散化策略找出对高维变量起较大重要的关键因子,取代投资者直接选取因子的观点,进行经济的投资组合研究。在研究关联性的估计模型中,选取GK-τ可以更好地度量局部与整体的相关性。文章的具体结构如下:第二部分首先对模型进行介绍,第三部分结果分析。
二、模型介绍
高维上的GK-τ模型和前进法预测。
高维上的GK-τ模型如下:
其中为已离散化的自变量,为要前进法离散化的自变量;Epy为无自变量时预测的准确率,为有自变量时预测的准确率,另外EPY是一定的,因此 的预测能力等价于 的准确率。
在已监督离散化的基础上增加一个新变量X,对变量X进行穷尽搜索法:
(1)設定X切分的区间数为t ,对X的取值范围进行等区间切分100部分;
(2)重复以下的步骤,直至满足以下的条件:
1.当t > 时,跳出循环,其中 为循环的第几个区间数;
2.设为已选好的区间,选取下个区间,如
利用GK-τ模型进行前进监督离散化对投资模型进行预测,来代替传统中直接选取因子预测观点,提高预测能力,更好做到投资。
三、实验预测结果
实证结果与分析。
本文部分数据来源于某银行的贷款收入数据库,从中选取缴费时间观(准时与不准时)作为因变量,而资产,收入,债务,经济需求,年龄作为连续自变量;举例,缴费时间观为二维变量为0 或 1,(0表示无法准时缴费,1为准时缴费),年龄为连续变量,可分为少年,中年,老年。根据五个自变量对因变量时间观念缴费准时与否进行预测,利用前进法提高预测能力,选取关键因子变量
1.对五个自变量切分三个区间进行独立离散化,其结果如下:
2.通过数据可发现对时间观念预测最好的变量为资产,第二个最好变量为债务,那么选取这两边预测时间观念的结果为0.8340.
3.在资产变量X1的基础上进行前进法的离散化,可得:
结果显示第二变量选取为经济需求,且预测的结果为0.83812,比直接选取最好的变量结果更好,更好做到预测能力。
GK-τ模型是一个从局部到整体结合权重因子的优势比预测,并利用前进的离散化更好地切分区间,取得更好的预测能力,克服了传统投资模型在应用实践中直接选用关键因子的一些缺陷,利用银行贷款数据所给出的信息进行实证分析,结果表明了该模型具有一定的应用范围和潜力,对于普通投资者的经济投资亦有相当的指导意义,同时也为投资市场的运用提供了一种新思路。
参考文献:
[1]Olson,D.,Shi,Y.,2007.Introduction to business data mining.McGraw-hill/Irwin.
[2]L.Goodman,W.Kruskal.,Measure of association for cross classifications,journal of the Amearican .Statistical Association 49(268)(1954)732-764.
关键词:GK-τ模型;前进法;监督离散化
中图分类号:O17 文献识别码:A 文章编号:1001-828X(2016)009-000-01
一、引言
受启发于黄文学[1]等对于变量离散化的研究,本文在GK-τ模型的基础上,利用前进法的监督离散化策略找出对高维变量起较大重要的关键因子,取代投资者直接选取因子的观点,进行经济的投资组合研究。在研究关联性的估计模型中,选取GK-τ可以更好地度量局部与整体的相关性。文章的具体结构如下:第二部分首先对模型进行介绍,第三部分结果分析。
二、模型介绍
高维上的GK-τ模型和前进法预测。
高维上的GK-τ模型如下:
其中为已离散化的自变量,为要前进法离散化的自变量;Epy为无自变量时预测的准确率,为有自变量时预测的准确率,另外EPY是一定的,因此 的预测能力等价于 的准确率。
在已监督离散化的基础上增加一个新变量X,对变量X进行穷尽搜索法:
(1)設定X切分的区间数为t ,对X的取值范围进行等区间切分100部分;
(2)重复以下的步骤,直至满足以下的条件:
1.当t > 时,跳出循环,其中 为循环的第几个区间数;
2.设为已选好的区间,选取下个区间,如
利用GK-τ模型进行前进监督离散化对投资模型进行预测,来代替传统中直接选取因子预测观点,提高预测能力,更好做到投资。
三、实验预测结果
实证结果与分析。
本文部分数据来源于某银行的贷款收入数据库,从中选取缴费时间观(准时与不准时)作为因变量,而资产,收入,债务,经济需求,年龄作为连续自变量;举例,缴费时间观为二维变量为0 或 1,(0表示无法准时缴费,1为准时缴费),年龄为连续变量,可分为少年,中年,老年。根据五个自变量对因变量时间观念缴费准时与否进行预测,利用前进法提高预测能力,选取关键因子变量
1.对五个自变量切分三个区间进行独立离散化,其结果如下:
2.通过数据可发现对时间观念预测最好的变量为资产,第二个最好变量为债务,那么选取这两边预测时间观念的结果为0.8340.
3.在资产变量X1的基础上进行前进法的离散化,可得:
结果显示第二变量选取为经济需求,且预测的结果为0.83812,比直接选取最好的变量结果更好,更好做到预测能力。
GK-τ模型是一个从局部到整体结合权重因子的优势比预测,并利用前进的离散化更好地切分区间,取得更好的预测能力,克服了传统投资模型在应用实践中直接选用关键因子的一些缺陷,利用银行贷款数据所给出的信息进行实证分析,结果表明了该模型具有一定的应用范围和潜力,对于普通投资者的经济投资亦有相当的指导意义,同时也为投资市场的运用提供了一种新思路。
参考文献:
[1]Olson,D.,Shi,Y.,2007.Introduction to business data mining.McGraw-hill/Irwin.
[2]L.Goodman,W.Kruskal.,Measure of association for cross classifications,journal of the Amearican .Statistical Association 49(268)(1954)732-764.