论文部分内容阅读
摘要:有許多预测因变量的模型存在,但是他们中大部分是破坏了因变量的原来的分布结构的,或者这些模型比较适合因变量类别较少的情况。而比例预测模型刚好相反,它的预测结果保留因变量原来的分布结构而且比较适合于因变量类别较多的情况。尤其在大数据的环境下,变量极其繁多,数据量也很大,比例预测模型有其重要的地位。事实上,用比例预测模型预测因变量类别的准确性可能并没有一些模型的高(如:逻辑回归模型,决策树等)。所以,在这里提出对比例预测模型的改进,使得模型的预测正确率有所提高,同时又使得预测的因变量的分布情况接近于原始数据中因变量的分布。
关键词:关联矩阵;混淆矩阵;提升度;蒙特卡罗模拟抽样;GK-
中图分类号:O212 文献识别码:A 文章编号:1001-828X(2016)021-000-02
怎样对比例预测模型进行改进:
1.提升度
这里,我们提出的提升度不是提升度[1]或者其他的提升度。这只是我在这里提出用来衡量当x=i引入时,对y=s的提升程度。其中x,y分别表示自变量和因变量,而i,s分别表示x的第i类和y的第s类别。下面我们用lifti,s来表示。
这里lifti,s≥0,当然提升度值越大越好,lifti,s越大,则表示x=i的引入对y=s的预测越有帮助。当表示x=i的引入对y=s的预测是有帮助的,相反如果lifti,s<1,则表示x=i的引入对y=s的预测帮助不大,我们认为这是小概率事件。所以我们在预测的时候可以充分提升度的性质对模型进行改进。
这里,我们还发现,如果对提升度的分子进行求和,即,这便是[2]中的计算公式。而且它也和[3]和[4]中GK-密切相关的。
2.对比例预测模型改进的步骤
(x-y 矩阵代表有自变量和因变量组成的列联表来源于原始数据)
根据比例预测模型的机理,我们可以通过蒙特卡罗模拟抽样对因变量进行预测。这里我们不妨将提升度也考虑进去,即把哪些lifti,s<1 的小概率事件去掉,直到存在的可能的概率事件都是lifti,s≥1的。这里要注意的是,我们并没有设法改变原始样本数据,只是改变p(y=s|x=i)的条件概率。因为原始的条件概率可能涉及小概率事件或者并没有凸显出较大概率事件。
总结出改进的步骤如下:
(1)在x-y列联表和lifti,s两个矩阵中,同时去掉lifti,s<1 的单元;
(2)用新的lifti,s矩阵的每个单元与新的x-y列联表所对应的单元相乘,这样就得到新的x-y列联表,再对新的x-y列联表进行标准化,即用每一行的每个单元除以该行总数,使得每一行加起来为1,即得到新的p(y=s|x=i)的条件概率;
(3)p(x=i|y=s)的概率是建立在原来的x-y列联表上,但当x=i,预测y=s的条件概率p(y=s|x=i)变成2)中的新条件概率即,再运用蒙特卡罗抽样实验得到错判矩阵,从而得到混淆矩阵。
3.实际的例子
数据是来自1996年加拿大的家庭支出的问卷调查统计的数据。它记录了上百个变量,数据经过整合之后有10417个样本,现在我们选择rooms,bedrooms分别作为自变量和因变量。
(2)表二:分别使用蒙特卡罗预测得到结果的因变量的分布情况的比较(这是我们分别进行5次蒙特卡罗模拟抽样的平均结果):
上面表示的结果来自于新的模型,而中间行表示原始模型,最下面的是原始数据中因变量的分布情况,可以看出新模型与原始模型的差异很小。
(3)表三:混淆矩阵(从上面的蒙特卡罗模拟得到的混淆矩阵)
左边的矩阵是代表运用新的比例预测模型在蒙特卡洛模拟下得到的,而右边的则是用一般的比例预测模型得到的。每个单元表示的意思是,比如:左边(i,j)单元,表示在新的模型下,因变量本来是y=i预测成y=j的概率,其他同理。
(4)图一:关于混淆矩阵,近对角线和对角线上正确率的比较:
统计数据如表三。这里,y1代表在新的模型下,混淆矩阵的近对角线的正确率情况,即每行近对角的正确率之和的情况,而y2表示的是原始模型下的结果。z1代表的是在新的模型下,混淆矩阵对角线正确率情况,z2表示原始模型下的。通过这四个量的比较,可以看出改进的比例预测模型,确实比原始的模型,正确率有所提升,而且也保证了近对角预测的正确率。再结合表二,我们发现改进的比例预测模型并在近似原始因变量分布的前提下提高了预测正确率。这种提高的方法对高维或者其他的应用还有待进一步研究。
参考文献:
[1]Wenxue Huang, Yuanyi Pan, and Jianhong Wu. Supervised discretization with GK- .Procedia Computer Science, 17:114-120, 2013.
[2]Wenxue Huang, Yong Shi, and Xiaogang Wang. A nominal association matrix with feature selection for categorical data. arXiv preprint arXiv:1307.7841, 2013.
[3]Chris J Lloyd. Statistical analysis of categorical data. Number 519.535 L5.1999.
[4]Leo A Goodman and William H Kruskal. Measure of association for cross classifications.Pringer,1979.
[5]George Fishman. Monte Carlo:concepts,algorithms, and application. Springer Science
关键词:关联矩阵;混淆矩阵;提升度;蒙特卡罗模拟抽样;GK-
中图分类号:O212 文献识别码:A 文章编号:1001-828X(2016)021-000-02
怎样对比例预测模型进行改进:
1.提升度
这里,我们提出的提升度不是提升度[1]或者其他的提升度。这只是我在这里提出用来衡量当x=i引入时,对y=s的提升程度。其中x,y分别表示自变量和因变量,而i,s分别表示x的第i类和y的第s类别。下面我们用lifti,s来表示。
这里lifti,s≥0,当然提升度值越大越好,lifti,s越大,则表示x=i的引入对y=s的预测越有帮助。当表示x=i的引入对y=s的预测是有帮助的,相反如果lifti,s<1,则表示x=i的引入对y=s的预测帮助不大,我们认为这是小概率事件。所以我们在预测的时候可以充分提升度的性质对模型进行改进。
这里,我们还发现,如果对提升度的分子进行求和,即,这便是[2]中的计算公式。而且它也和[3]和[4]中GK-密切相关的。
2.对比例预测模型改进的步骤
(x-y 矩阵代表有自变量和因变量组成的列联表来源于原始数据)
根据比例预测模型的机理,我们可以通过蒙特卡罗模拟抽样对因变量进行预测。这里我们不妨将提升度也考虑进去,即把哪些lifti,s<1 的小概率事件去掉,直到存在的可能的概率事件都是lifti,s≥1的。这里要注意的是,我们并没有设法改变原始样本数据,只是改变p(y=s|x=i)的条件概率。因为原始的条件概率可能涉及小概率事件或者并没有凸显出较大概率事件。
总结出改进的步骤如下:
(1)在x-y列联表和lifti,s两个矩阵中,同时去掉lifti,s<1 的单元;
(2)用新的lifti,s矩阵的每个单元与新的x-y列联表所对应的单元相乘,这样就得到新的x-y列联表,再对新的x-y列联表进行标准化,即用每一行的每个单元除以该行总数,使得每一行加起来为1,即得到新的p(y=s|x=i)的条件概率;
(3)p(x=i|y=s)的概率是建立在原来的x-y列联表上,但当x=i,预测y=s的条件概率p(y=s|x=i)变成2)中的新条件概率即,再运用蒙特卡罗抽样实验得到错判矩阵,从而得到混淆矩阵。
3.实际的例子
数据是来自1996年加拿大的家庭支出的问卷调查统计的数据。它记录了上百个变量,数据经过整合之后有10417个样本,现在我们选择rooms,bedrooms分别作为自变量和因变量。
(2)表二:分别使用蒙特卡罗预测得到结果的因变量的分布情况的比较(这是我们分别进行5次蒙特卡罗模拟抽样的平均结果):
上面表示的结果来自于新的模型,而中间行表示原始模型,最下面的是原始数据中因变量的分布情况,可以看出新模型与原始模型的差异很小。
(3)表三:混淆矩阵(从上面的蒙特卡罗模拟得到的混淆矩阵)
左边的矩阵是代表运用新的比例预测模型在蒙特卡洛模拟下得到的,而右边的则是用一般的比例预测模型得到的。每个单元表示的意思是,比如:左边(i,j)单元,表示在新的模型下,因变量本来是y=i预测成y=j的概率,其他同理。
(4)图一:关于混淆矩阵,近对角线和对角线上正确率的比较:
统计数据如表三。这里,y1代表在新的模型下,混淆矩阵的近对角线的正确率情况,即每行近对角的正确率之和的情况,而y2表示的是原始模型下的结果。z1代表的是在新的模型下,混淆矩阵对角线正确率情况,z2表示原始模型下的。通过这四个量的比较,可以看出改进的比例预测模型,确实比原始的模型,正确率有所提升,而且也保证了近对角预测的正确率。再结合表二,我们发现改进的比例预测模型并在近似原始因变量分布的前提下提高了预测正确率。这种提高的方法对高维或者其他的应用还有待进一步研究。
参考文献:
[1]Wenxue Huang, Yuanyi Pan, and Jianhong Wu. Supervised discretization with GK- .Procedia Computer Science, 17:114-120, 2013.
[2]Wenxue Huang, Yong Shi, and Xiaogang Wang. A nominal association matrix with feature selection for categorical data. arXiv preprint arXiv:1307.7841, 2013.
[3]Chris J Lloyd. Statistical analysis of categorical data. Number 519.535 L5.1999.
[4]Leo A Goodman and William H Kruskal. Measure of association for cross classifications.Pringer,1979.
[5]George Fishman. Monte Carlo:concepts,algorithms, and application. Springer Science