【摘 要】
:
随着大数据时代的到来,很多领域存在“维数灾难”问题。为了从高维数据中获取有用信息,特征选择已经成为众多学者的首选。然而传统特征选择方法依赖高维数据的原始特征,很少
论文部分内容阅读
随着大数据时代的到来,很多领域存在“维数灾难”问题。为了从高维数据中获取有用信息,特征选择已经成为众多学者的首选。然而传统特征选择方法依赖高维数据的原始特征,很少考虑特征间的交互。因此本文基于特征交互思想,将其加入回归模型特征提取与分类,并在模型上添加分层约束来对主效应和交互特征建模。而后对其添加罚函数,以达到收缩模型系数,得到主校应和交互系数的稀疏解,增强模型稳定性,提高模型效率的目的。首先,本文介绍了弱分层交互logistic模型,并基于一般迭代收缩和阈值优化框架应用邻近算子算法求解模型,然后应用性质简化模型算法。并在模拟数据和真实数据中进行试验。实验结果证明本文应用的方法具有可解释性、分类性能高和运行时间低的特点。其次,本文考虑拟合回归模型的任务,涉及到潜在的大集合的协变量之间的交互,在此期间希望产生强分层。作者采用一个非常普遍的框架,称之为FAMILY。它可以转化为一个凸优化问题的解,本文对于强分层交互线性lasso,使用改进的交替方向乘子法算法求得模型参数。该算法保证收敛到全局最优,可以很容易的专攻任何感兴趣的凸罚函数,并允许简单的扩展到广义线性模型和高阶模型的建立。作者在模拟数据、臭氧数据和天气数据上进行试验。结果表明广义强分层线性交互能获得更好的预测性能。最后,作者研究了广义强分层交互logistic回归分类。首先定义了广义强分层交互logistic模型定义,然后给出了改进交替方向乘子法求解方法。文章最后基于肝炎数据和帕金森数据进行两组实验。实验结果证明广义强分层logistic方法在处理数据存在交互特征时优势明显,并优于Lasso方法、分层Lasso方法。
其他文献
摘 要:本文通过室内评价实验,将阳离子乳液聚合物与其它类型聚合物比较,探究了阳离子乳液聚合物在常温和高温条件下的抑制性,对钻井液性能的影响,与钻井液材料的配伍性。实验表明阳离子乳液聚合物具有良好的抑制性和配伍性。文中还论述了该类钻井液体系在塔河油田的应用情况,通过AT12井的突出现场表现,说明阳离子乳液聚合物钻井液具有强抑制性、稳定井壁等优点,适合在塔河油田应用。 关键词:阳离子乳液 聚合物 评
程序混淆是现代密码学的崭新领域,其研究目标是针对我们感兴趣的程序,构造出功能上与其相同的程序,使得任何敌手在获得新程序代码之后,除了能使用该程序的功能外不能从程序代
电力线通信(Power Line Communication,PLC)技术,利用已有配电网线路进行数据及多媒体信号的传输,成本低、覆盖面积广,但同时具有噪声干扰多、信号衰减大等缺点。正交频分复
合成孔径雷达(Synthetic Aperture Radar,SAR)具有在全天时、全天候、远距离条件下对目标进行高分辨率成像的能力,在遥感、预警、侦察、警戒等诸多领域发挥着重要作用。对于
码分多址(CDMA)通信系统选用不同的扩频序列对系统产生不同的影响。系统利用零相关区序列可以提高自身的抗干扰能力,使用高斯整数序列能够提高系统的数据传输速率。高斯整数
随着移动通信技术的不断发展,通信业引入越来越多的无线通信技术标准,不同接入技术的融合已是业界公认的通信网络的发展趋势。因此,异构网络环境下的垂直切换及最优网络选择
摘 要:利用井下高温四参数测试结果,计算注汽过程中入注蒸汽沿地面管线,井深热损失和小层吸热量及注入蒸汽热效率的方法与计算实例。 关键词:蒸汽吞吐 高温四参数测试 热效率 热损失
通过对罗拉的工作原理进行分析,经过纺纱试验对比,得出高精度无机械波罗拉可以提高纺纱质量,成纱的条干CV%值、粗节、细节、棉结都有明显改善.
混沌现象是在非线性动态系统中出现的一种确定性的、类似随机的过程,这种过程非周期、是一种貌似无规则的运动,不收敛但有界,且对初始值具有极其敏感的依赖性,这些独特的性质
量子通信以及量子信道理论是量子信息学的核心内容。量子通信为信息的安全传输提供了新的方法。自从BB84量子密钥分配方案提出以来,无论是离散变量还是连续变量的量子密码通信