基于组合特征的高阶因子分解机模型研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:spiritword
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因子分解机(Factorization Machine)是近几年被提出的,主要用于解决大规模稀疏数据中特征组合问题的算法,它是一种结合矩阵分解和支持向量机的机器学习算法。因子分解机对交叉项系数采用一种因子分解的方式,其在稀疏数据中也能很好的学到隐含数据中变量间的相互关系。组合特征是通过将单特征进行组合而形成的高阶特征,有助于表示数据中的非线性关系,可以表达比单特征更多的数据底层语义。本文立足于自定义特征组合,对面向分类和序数回归任务的因子分解机进行研究,具体成果如下:(1)基于频繁模式,提出一种面向分类的组合特征提取方法。首先,挖掘数据中有关类别的频繁模式,作为组合特征依据;其次,为了使提取的组合特征对类别区分有帮助,本文使用K-L散度度量频繁模式的类别区分能力;最后,给出了特征组合方式,利用最有区分能力的前m项频繁模式进行特征组合。实验结果表明,使用该方法提取的组合特征,对多数分类模型的效果都有提升。(2)针对序数回归问题,提出一种面向序数回归的组合特征提取方法。为了使提取的组合特征包含标签的序数信息,提出一种有序二元分解的方法,把序数回归有序分解为多个二元子问题。在每个二元子问题上,挖掘有关类别的频繁模式,并计算相关K-L散度。考虑到在不同子问题中,频繁模式K-L散度的不平衡性,提出一种循环选择频繁模式的方法,平衡选择区分不同等级的频繁模式,利用最后选择出的频繁模式进行特征组合。在公开数据集和自有数据集上,使用多种序数回归模型进行了实验论证。实验结果表明,使用最有区分能力的频繁模式组合特征,能够有效提升大多数序数回归模型的训练效果。(3)提出一种基于自定义高阶特征的因子分解机(CHOFM)。因子分解机只能学习特征之间的二阶关系,属于二阶多项式模型。高阶因子分解机通过穷举的方式,列举了全部特征组合项,这导致模型过于复杂,不易求解。本文提出一种基于自定义高阶特征的因子分解机,使用一组自定义的高阶特征组合规则集代替原始的高阶组合。这种方式既减少了无效的特征组合,同时保留高阶组合特征的表达能力。本文给出了基于SGD的CHOFM模型训练方法。实验结果表明,CHOFM模型效果相对FM模型更优。此外,CHOFM模型具有更好的收敛性。
其他文献
用户标签数据可用于构建用户画像,从而形成不同类型的用户群。电视行业希望利用其它数据源的标签数据提高电视用户画像的准确度。微博上有丰富的标签信息,但作为改善电视用户画像的数据源还需要确定微博用户与电视用户的关联性。本文通过评估微博、电视及基于微博数据模拟的电视数据三者的用户画像,研究微博和电视用户群之间的关联性。首先利用分布式框架Hadoop进行数据的采集和清洗。然后基于微博和有线电视用户数据,通过
移动互联网的飞速发展,使移动数据流量开始呈现指数式增长,现有的LTE无线蜂窝网络已经难以应对如此严峻的挑战,因此第五代(5G)移动通信系统应运而生。为了加快5G的商用部署,大部分运营商将采用非独立组网架构。基于LTE双连接技术,3GPP在R15中提出了多制式双连接。多制式双连接技术是实现非独立组网的重要技术手段。在双连接中引入了分离式承载这一概念,用户可以同时利用主基站和辅基站上的物理资源进行数据
研究沁水盆地南部高阶煤储层特征及解吸差异性对于煤层气科学高效开发具有重要指导意义。本论文基于沁水盆地南部樊庄、郑庄、长治、安泽四大区块资料整理与分析、地质调查、实验模拟和数据测试,研究不同区块高阶煤储层临界解吸压力差异发育特征,阐明了不同区块临界解吸压力差异发育的主要原因,探讨其地质与工程控制因素,为后续不同区块的高效开发政策制定及储层改造工艺参数选取等提供了理论支撑。结果显示:研究区新鲜煤样自然
有机肥还田是一种符合可持续发展和环境友好型理念的畜禽粪便处理方式,但有机肥中含有一定量的重金属,这些重金属在土壤中的累积和迁移释放带来的生态风险,是制约有机肥还田利用的主要障碍。本论文以我国不同农田土壤类型为代表,在对有机肥与土壤中重金属的赋存特性进行比较分析基础上,通过p H动态浸出试验、室内培养实验,系统分析土壤酸碱条件、氧化还原条件、有机物降解等地球化学条件对有机肥中重金属释放的影响机制,为
土山湾文化作为一段尘封的历史,长期以来鲜为人知。但其在中国近现代文化及历史上产生着不可磨灭的历史文脉作用,它拥有着深厚的文化底蕴及独特的影响力。随着相关学者对于土山湾文化的不断重视及研究工作的顺利展开,以及政府工作者的不懈努力,使得土山湾博物馆于2010年6月开馆,让土山湾文化重回大众视野,为我们唤醒了一段长久以来被人们遗忘的历史记忆。土山湾博物馆是文化之物及历史之物的复合载体,是土山湾文化实体呈
在现实世界中,大量的复杂系统可以被抽象为在一个锥上进行演化的动力学系统,比如,军事系统中的导弹制导、航空航天中的火箭巡航及回收以及生物学中集群运动等等,此类系统被称
道路交通作为当今社会生产生活的重要一环,保障城市交通道路的安全畅通,是实现城市人民生活稳步发展的一个先决条件,更是保障社会进步至关重要的一部分。随着经济生活的不断发展,城市交通面对着愈演愈烈的矛盾冲突,一方面是城市发展中城市化进程需求的不断提高,另一方面是大中型城市内机动车密度提升所带来的的道路拥堵、环境污染等问题,能否找到合理平衡交通运输中的矛盾点已成为社会良性发展的关键因素。因此,对于路径规划
自汽车诞生一百多年来,技术的革新、成本的下降使得越来越多的家庭能够拥有属于自己的汽车。据国家统计局统计,截至2016年末,我国私家车的保有量约1.7亿辆。然而呈爆发式增长
新时代我国经济发展产生了一系列新变化,由高速增长转向高质量发展成为当前我国经济发展的必然趋势。这既是我国经济建设的必然要求,也是生态文明建设的必然要求。生态文明作
金属切削加工被广泛应用于现代机械制造业中。加工过程中,刀具的实时磨损情况以及工件表面的形成过程总能通过测量切削力的变化来直接或间接反应。能否精确检测切削力、实时感知切削状态直接影响着机床切削过程的加工精度、加工效率以及加工可靠性。因此,设计一套集微型压电陶瓷传感器与机床车刀于一体的智能切削力测量系统是解决这一问题的关键所在。本文根据实际测量切削力的需要,对应用于切削力检测的压电陶瓷传感器的关键技术