论文部分内容阅读
实体是现实世界中数据和信息的主要载体,通过对实体的语义内容、属性特征和内在联系等有价值的信息进行挖掘,可以解决大数据分析中的数据不完整问题,提高数据处理性能,并为诸多工作提供重要的参考资料。对能够表征实体内容或属性的标签进行学习,是实体信息挖掘的主要方法之一。当前针对面向实体信息挖掘的多标签学习算法的研究已经取得很大的进展,但总体上还存在以下三个方面的不足:(1)在样本分布方面,数据在多标签学习过程中的不平衡现象影响实体信息挖掘性能,而实体数据平衡过程存在弱势类信息大量冗余而强势类信息大量丢失的问题;(2)在特征分布方面,数据的高特征维度导致实体信息挖掘过程面临过拟合、计算复杂度高等挑战,而特征降维过程存在没有充分利用实体标签相关性信息的问题;(3)在标签分布方面,当实体数据集标签规模较大时,多标签学习算法执行效率尚有待进一步提高。针对以上问题,本文结合实体信息挖掘的实际需求,分别从样本分布、特征分布和标签分布三个方面,对多标签学习进行了研究。论文的主要研究工作如下:(1)针对在样本分布方面存在的问题,提出一种多标签随机均衡采样算法。首先提出平均样本数的概念,在重采样过程中通过标签样本数和平均样本数的比较,保持了数据的原始分布;进而通过优化样本的复制和删除策略,保证重采样过程中不同标签样本集之间的独立性;最后,在上述基础上,提出随机均衡采样思路,充分利用强势类和弱势类信息来平衡数据的冗余和损失。实验表明,该算法能更好地适用于不平衡度较高的数据集,相比其它方法具有更好的性能。(2)针对在特征分布方面存在的问题,提出一种基于实体标签关系改进的多标签特征选择算法。首先引入对称不确定性对信息量进行归一化,然后用归一化的互信息量作为相关性的衡量方法,并据此定义标签重要性权重,对依赖度和冗余度中的标签相关项进行加权处理;进而提出一种特征评分函数,作为特征重要性的评价指标,并依次选择出评分最高的特征组成最佳特征子集。实验表明,该算法在提取出更加精确的低维特征子集后,不仅能够有效提高面向实体信息挖掘的多标签学习算法的性能,也能提高基于离散实体特征的多标签学习算法的效率。(3)针对在标签分布方面存在的问题,提出一种基于标签矩阵分解的多标签学习算法。首先结合标签矩阵元素二元性的特点,将标签矩阵用标签基矩阵和k标签关系矩阵的乘积进行表示,从而在将数据映射到低维基空间的同时,显式地描述了标签的相关性信息;进而在基空间进行传统多标签分类,将在基空间的分类结果与k标签关系矩阵相乘后,得到最终的分类结果。实验表明,该算法在处理标签数大、标签基数高的数据集时,具有良好而稳定的学习性能和算法执行效率。