论文部分内容阅读
在许多机器学习应用中,数据可以通过一个矩阵进行表示,在某些情况下的部分元素缺失了或者无法得到,造成只能观察到的部分元素。矩阵填充问题是研究如何从低秩或近似低秩矩阵的已知元素合理准确地恢复出该矩阵的其他未知元素。近年来,关于该问题的算法和理论研究成为相关领域的一个研究热点,尤其在图像处理、推荐系统等领域有显著的应用价值。虽然已有大量经典算法可以被应用于求解矩阵填充问题,但是在处理真实数据时,准确性往往不够理想。在本文中,我们从理论分析到具体的应用对矩阵填充算法进行了一个系统的研究。总的来说,本文的贡献主要如下:(1)针对核范数过度收缩秩成分及用同一个值收缩每一个奇异值,设计和实现了一种填充精度高的矩阵填充算法,称为截断schatten p-范数正则化矩阵填充算法(MC-TSNR),它结合了截断核范数和schatten p-范数的优点,提高了核范数的灵活度。随后,采用方向交替乘子法对上述算法进行求解。我们将提出的算法用于图像修复,并在真实数据集上进行一系列的实验验证,实验结果证明了MC-TSNR算法的良好填充性能。(2)针对评分数据的群聚特性,提出一种基于评分相似性的群稀疏矩阵分解推荐算法(SSMF-GS)。该模型首先根据用户的评分行为,对评分数据矩阵进行分群,获得相似用户群评分矩阵;然后通过SSMF-GS算法对相似用户群评分矩阵进行群稀疏矩阵分解;最后采用交替优化算法对模型进行求解。该模型可以筛选出不同用户群的偏好潜在项目特征,提升了潜在特征的可解释性。我们在GroupLens网站上提供的MovieLens数据集上进行仿真实验。实验结果表明:SSMF-GS算法可以显著提高预测精度,平均绝对误差(MAE)及均方根误差(RMSE)指标均表现出良好的性能。