论文部分内容阅读
现代通信技术的高速发展以及移动智能终端的普及,使得人们对电信业务质量的要求越来越高,电信运营商可以通过提升业务质量来赢得用户资源,业务的用户体验是制定高效提升业务质量策略的依据之一。获取用户体验的传统方式有用户满意度调查问卷、业务满意度打分、随机用户语音回访等,很难得到准确全面的用户感知。测量报告由基站控制器采集,其数据客观地反映了全网的无线环境,从微观角度反映了终端的“感受”。用统计方法分析测量报告得到的用户体验比较直观、简单且片面,更多的是一种表象;用数据挖掘方法应用于测量报告可以得到不可预知的用户体验,具有现实意义和应用价值。从测量报告中挖掘到用户通话的真实体验,根据用户体验定位影响因素,实时优化无线网络提升通话质量,反过来提升用户体验。本文将挖掘用户体验的问题转换成预测分类问题,使用支持向量机和决策树多分类方法来解决。支持向量机(SVM)是当今机器学习中解决分类问题的重要方法之一,基于统计学习理论、最优化算法和核方法,具有全局优化、泛化能力强、避免“维数灾难”等优点,其优势在于小样本、高维数据的模式识别。决策树(DT)是一种预测模型,代表的是对象属性与对象值之间的一种映射关系,具有易于理解和快速分类等优点。由于测量报告数据量大,使用单一的支持向量机多分类方法会存在训练时间长、分类精度低、预测速度慢等缺点,于是本文结合决策树的结构特点,构造了一种新的基于支持向量机和决策树的多分类方法。新方法首先将一个多分类问题分解为多个二分类问题,针对每个二分类问题使用支持向量机解决,然后根据相异度来决策参与本次SVM训练的正负两类,本次SVM训练结束后,正负类合并成新的类簇参与下一次相异度计算,迭代上述过程直到所有类合并成一个类簇。这种方法生成的分类器模型结构是一棵二叉决策树。本文立足于SVM的理论基础、分析了DT的结构特点,研究了基于支持向量机和决策树多分类方法在电信数据上的实现及应用。主要工作包括:首先,仔细分析了测量报告数据的数据特点,进行了详细的数据预处理,包括数据清理、数据归约、数据归一化,并根据接收信号电平和接收信号质量对测量报告数据进行了类别划分。然后,在研究过程中发现,基于支持向量机和决策树的多分类方法存在错误累积和局部最优解等问题,往往使分类准确率下降,分类效果变差。仔细分析了其产生错误累积原因后,提出了基于哈夫曼树的支持向量机多分类方法,该方法有效减少了错误累积的同时也避免了局部最优解。最后,使用测量报告数据集对普通的SVM多分类方法、基于偏态树的SVM多分类方法和基于哈夫曼树的SVM多分类方法分别进行了实验验证。实验结果表明,新的方法在分类速度和分类精度上较传统的支持向量机多分类方法优越。仔细分析实验结果后,针对不同的分类结果,提出了相应的网络优化方法。