【摘 要】
:
本文采用支持向量机,在面向Web文本内容上对其进行分类识别研究。Web文本内容复杂,向量表示的维数大,内容上的疏密性比较明显而且很多有比较强的关联性,传统的文本分类技术效
论文部分内容阅读
本文采用支持向量机,在面向Web文本内容上对其进行分类识别研究。Web文本内容复杂,向量表示的维数大,内容上的疏密性比较明显而且很多有比较强的关联性,传统的文本分类技术效果不佳,支持向量机是基于统计学基础理论的VC维以及结构化最小原则的算法实现,Web文本内容中的疏密性和特征之间的关联性等因素对它影响很小,而且支持向量机它自身独特的处理‘维数灾难’问题的能力在应付复杂Web文本内容所表现的高维特征效果较佳。本文主要以支持向量作为算法基础,在文本内容的角度上对Web文本分类进行研究。本论文所做的主要工作如下:(1)分析了支持向量机的增量学习算法,并基于它之上,提出了改进的具有边界约束增量学习支持向量机算法,该算法克服了传统增量学习支持向量因素考虑的不全面性,引入边界约束,合理有效提高了后期支持向量数目。在基本保证训练速度的情况下,提高了实际分类精度。(2)分析了DDAG-SVMS多分类支持向量机算法,并基于它之上,提出了改进的DDAG-SVMS多分类支持向量机算法。该算法对传统的DDAG-SVMS算法的分类器进行优化组合,改善了原有分类器树结构对分类带来的不合理因素,最终提高了实际的分类精度。(3)通过实验,对比以上算法及其改进,并通过实验数据有效分析,最终论证了支持向量机的增量学习算法和DDAG-SVMS多分类支持向量机算法的高效性以及对应的改进后算法的有效性。
其他文献
无线传感器网络(Wireless Sensor Networks,简称WSNs)是由分布在目标区域内大量传感器节点自组织形成的一类网络,广泛应用于各种特殊的监测任务。这些应用都是由传感器节点收
集群式供应链是一种新型的企业协作模式,通过企业服务间的动态匹配和组合来应对动态多变的市场需求,且不必因维持过高的产能而导致其自身的成本增加。然而,服务资源的非均等化现
远程教学是目前教学改革的重要内容,而虚拟实验室填补了远程教学中教学实践方面的空白,对提高远程教学的质量具有重要的意义。但是,当前的虚拟实验平台普遍不能支持异构资源
聚类技术作为数据挖掘领域的一个重要研究方向,可以有效地帮助人们了解数据的分布和特征,以便作进一步研究分析。虽然已有的聚类算法很多,但聚类技术依然存在很多问题和挑战
视频处理技术是伴随着视频从模拟到数字化转变的过程中得到蓬勃发展的。随着人们对视频图像的清晰度、流畅度、实时度的要求越来越苛刻,使其成为了一项炙手可热的技术。1980
运动人体检测是视觉人体运动分析中的关键技术,是进行各种后续处理如运动人体识别、运动人体跟踪的前提和基础,在高级人机交互、视频会议、智能视频监控等方面具有广泛的应用
数据挖掘的对象包括像关系数据库中的结构化数据,也包括诸如文本、图像、图形的半结构化数据或非结构化数据。同结构化数据相比,非结构化数据能更好地表达对象间的联系。随着
基于内容的图像检索(Content-Based Image Retrieval,CBIR)是一种利用图像的视觉特征进行检索的新兴技术,它通过提取图像的颜色、纹理、形状等底层特征进行检索。本文在学习
文本挖掘技术是现代信息处理中正在研究的热点课题。在文本挖掘过程中,文本数据预处理和文本关联规则分析是两个最主要的步骤。本文针对文本挖掘数据预处理过程中存在的问题,