论文部分内容阅读
在普适计算环境中,情境信息分析非常重要,它对普适计算环境下的应用能否提供正确服务起着决定性的作用。普适计算的应用要求对情境信息快速而准确的分类和管理,然而收集到的信息往往数量巨大,类别繁多,因此找出一种有效的分类方式并应用于普适计算环境具有很重要的意义。支持向量机分类方法是一种基于统计学习理论的机器学习方法,在非线性和高维样本训练中都表现出特有的优势。支持向量机分类方法以其理论优势,在文本分类应用领域已经取得优秀的效果,同时支持向量机分类方法在人脸识别和图像处理等其他领域也有广泛的研究和应用。本文在研究了支持向量机的多种算法之后,针对向量乘法提出了半稀疏算法,并将其应用于序列最小优化方法,提高了在大规模稀疏矩阵中向量乘法的运算速度,从而优化了SVMTorch分类器的计算性能。通过理论分析,在两个分别含有m和n个元素的向量上进行比较和寻址时,使用传统的稀疏算法的SVMTorch算法需要消耗O(m+n)的时间,而半稀疏算法则可以在O(n)的时间内完成这两个向量的乘法处理,同时不影响支持向量机分类器的精确度。实验结果显示,基于半稀疏算法的SVMTorch分类器计算性能显著优于原始SVMTorch分类器的性能。在WebKB和20-newsgroup两个语料库上,基于半稀疏算法的SVMTorch训练时间分别是原始SVMTorch的54.32%和74.95%。此外,本文还对支持向量机的SVMTorch分类器加以拓展,使它不仅支持多分类单标签的分类问题,同时还支持多分类多标签的分类问题,通过更新SVMTorch分类器的训练和测试检验算法,使其输出结果支持多标签分类运算,并在Reuters-21578语料库上对多分类标签功能进行了验证。为了进一步提高SVMTorch分类器的计算性能,本文使用消息传递接口模型(MPI)将SVMTorch分类器并行化,使其可以在多核处理器及分布式集群上并行计算。本文最终实现了一个基于半稀疏算法的、使用多标签分类功能、并行化的SVMTorch的功能原型,并将其应用于中文网页分类。