普适计算环境下基于SVM的信息分类方法的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:eeee_188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在普适计算环境中,情境信息分析非常重要,它对普适计算环境下的应用能否提供正确服务起着决定性的作用。普适计算的应用要求对情境信息快速而准确的分类和管理,然而收集到的信息往往数量巨大,类别繁多,因此找出一种有效的分类方式并应用于普适计算环境具有很重要的意义。支持向量机分类方法是一种基于统计学习理论的机器学习方法,在非线性和高维样本训练中都表现出特有的优势。支持向量机分类方法以其理论优势,在文本分类应用领域已经取得优秀的效果,同时支持向量机分类方法在人脸识别和图像处理等其他领域也有广泛的研究和应用。本文在研究了支持向量机的多种算法之后,针对向量乘法提出了半稀疏算法,并将其应用于序列最小优化方法,提高了在大规模稀疏矩阵中向量乘法的运算速度,从而优化了SVMTorch分类器的计算性能。通过理论分析,在两个分别含有m和n个元素的向量上进行比较和寻址时,使用传统的稀疏算法的SVMTorch算法需要消耗O(m+n)的时间,而半稀疏算法则可以在O(n)的时间内完成这两个向量的乘法处理,同时不影响支持向量机分类器的精确度。实验结果显示,基于半稀疏算法的SVMTorch分类器计算性能显著优于原始SVMTorch分类器的性能。在WebKB和20-newsgroup两个语料库上,基于半稀疏算法的SVMTorch训练时间分别是原始SVMTorch的54.32%和74.95%。此外,本文还对支持向量机的SVMTorch分类器加以拓展,使它不仅支持多分类单标签的分类问题,同时还支持多分类多标签的分类问题,通过更新SVMTorch分类器的训练和测试检验算法,使其输出结果支持多标签分类运算,并在Reuters-21578语料库上对多分类标签功能进行了验证。为了进一步提高SVMTorch分类器的计算性能,本文使用消息传递接口模型(MPI)将SVMTorch分类器并行化,使其可以在多核处理器及分布式集群上并行计算。本文最终实现了一个基于半稀疏算法的、使用多标签分类功能、并行化的SVMTorch的功能原型,并将其应用于中文网页分类。
其他文献
互联网技术的应用和普及把我们带到了网络信息的时代,用户在面临海量资源共享的同时对需要精确获取的信息反而束手无策。为了解决信息检索中难以满足个人独特需求的问题,个性
随着互联网的普及,过去的几年里,网络上的数据快速增长。对机器学习来说,大量的数据意味着可以训练更加复杂的模型,模型的泛化能力也得到提高,但同时,模型在训练和使用阶段的
粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种分析不完整、不确定、不精确数据的有效的数学理论。它与其它处理不确定或不精确问题理论有着最为显著的区别,那就是不需
远程会诊是医疗机构之间运用先进的多媒体通讯手段,完成远程异地医疗会诊目的的一种服务方式。在整个会诊过程中,实现专家与远程患者信息的实时交互是至关重要的一环。   本
为了实现不同组织和应用程序之间的数据集成和共享,万维网联盟(W3C)提出了语义Web的设想。随着语义Web的发展,很多领域都出现了被人们普遍认可的本体,比如社交领域的FOAF本体。因
随着工作流技术的广泛应用,工作流系统的安全问题所受到的关注越来越大,而在安全问题中有着举足轻重的地位的正是权限控制模块,因此基于工作流系统的权限控制正是本文研究的
Ad Hoc网络是一种特殊的无线移动通信网络,它是由一组带有无线收发装置的移动终端组成的一个多跳的临时性自治系统。Ad Hoc网络因其具有独特的无中心、自组织、多跳路由、独
随着计算机和互联网的快速发展,除了逐渐普及的电脑之外,各种移动手持设备的出现给了人们一种全新的工作生活方式。随着国家在2009年正式将3G移动网络投入商业化运作,移动办
随着互联网高速发展,计算机网与个人主机受到越来越多的危害。如何解决网络与操作系统安全,是一个关键问题。针对操作系统防御和网络入侵,首先完成的就是网络和操作系统信息
为了应对Internet平台下开放、动态、难控等特点对应用的开发、部署、运行、维护带来的挑战,网构软件(Internetware)的概念应运而生,它是一种柔性可演化、连续反应式、多目标