基于GPU的文本分类算法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:zhangwilly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的普及和发展,互联网上的网页数量呈指数级增长。人们要想在短时间内准确的得到自己想要的信息,就要预先对互联网信息就行分类整理。由于网页中的信息大部分是文本信息,所以文本分类技术逐渐成为信息领域的一个十分重要的研究课题。文本分类技术就是将一些杂乱无章的文本,根据其内容自动地将其分到预先定义的一个或者几个类别的过程。文本分类算法中得到最广泛应用的是KNN (K-Nearest Neighbor)算法和SVM (Support Vector Machine)算法。虽然之前有一些学者对其进行了改进,使得分类的效率有所提高,但是由于算法本身的原因,二者分类的计算复杂度仍然很高。随着CUDA架构的出现和发展,基于图形处理器(GPU)的高性能通用计算技术日益成熟。为了弥补KNN与SVM文本分类算法高计算量的缺点,本文开展了在GPU上实现的文本分类算法的研究。具体工作如下:首先,将KNN算法在CPU上进行了实现;然后,基于GPU上对KNN算法的文本相似度的计算和排序进行了改进;最后,通过了解LIBSVM工具的分类原理,对SVM算法的文本训练算法SMO (Sequential Minimal Optimization)使用GPU并行计算加速。通过实验证明,本文中的算法可以使得KNN与SVM文本分类算法在保证分类质量的基础上提高了分类效率。
其他文献
随着IP业务的迅速增长以及IP网络上应用的不断增加,原有的互联网越来越显得力不从心,互联网技术进入再设计阶段。现有互联网的可扩展性、安全性、可控可管及端到端问题等,都
大脑中的神经系统是人体中最复杂的系统之一,它承担着传导信息的功能。快速、准确、实时地对脑白质内神经纤维进行描绘,具有很大的意义,但是由于神经纤维结构的错综复杂,传统
基于FPGA的CPCI接口数据译码系统是作为一个通信接收系统的主要组成部分而进行研制的,主要是为了实现信号数据的译码、处理、采集、存储和管理工作。该系统以CPCI总线技术和
优化是人们在科学研究、工程技术和经济管理等诸多领域中经常碰到的问题。其目的是找到使目标函数达到最小或最大的条件。已有的许多优化方法在处理人们所面对的复杂问题时,
扩散曲线是一种图像矢量化的新方法,它可以保留传统位图在色彩上丰富的优点也具有矢量图方便修改,方便存储以及可以任意放大缩小而不失真的优点。是一个比较新颖而又具有实际
脑机接口是在人脑与外界环境之间建立不依赖于常规脊髓与外围神经的通讯系统,从而实现脑与外设的直接互联,这种新型的交互方式又可称为脑机交互。脑机交互研究具有复杂的交叉
搜索引擎技术和P2P技术是当前科研院所、公司争相研究的热点。随着Web信息的急速膨胀,各项与Web相关的服务也随之增多了。在这种情境下,搜索引擎作为个网络用户所需的信息检
随着网络上丰富且可用的评论资源不断增加,针对观点分析和观点挖掘的研究应运而生。它们针对这些来自网络上对产品或社会问题的公众评论的文本资源进行研究,并从中抽取和总结
无线传感器网络是一种新型的网络,它集成了传感器、嵌入式计算、网络和无线通信四大技术,它的节点可以相互协作地监测、感知和采集各种客观世界的信息,并对其进行处理,再传送
可扩展标记语言(XML, Extensible Markup Language)常被应用于简化数据的存储和共享,同时它也逐渐成为了一套规范的语义标签语言,使得人们在计算机中定义数据类型更加容易。