【摘 要】
:
目前,一些比较成熟的文本分类算法已经被应用到了文本分类中,但它们大都是基于向量空间模型(Vector Space Model)的。向量空间模型(Vector Space Model)将每篇文章的处理转化
论文部分内容阅读
目前,一些比较成熟的文本分类算法已经被应用到了文本分类中,但它们大都是基于向量空间模型(Vector Space Model)的。向量空间模型(Vector Space Model)将每篇文章的处理转化为高维向量空间的向量计算,每一个分量表示一个词元权重,也就是把每篇文章的处理转化为了向量的计算。这种方法降低了文档处理的计算复杂度,提高了处理速度。但向量空间模型把文档看成词的集合,假设词与词之间是独立的,这样就损失了大量的文本结构信息,而在自然语言中,词与词之间往往是相互关联的,所以文章的上下文之间的联系也是非常重要的。为了解决这个问题,一些国内外学者提出了基于图模型的文本表示方法。为了实现图模型下的文本分类,本文对选用的语料库进行了预处理工作;分析了现有的特征选择算法,选择了开方检验的方法对文本进行了特征选择;针对现有的计算权值的方法进行了改进,找到了一种适合图模型下文本分类的权值计算方法;根据图模型的定义,建立了文本的图模型;并找出一种计算相似系数的方法对文本进行了分类,完成了整个图模型文本分类的整个过程。本文从文本的预处理、特征选择、图模型的建立、图模型的相似系数的计算等几个文本分类的重要环节,设计出了自己的算法,给出了一种图模型中计算权值的具体方法,建立了有权无向图,并对这些算法进行了实现。选用了Sougou语料库的3个类别:c8财经类、c10 IT类和c13健康类进行实验,分析了准确率(P)、召回率(R)和F1值这些评价文本分类算法的结果,并得出结论,证明了图模型文本分类算法是一种有效的文本分类算法。
其他文献
在全局已知环境下,用传统蚁群算法进行机器人路径规划具有收敛速度慢,容易陷入局部最优等缺点。为此,本文首先根据对真实蚂蚁的研究成果,提出了一个基于具有感觉适应功能蚁群
位置服务顾名思义指以请求节点位置数据为基础而为其提供的服务。因为请求节点的位置数据以及查询信息完全暴露给服务提供商,若被某些恶意的服务提供商所利用,将给用户的人身
随着计算机技术、计算机网络技术、多媒体技术的快速发展,特别是Internet的广泛普及,基于网络的学习方式获得了迅猛的发展。网络教学综合了多种教学模式的优势,已经成为二十
传统的搜索引擎需要对互联网上的信息进行广泛的收集和分析处理,随着互联网的急剧膨胀,传统的搜索引擎需要处理的网络信息也越来越多,同时也就不可避免的为用户提供了或多或
随着网络通信技术的快速发展,以P2P为主的多媒体应用的迅速增加,都对当前网络的服务质量、基础设施和流量控制均提出了很高的要求。流量的分析与建模是网络管理和性能分析的
无线传感器网络是由大量随机部署在监测区域的微小传感器节点通过无线通信、自组织方式构成的分布式网络系统,一般用于对人类无法到达的区域或环境进行监测,并将采集的信息传
在信息类型多元化发展的今天,图像作为信息传递和表达的最直接类型,其质量的优劣影响到人们与互联网交互体验的舒适度。图像分割作为图像处理先验的步骤,是后续处理可以实用
随着无线通信技术、嵌入式计算技术和微系统技术的发展,无线传感器网络引起了人们的广泛关注。无线传感器网络是由众多部署在监控区域内的传感器节点组成,通过无线通信方式形
可重构计算技术兼备ASIC的高性能和通用CPU的灵活性的双重优点,能够满足各领域对高性能计算的迫切要求,已成为业界的研究热点。目前,可重构逻辑器件已经具备局部可重构的能力
伴随着计算机网络和无线通信技术的发展,种类众多的无线网络技术被人们应用到各个领域,同时,人们对移动通信及宽带无线接入业务的需求也在不断增长。无形中我们已经生活在了