基于贝叶斯算法的文本分类方法研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户：xnlpktg

【摘要】

：

随着通信技术和计算机技术，尤其是Internet的飞速发展，各种各样的信息成几何级数增长，作为传统的信息载体，文本信息更是如此。数据挖掘的任务是从大量的数据中挖掘出有用的信息，文

【作者】

：

陈长俊

【机构】

：

中国地质大学(武汉)

【出处】

：

中国地质大学(武汉)

【发表日期】

：

2009年期

【关键词】

：

文本分类叶斯算法特征选择算法数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着通信技术和计算机技术，尤其是Internet的飞速发展，各种各样的信息成几何级数增长，作为传统的信息载体，文本信息更是如此。数据挖掘的任务是从大量的数据中挖掘出有用的信息，文本信息存储和传输技术相对比较简单，易于上传和下载，大部分信息以文本形式存在，因此文本挖掘就成为数据挖掘中日益流行而重要的研究课题。　　文本分类是指在给定的分类体系下，根据文本的内容自动判别文本类别的过程。文本自动分类技术能够有效地将文本信息组织管理起来，帮助人们准确高效的定位文本信息，为用户获取所需信息提供有力的支持。本文分析了文本分类的相关理论和技术，以贝叶斯分类方法为基础，探讨了特征选择算法对于文本分类的影响。具体做了以下几方面的工作：　　 1、首先介绍了文本分类的定义及其主要过程、国内外研究现状及存在的问题，对文本的表示方法进行粗略的叙述。介绍了文本数据预处理的主要内容，特别是介绍了几种经典的中文分词算法。　　 2、当前，文本分类主要采用的是基于统计的向量空间模型。其中，特征选择方法是基于向量空间模型的文本分类中一个重要问题。本文分析比较了几种常用的特征选择算法。特别是对经典特征选择算法TF-IDF的原理、特点及性能进行了细致的分析，结合实例指出了该算法的缺点。　　 3、介绍了信息论的起源及其应用情况，引入了信息论中熵的概念，熵是随机变量不确定性的度量，而特征项在类间及类内的分布可以看成是一个事件，针对特征选择算法TF-IDF的缺点提出了改进算法TF-IDF-DE，该算法考虑到特征在类间和类内分布的熵。实验表明，该算法在绝大部分情况下要优于传统TF-IDF算法。　　 4、分析了几种经典文本分类算法的原理、特点及性能。　　 5、贝叶斯分类模型是基于贝叶斯定理的分类算法，它非常适合应用于高维属性的分类，尽管其思想简单，但其分类效果却比较理想。本文研究了贝叶斯模型的特点，比较了几种常见的贝叶斯模型，考虑到文本数据的特征高维性，选用朴素贝叶斯分类算法，并给出了朴素贝叶斯分类算法用于文本分类的具体步骤。

其他文献

龙芯平台安卓ARM动态库兼容系统的设计与实现

安卓操作系统是基于Linux内核的移动操作系统，具有源码开放、兼容硬件丰富和易于开发等特点。龙芯中科作为自主创新的国产处理器研发机构，在移动互联网全面兴起的时代，有肩负起

学位

龙芯平台安卓操作系统ARM动态库兼容系统二进制翻译

CBIR原型系统及相关技术的研究

随着多媒体技术和网络技术的飞速发展，多媒体信息的应用日益广泛，对规模越来越大的多媒体数据库进行有效的管理成为迫切需要解决的问题。高效、准确的多媒体检索策略是解决这一

学位

图像索引图像索引新闻图像新闻图像图像特征提取算法图像特征提取算法多媒体数据库多媒体数据库

多语种软件User Interface(UI)构件技术研究

近年来，随着软件复用技术的发展，基于构件开发作为一种软件复用的有效的方法学，得到了广泛的关注和发展。　　多语种构件库设计与实现是多语种软件技术支撑平台的开发与应用的

学位

软件复用多语种软件UI构件软件开发

综合风险垂直搜索引擎主题排序与用户反馈研究

网络信息爆炸性的增长和多元化的发展，不仅给人们带来了信息共享的快乐，同时也带来了“信息迷航”和“知识匮乏”等一系列问题。人们希望能快速地从搜索引擎中找到自己需要的信

学位

垂直搜索引擎PageRank算法主题排序用户点击反馈日志处理

基于MAPGIS的环境管理信息系统的开发

随着经济的高速发展，环境问题越来越受到人们的重视。环境污染、环境质量退化已经成为制约区域经济发展的主要因素之一，也给人类的可持续性发展及人类自身健康造成了极大的危害

学位

MAPGIS平台环境管理信息系统软件开发

一个以代码为中心的增量同步式双向工程工具

目前，越来越多的软件项目使用UML作为建模工具，一方面提高了软件开发的抽象层次，另一方面也可以生成框架代码，提高了开发效率。然而，在软件再工程和软件维护的过程中，程序代码和软

学位

软件开发双向工程工具代码分析代码生成逆向分析

基于pCTL的循环优化测试用例自动生成方法的研究与实现

编译优化是现代编译器的重要功能，编译优化测试对保障现代编译器质量有着重要作用。编译优化测试需要编写大量的测试用例程序作为输入，手工完成十分费时费力，因此，有必要研究编译

学位

编译优化测试用例自动生成法分支时序逻辑循环迭代覆盖率指标

邮件系统中基于Jabber协议的即时通信服务研究与实现

XMPP(Extensible Messaging and Presence Protocol)协议是由Jabber开源组织发起的，经IETF标准化了的网络即时通信协议，由于其开放性，可扩展性等优良特点受到即时通信领域的青睐

学位

邮件系统

表情互动中的人脸定位与跟踪

对视频中的人脸进行实时定位和跟踪具有重要的研究意义和应用价值。本文以表情互动应用为背景，针对人脸定位和动作跟踪问题开展研究。在研究工程中，充分考虑到实际应用的需求和

学位

人脸定位

语义链网络的模式机制与推理研究

语义链网络是面向网络资源管理的语义数据模型。本文的研究内容围绕语义链网络的基础理论和推理机制展开，主要研究语义链网络的模式与规范化理论、代数模型及推理机制等问题。

学位

语义链网络规则推理类比推理网络资源管理数据模型代数模型

基于贝叶斯算法的文本分类方法研究

与本文相关的学术论文