文本分类与特征选择技术的研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:luoyuqingyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW的迅猛发展,Web上聚集了海量的信息,因此如何快速、准确而全面的获取有用信息已经成为巨大的挑战。基于人工智能的信息内容的自动聚类、分类和文摘,以及深层次的文本挖掘为迎接这个挑战提供了新的支撑技术。本文的目标就是在文本挖掘的背景下,从理论、算法和应用三个层次来研究文本特征选择与文本分类。 本文首先全面分析了自动分词、文本特征选择、文本分类算法等相关技术。 随后重点研究了kNN文本分类器中决策规则的改进。kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用。但是这种方法的一个明显缺点是:当样本分布密度相对不均匀时,只按照前k个近邻顺序而不考虑它们的距离差别会造成误判,影响分类器的性能。针对这个问题,本文采用了模糊分类的思想,通过分析相似度、距离、隶属度函数之间的关系,构造了基于文档相似度的决策规则来克服这一缺陷。 接着提出了一种快速有效的文本特征选择新方法。文本分类的首要任务就是进行特征选择,降低原始文本特征空间的维数和提高分类精度。基尼指数作为一种不纯度分裂方法的原理,很早就被提出并应用于决策树中的分裂属性的选择,获得了非常好的分类精度。但将其应用到文本特征选择的研究却非常少。使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的新的文本特征选择评估函数。 论文最后,在中英文两个不同的语料集上,给出了试验结果与分析。 (1)采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN方法和目前广泛使用的基于相似度加权的kNN方法进行实验比较。实验结果表明,这种方法削弱了训练样本分布的不均匀性对分类性能的影响,可以将微平均准确率提高大约1~2%,并且在一定程度上降低对k值的敏感性; (2)结合两种不同的分类方法:模糊kNN和SVM方法,对基于基尼指数的新的文本特征选择方法与其它著名的文本特征选择方法进行比较和分析实验,结果显示它的性能超过或可与现有的特征选择方法相媲美,但在计算量上比其它方法要小得多。
其他文献
企业应用集成能够通过计算机硬件、软件、标准和业务过程的结合,实现多个孤立应用的无缝集成,从而使它们可以相互通信。传统的企业应用集成解决方案,主要是点到点的集成和基于中
无线网格(Wireless Mesh)是最近几年新兴的网络连结方式。它具有极大的灵活性、便利性和适应性,将成为今后几十年的主流网络连结方式。但是因为每个节点都要为其他节点传递信
基于模型的诊断(Model-based diagnosis, MBD)作为一项灵活性高的推理技术,克服了传统专家诊断方法的缺点,极大地推动了人工智能向前发展。近年来,随着系统集成化、自动化程
随着社会的发展和人类生活水平的不断提高,人们对医疗技术的需求也在急速增长,微创手术的广泛应用将是未来医学的一个发展方向。手术导航系统作为计算机辅助手术的重要应用,
工作流技术是进入90年代后计算机应用领域的一个新的研究热点,对工作流进行深入的研究对于提高企业信息化程度、业务运行效率,降低业务成本,从而整体提升企业的竞争力有着重
“计算机基础教学平台”和“在线考试系统”属于大学计算机基础教学改革项目,这两套系统是使用动态Web技术构建的应用系统。目前两套系统的硬件体系结构为单一的Web服务器体系
虚拟专用网是指采用隧道技术以及加密、身份认证等方法,在公共网络(如Internet)上构建专用网络的技术,数据通过安全的“加密通道”在公众网络中传输。随着企业信息化程度的发展,对
目前,高校教师资源管理缺乏技术理论支撑,导致师资管理不当,师资流失严重,急需能够正确分析教师类型与流失原因的分类系统,从而能够为相关管理人员提供及时地、有针对性地决策依据
随着手机、PDA等移动设备在生活中越来越常见,利用具有身份识别功能的移动设备进行小额的日常付费成为当前的热点。移动设备的私有性和个性化特点使其成为代替各种银行卡或现
基因微阵列数据中包含的遗传信息为疾病的预测诊断提供了新的方法,但是其高维度、高噪音、高冗余、小样本的特点,对传统模式识别方法提出了挑战,因此特征选择成为该领域的研究热