基于神经网络的文本自动分类系统的研究

被引量 : 0次 | 上传用户:koptity
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是信息处理领域的一个研究热点,它是指在给定的分类体系下,根据文本内容自动确定文本所属类别。文本自动分类技术是文本挖掘的核心,是组织和管理海量信息的有效手段,是几乎所有基于内容的文本管理的研究基础,并被广泛应用于信息处理领域。因此文本自动分类的研究具有广泛的商业前景和现实意义。本文对现有文本自动分类领域的关键技术:中文分词、特征选择、权重计算、分类算法做了深入的研究分析,并在此基础上,对该课题进行进一步的探讨,设计实现了一个基于神经网络的文本自动分类系统。该系统采用模块化的设计,关键算法和功能均封装在模块中,使系统具有良好的扩展性。本文设计的文本自动分类系统的核心模块是预处理模块、文本表示模块和分类器模块。在预处理模块中首先调用中科院分词算法ICTCLAS对语料进行分词,接着进行特征词的提取即剔除文档中的对文本自动分类贡献不大甚至影响分类效果的虚词、标点等部分。在目前的文本自动分类系统中,一般通过手工建立停用词表来实现特征词的提取,但这种方式的效果在实际应用中并不理想,本文开发的系统则采用根据单词词性和停用实词表相结合的方式来实现剔除停用词,较大的提高了系统的预处理速度。文本表示模块中采用不同的特征评估函数和权重计算方法选取出相应的特征项并根据用户的选择确定特征向量的维数,构建文本向量空间。分类器模块中,分类算法的选择是设计和实现模块功能的关键。在详细研究了各种分类算法的基础上,本模块选择神经网络作为系统的分类算法。并在分类器模块中,根据需求的不同选择不同的方式调用神经网络分类器。本文遵循软件工程的思想,采用VC++作为开发平台,设计和开发出一个基于神经网络的文本自动分类系统。在论文的核心模块开发部分给出了实现这些核心模块所需的数据结构和算法。本系统的核心功能和算法都采用标准C++进行开发,使得系统有较高的处理效率且易于移植到其他平台环境。同时,在系统中加入了异常处理机制,保证了系统的稳定性和健壮性。
其他文献
<正>1985年4月8日,省委农村政策研究室副主任武玉铭同志把《关于〈山西农经〉正式出刊的请示报告》给我并交代说:"王庭栋同志说,省农经学会要有理论宣传阵地,要办刊物。前年
2013年1月4日,人保部发布消息,将在6个省份各选择2至3个市县作为试点,将依法强化社会保险基金行政监督的同时,进一步加强社会的直接监督,并同时研究基本养老保险基金投资运营
主要介绍了模拟锁相放大器和数字锁相放大器原理、特点、过渡和发展过程.通过数字锁相放大器的硬件的模块化结构、灵活的算法设计、软件的升级能力、应用的范围和特点以及性
作为探索微观世界工具,对撞机在粒子物理近三十年激动人心的进展中崭露头角,已成为一种占主导地位的高能加速器.北京正负电子对撞机(BEPC)瞄准τ粲能区的物理窗口,自1988年建
随着劳动力、原材料等生产成本的提高以及人民币升值,中国家具制造业的综合成本已经超过越南等新兴市场国家,中国家具业发展进入追求经济效益型的质量增长阶段。本文通过分析
自2005年汇率改革以来,人民币对美元稳步升值,而人民币币值问题一直是人们关注的热点,因为人民币的币值会影响到我国的贸易状况,资本流动,进而影响到我国的经济发展。中国仍
基因修饰技术是用于基因组定点改造的分子工具,目前主要有锌指核酸酶(ZFN)技术、转录激活子样效应物核酸酶(TALEN)技术和CRISPR-Cas核酸酶(CRISPR-Cas)技术。这些核酸酶都可
本文从心理契约的内涵、特征、结构、作用等方面剖析了心理契约与员工激励的内在联系,并进一步地分析了心理契约与激励之间的关系,在此基础上提出了如何利用心理契约实现员工
随着移动终端的不断普及以及智能化,以及越来越多的网民以及企业的参与,移动互联网下的商业应用开发也逐渐呈现多样化,伴随这商务应用产生的就是支付问题,本文主要是针对移动
目的:研究肺康复对稳定期COPD患者肺功能、运动耐力的影响。方法:选择稳定期COPD患者100例,随机分为对照组和实验组,两组患者在常规内科药物治疗的基础上分别接受单模式肺康