基于神经网络的文本分类系统NNTCS的设计和实现

来源 :中国科学院研究生院(软件研究所) | 被引量 : 5次 | 上传用户:jiangshan1017
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位。 本文首先对当前文本分类领域几个关键问题的常用解决方法进行了研究,同时阐述了典型文本分类系统的核心技术和系统结构,对文本分类的应用范围进行了描述。然后着重介绍了一个基于神经网络的文本自动分类系统NNTCS,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。 在NNTCS中,第一步是对中文文档进行汉语分词,从文档中抽出特征词,并且统计各特征词的词频。 系统使用神经网络作为分类器,特征词的词频组成原始特征向量,和神经网络输入层的神经元一一对应。在文本训练的时候,利用标记好的训练文档集进行网络训练,误差反馈算法对网络进行权值调整,得到固定的权值作为分类知识存储。而在文本分类的时候,输入待分类文档的特征向量,运行固定权值的网络,得到的输出值与阈值比较确定类别。 系统中引入了信息检索中的常用技术——潜在语义索引,把原始向量空间转换到抽象的k维语义空间,实现原始向量空间的降维,提高网络训练速度和性能。 神经网络在一般的模式识别中很常用,但是在文本分类中较少采用,主要原因是向量空间太庞大,网络性能受限制,而引入潜在语义索引对空间降维可以避免这种缺陷,两者相得益彰。 训练过程中结合遗传算法,优化神经网络的初始权值。遗传算法有全局搜索的特点,可以避免神经网络局部收敛的问题,充分发挥遗传算法和神经网络各自的优势。 最后对NNTCS进行了开放性测试,实验表明NNTCS对文本分类具有较高的平均查全率和平均精度。
其他文献
研究采用生物膜-活性污泥组合工艺(IFAS)处理模拟市政污水,硫化物作为电子供体,推动自养反硝化脱氮。在厌氧无COD添加,NO3-、S2-的质量浓度分别为(100±10)、(80±5) mg/L,温度25℃
思维导图是一种有效的思维模式。为帮助学生在写作中更好地掌握思维导图,写作训练可以从课文仿写开始。即教师在阅读教学中,绘制出课文思维导图,挖掘课文的写作特点。然后请
<正> 脑梗塞并癫痫发作,常发生于急性期、恢复期和后遗症期,以癫痫发作为首发症状的脑梗塞则少见,且易延误诊断。我们近6年来遇到8例,现报告如下。
改革开放以来,昆山充分发挥紧邻上海的独特区位优势,积极吸引外资,主动地融入国际分工体系,大力发展开放经济,取得了经济跨越式发展的奇迹。昆山通过吸引外资来发展开放型经
试验研究不同水平的纯中草药饲料添加剂对生长獭兔肠道内环境的影响。采用单因素分组设计,将120只生长獭兔随机分为6组,每组4个重复,每个重复5只,在同一饲养环境下进行饲喂。
专题地图集是关于某一区域自然资源、社会经济、发展规划等方面的专题信息的地图图幅集合。将专题地图集在网络环境下进行发布,使专题地图信息服务于大众具有很强的现实意义。针对网络环境下的专题地图集存在结构组织不统一、地图表达不够美观、专题数据更新滞后等问题,引入网络动态专题地图集的概念,设计使用xml(Extended mark-uplanguage,可扩展标记语言)组织地图集结构,采用专家定制图幅、实时
本文以苏州国彩文化传媒有限公司为例,从员工的成本管理意识、成本管理制度、原材料采购、存储及验收、设备管理及成本核算等方面,分析该公司在成本管理上的不足,并提出了相
说起舞剧《牡丹亭》,自它第一次首演距今已有十年之久,但它的成功仍然是一件里程碑意义的事情,为中国的舞剧事业奠定了坚实的基础,其成功的意义及价值仍然值得我们去探索和学
目的探讨分析髋关节腔内注射透明质酸钠治疗早期退行性髋关节炎的安全性及临床疗效。方法随机选取我院2009年1月至2010年1月80例退行性髋关节炎患者,随机分成研究组和对照组,
本文是作者1996年5月参加川鄂陕三音院作曲教学经验交流会提交的三篇关于作曲主课教学系列论文的摘要,分别探讨长期以来困扰作曲主课教学的三个问题:一、在音乐人才市场上作曲专业人