基于核主成分分析和径向基神经网络的文本分类研究

被引量 : 0次 | 上传用户:xifeng125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术是文本挖掘和信息检索的重要基础,其所完成的主要任务是在预先给定的类别集合下,根据文本内容判定其所属类别。到目前为止,大部分文本分类工作还是由人工来完成的,这显然会耗费大量的人力物力。当今社会是一个信息爆炸的社会,互联网上各种电子文本信息增长异常迅速,传统的人工文本分类已渐渐不能满足需要,而基于人工智能的自动文本分类(以下简称为文本分类)已成为自然语言处理领域一个重要的研究方向。文中首先对文本分类系统的系统结构和核心技术进行了探讨,深入的分析和研究了一个典型的文本分类系统各子模块所采用的算法。通过横向比较,分析了各种算法尤其是文本表示方法、特征降维算法以及文本分类算法的优缺点。神经网络有很强的学习、联想和容错能力,能进行大规模的分布和并行信息处理。而RBF神经网络除具有上述神经网络的共性外,还具有收敛速度快、全局最优、网络设计简单等特性。因此,文中尝试将RBF神经网络应用于文本分类,并对基于传统特征选择算法和RBF神经网络的文本分类算法进行了实验。文中还对特征选择和特征抽取两种文本特征降维方法进行了深入研究,从理论角度分析指出了传统特征选择算法的局限和不足——其或者为求解最优特征项子集或次优特征项子集而导致计算不可行;或者为降低计算复杂度,通过构造评估函数来挑选满足一定最优化准则的特征项以构成特征项子集,付出的代价是不能保证找到最优特征项子集,甚至不能保证找到一个次优特征项子集。针对上述问题,并考虑到文本数据存在的维数较高、非线性以及特征项之间复杂相关的特性,文中引入了基于核主成分分析的特征抽取算法,对其进行了深入的理论分析和可行性分析并将其应用于文本特征降维。神经网络在文本分类领域较少采用,主要原因是文本输入空间维数过高,导致神经网络性能受限制,而引入基于核主成分分析的特征抽取算法正好可以弥补这个缺陷。因此,文中提出了一种基于核主成分分析和RBF神经网络的分类算法。算法首先将文本输入空间映射至高维特征空间以消除文本特征项之间的非线性;然后在特征空间中实施主成分分析以获取各“主成分”,藉此消除各特征项之间的复杂相关性,并通过将文本输入空间中的输入向量投影到各“主成份”向量上实现文本特征的降维;最后利用降维得到的语义特征训练径向基神经网络分类器。实验显示,文中提出的算法能有效地对输入空间进行特征降维,并能改善RBF神经网络的分类性能,适于大规模文本实时分类任务。
其他文献
在教学实践中,学生们面对众多的心理咨询理论经常会感到困惑。本文通过对心理咨询理论的多样性、目的和作用以及整合趋势的探讨,从总体上加深学生对心理咨询理论本质的理解,
未来15—20年是我国水利水电发展的重要机遇期,同时也受到生态与环境等多方面因素的制约。做好水利水电建设与生态保护两篇文章。做到人与自然和谐相处,要从科学规划做起,维护战
<正>一、引言管理记分法由美国学者仁翰·阿吉蒂所创。严格来讲,它是一种定性方法,但是结合上市公司自身的各种信息披露后,也可以实现定量与定性的结合。使用管理记分法进行
校园文化是一个学校的历史发展、办学理念以及办学特色的综合反映。大学生社团组织在学校的校园文化建设中发挥着不可替代的重要作用。同时积极向上的大学生社团组织为提高大
班级学生自我教育、自我管理在中学德育中具有重要作用。本文通过文献研究以及结合个人实践体会,从理论与实践层面就中学开展该项活动进行研究,以期能深化对其的理解,以推动
<正>根据销售企业销售的是存货还是固定资产,可以将企业集团内部固定资产交易分为两种类型:一是一方生产的产品另一方购进后作固定资产;二是一方使用的固定资产另一方购进后
对大豆花叶病毒SMV抗性的遗传研究一直是大豆抗病遗传研究的热点之一。本研究以哈91R3-301×黑农41组合构建了遗传群体,其F2分离单株的SSR标记基因型基本符合1:2:1的比例,说
基于互联网的节水灌溉网络信息平台是精确农业的重要组成部分,是实现我国灌溉信息化的重要途径,是农业信息化的发展方向。介绍了节水灌溉网络信息平台的系统的分析与设计、开
本论通过对比分析的方法,从《致我们终将逝去的青春》、《青が散る》入手,首先对文学作品的思想立意、主人公设定、中心主题、表现手法进行比较,最后结合时代背景进一步分析
<正> 例1:盛某某,女,28岁。农民。1985年3月22日分娩感受外邪,出现头痛,咳嗽,畏寒,发热,全身酸楚,四肢冷痛等症,急送某医院治疗,5天后上述症状好转,自觉肢体活动受限,四肢不