论文部分内容阅读
万维网提供便捷的文档发布和获取机制,现已成为各类信息的聚集地。在万维网中,信息量以指数级别递增,如何从海量的文本信息中挖掘有用的模式或知识已经成为学者研究的热点。在数据挖掘中,为使读者快速地获取感兴趣的内容,研究文本分类,按照一定的分类模型自动归类文本数据。文本数据具有无结构化、主观性、高维度等特点,导致文本挖掘算法很难抽取出有效的易于理解的分类规则,且计算复杂度过高。因此,研究合适的文本特征选择方法进行降维和改进的文本挖掘算法获取分类规则具有很大的挑战。在此背景下,本学位论文主要研究文本预处理、特征选择方法、决策树优化的神经网络分类算法,并将该文本分类系统应用到西藏发展中。主要的工作如下:(1)数据预处理本论文在文本的数据预处理部分主要做如下改进:添加动态停用词表;优化TF-IDF算法,词频计算时将同义词和位置因素考虑在内;添加文档相似算法进行文档去重。(2)特征选择方法本论文提出新的特征选择方法,将样本偏差率和方差作为特征属性的评判标准,对特征属性的重要性进行排序,选取出最佳的特征属性子集。实验结果表明采用本文提出的基于样本偏差率和方差的特征选择方法,其分类精度高于传统的采用词频作为特征选择方法,由此证明本文提出的特征选择方法的可行性和优越性。(3)决策树优化神经网络的分类算法本论文设计一种决策树优化神经网络的分类算法,采用决策树优化神经网络的初始权重和结构。该算法极大降低传统神经网络初始值的随机性,提高隐藏层数目的合理性,有利于最优神经网络模型的生成。实验结果表明,本文提出的分类算法和传统的神经网络相比,分类速度提高11%,分类精度提高2.5%。(4)基于决策树优化神经网络分类算法的西藏发展应用使用本文提出的文本分类模型,自动归类西藏发展相关的文本集为政治、经济、文化和教育,并采用词云可视化技术展示西藏在政治、经济、文化、教育的发展情况,最后采用情感极性分析技术建立西藏发展相关的文本情感极性分类器。