论文部分内容阅读
通信互联网的迅猛发展产生了海量的数据信息,短信、新闻等文本信息更是呈现爆炸式增长,如何让网民从海量的文本数据中快速获取对自己有意义的信息已成为当前研究的热点。本文的核心工作是利用传统的文本特征提取方法和支持向量机(Support Vector Machine,SVM)进行数据挖掘与分析;同时为了考虑文本的语义信息,减少人为因素的影响,利用神经网络自学习的特点进行文本分类。文本分类主要基于文本表示,传统文本表示通常采用信息增益(Information Gain,IG)、卡方统计和互信息等方法,它们假设词与词之间相互独立,忽略了特征词之间的冗余信息。对于基于SVM的文本分类器,由于SVM单核核函数存在无法完全匹配数据分布的问题,导致系统分类性能有所降低。此外,传统的机器学习算法大部分属于浅层模型,如果训练集数据量较大,文本信息较长,容易出现特征信息丢失等缺陷,并且基于传统统计方法的特征选择方法会增加噪声的影响,而深度学习在面对上述复杂问题时会更有优势。针对上述文本分类存在的问题,本文的主要创新点如下:1.鉴于传统的特征提取法未考虑特征词之间冗余性的问题,本文第二章提出了一种结合IG和改进的最大相关最小冗余(Minimal Redundancy Maximal Relevance,MRMR)标准的二阶段特征选择算法。该算法首先借助IG提取出与类别相关性较强的特征集合,然后利用类差分度的差值动态地改变MRMR中特征与类别之间的互信息权重,进一步筛选出最优特征子集。最后,仿真结果证明了所提算法筛选出的特征表征能力比传统特征选择算法更好,在达到一定精度时,所需的特征数量更少。2.为提高SVM在文本分类中的效果,本文第三章创新性地引入傅里叶混合核函数,提出基于傅里叶混合核函数的SVM文本分类模型。过程中不仅给出了傅里叶混合核函数方程,而且证明了所提核函数的合理性。最终实验结果表明所提的傅里叶混合核函数SVM文本分类模型不仅提高了最终文本分类的准确率,还极大地减少了训练次数。3.针对传统机器学习算法中训练时需要人工筛选特征以及部分算法训练时间较长等问题,本文第四章利用卷积模型中注意力机制(Attention)并行连接长短期记忆网络(Long-short Term Memory,LSTM)以及门控循环单元(Gated Recurrent Unit,GRU),提出了基于Attention机制的短文本分类(Attention Based on LSTM GRU and CNN,ABLGCNN)模型。实验结果表明ABLGCNN模型在最终分类准确度和收敛速度方面有显著优势。