论文部分内容阅读
随着计算机技术、网络技术、数据库技术的快速发展与普及应用,网络信息爆炸式增长,而其中绝大部分信息以文本形式存在。如何从这海量的信息中快速高效的获取数据,成为信息处理领域亟待解决的问题。文本自动分类技术作为处理和组织大量文本数据的关键技术应运而生并取得了快速的发展。基于主题的文本分类是根据文本的内容将文本划分到预先定义好的类别中去。机器学习方法由于其自身的灵活性并能够取得较好的分类效果,因此在文本分类中得到了广泛的应用。机器学习方法要经过文本的预处理,特征选择,特征加权,训练分类器并进行分类等过程。特征加权是文本分类中的重要环节,对文本的分类性能有直接的影响。通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法,实验表明,该方法比传统的特征加权方法TFIDF具有更好的分类性能。情感分类是文本分类的重要分支,它已经逐渐成为了信息检索和自然语言处理领域的热点研究问题。机器学习方法同样适用于文本的情感分类,但是其效果却与传统的基于主题的文本分类有所不同。本文选用了在网络上被广泛使用的中文情感分类数据集,采用机器学习方法,对比分析了在机器学习的各个过程中不同方法对情感分类性能的影响。由于情感分类的语料更加复杂多变,传统的机器学习方法很难在情感分类中取得较高的性能。本文通过对评论性文本的分析,结合基于词典和规则的方法将文本划分成情感句集合和细节句集合,进一步提取出文中的关键句集合,分别对全部文本,情感句集合和关键句集合进行训练得到不同的分类器,最后使用投票策略将得到的3个分类器进行融合,得到最终分类结果,通过实验表明此方法可以有效的提高情感分类的性能。