基于机器学习的中文文本主题分类及情感分类研究

被引量 : 0次 | 上传用户:hahaohan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、网络技术、数据库技术的快速发展与普及应用,网络信息爆炸式增长,而其中绝大部分信息以文本形式存在。如何从这海量的信息中快速高效的获取数据,成为信息处理领域亟待解决的问题。文本自动分类技术作为处理和组织大量文本数据的关键技术应运而生并取得了快速的发展。基于主题的文本分类是根据文本的内容将文本划分到预先定义好的类别中去。机器学习方法由于其自身的灵活性并能够取得较好的分类效果,因此在文本分类中得到了广泛的应用。机器学习方法要经过文本的预处理,特征选择,特征加权,训练分类器并进行分类等过程。特征加权是文本分类中的重要环节,对文本的分类性能有直接的影响。通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法,实验表明,该方法比传统的特征加权方法TFIDF具有更好的分类性能。情感分类是文本分类的重要分支,它已经逐渐成为了信息检索和自然语言处理领域的热点研究问题。机器学习方法同样适用于文本的情感分类,但是其效果却与传统的基于主题的文本分类有所不同。本文选用了在网络上被广泛使用的中文情感分类数据集,采用机器学习方法,对比分析了在机器学习的各个过程中不同方法对情感分类性能的影响。由于情感分类的语料更加复杂多变,传统的机器学习方法很难在情感分类中取得较高的性能。本文通过对评论性文本的分析,结合基于词典和规则的方法将文本划分成情感句集合和细节句集合,进一步提取出文中的关键句集合,分别对全部文本,情感句集合和关键句集合进行训练得到不同的分类器,最后使用投票策略将得到的3个分类器进行融合,得到最终分类结果,通过实验表明此方法可以有效的提高情感分类的性能。
其他文献
随着开发年限的增长,新场气田气井压力下降较快,部分气井压力已接近管网输送压力,现有集输系统压力级制不再适用,原有天然气脱水工艺效果变差,影响了外输天然气质量。因此,增
毫无疑问,在市场经济条件下,市场作为资源配置的基础性手段在追求效率方面的作用无与伦比,由此我们迅速进入了工业化时代。然而事物都是辨证的,市场在促进公平方面却又无能为
“肝藏血”首见于《素问·调经论》及《灵枢·本神》,是中医藏象理论的重要内容,如“肝藏血,……血舍魂”,“故人卧血归于肝,肝受血而能视”等。肝在体合筋,开窍于目,肝之经
将风电场理论功率和实际功率之差作为弃风电量的时间序列,利用其混沌性对其进行相空间重构,采用人工蜂群算法(ABC)优化的最小二乘支持向量机(LSSVM)参数,获取弃风电量预测模型(ABC-
本文研究的商品评论信息为在线商品评论(后文简称“商品评论”)是指用户在第三方点评网、电子商务平台、论坛、微博等评论性网站上对商品、商家或服务发表的观点。在商品评论
西汉时期,汉政权通过独尊儒术、察举制等一系列措施使得各种社会势力逐渐融入到政权体系之中,地方豪强大族、文吏、士人甚至一些贫窭者都实现了向士大夫的转化。至西汉中后期
随着符号学以及认知语言学的兴起,象似性理论越来越受到人们的关注。数种象似性原则已被提出,其中包括数量象似性,顺序象似性,标记象似性,临近象似性等等。这些象似性原则集
继马街书会和胡集书会之后,地处安徽淮河流域的苗湖书会作为一种集体性质口头传唱的活态文化在2008年被列为国家非物质文化保护遗产,从而有效吸引了部分学者及各方的关注。但
天然气作为世界三大化石燃料之一,应用价值一直被人们所关注,所以寻求一种有效的利用方式是各国学者研究的重点。天然气的利用分为直接利用和间接利用两种。其中燃烧是直接利用
《愤怒的葡萄》是美国著名现实主义作家——约翰·欧内斯特·斯坦贝克的一部杰出作品。他是20世纪最有影响力的小说家、剧作家、社会活动家之一。作品主要描述了一户贫苦农民