论文部分内容阅读
随着互联网信息资源的日益庞大,信息传输速度的迅速加快,互联网给人们提供的服务途径更加方便,内容不断丰富,例如人们可以在网络上发表博客,将自己知道的有趣的事情和所有的博友分享,也可以对其他博友分享的东西进行评论,发表自己的意见和见解;可以在网络上进行交易,买卖东西,甚至于对交易的产品质量、价格、买卖双方的诚信度进行评价。由于网络活动自己的虚拟性的特点,无论我们是在网络上分享奇闻异事还是在网络上进行交易活动,人们都看不到事情或是事物真实的存在,只能看到事物或事情在网络上的描述性的存在。为了更加加深对这种网络存在的事情或事物的认识,人们更多的是倾向于通过参照网络上现有的对这种网络存在事物或事情的评价来多方位、多角度的认识和了解这类网络存在事物的各个方面的性质,例如之前所介绍的网络奇闻异事的真实性、网络交易产品的质量、性价比、交易双发的诚信度等。但是由于网络评论仁者见仁智者见智,对于同一事物,人们可能会形成不同的评论,但结果不外乎两个,正面或是负面。如何可以通过计算机系统的对这些网络评论进行分析,判断人们对事物的评价倾向,即判断这些中文文本的情感倾向,对网络使用者来说,无疑是具有巨大的价值的。文本倾向性分析属于计算语言学的范畴。在计算语言学以及相关领域,对主观性信息的分析和提取的关注目前的研究并不是很多,尚处于起步阶段,还有很多问题需要进行全面的探索。这项研究涉及到人工智能,机器学习,信息检索,数据挖掘等多方面的基础研究,因此,文本倾向性的分析也具有重要的学术研究价值。本文主要对网络评论语句的特征形式进行分析,结合粗糙集理论中的属性约减、信息熵、模式匹配算法对网络评论语句进行预处理,提出了一种基于信息熵的粗糙约理论在中文文本处理中的应用,对中文文本的倾向进行判断,并通过实验验证了这种判断的可行性。