论文部分内容阅读
随着互联网技术的迅速发展,越来越多的网民通过互联网来表达情绪、意见和看法,推动着网络舆情的发展。尤其是Web 2.0技术的发展,博客、论坛、新闻留言版等成为网络舆情的主要载体。近年来,各级地方政府越来越重视网络舆情的监督与控制。网络舆情具有突发性、直接性、匿名性等特点,对于一些负面网络舆情如果引导不当,会对社会的和谐与健康发展产生不利影响。因此,政府及相关管理者需要对网络舆情信息进行挖掘和分析,这对政府把握舆情发展动态、提高网络舆情监控能力有着重要的意义。网络舆情的倾向分析涉及到文本的情感倾向分析技术。文本的情感倾向分析的主要任务是对文本进行情感分类,即判断文本是正面文本还是负面文本。文本的情感倾向分析是目前自然语言处理领域一个非常热门的研究课题,广泛应用于文本过滤、产品评论挖掘和舆情倾向分析等领域。本文主要是面向网络舆情进行文本的情感倾向分析研究。本文首先通过查阅文献,总结了现有文本倾向分析的基本方法,然后研究了文本分类的关键技术,包括分词、停用词处理、文本特征选择和文本表示等,对文本分类的整个流程有了清晰的认识。文本的情感分类不同于一般的文本分类。一般的文本分类是基于主题分类,例如,将文本分为经济类、政治类、军事类和娱乐类等,与主题相关的词汇对文本的主题分类贡献较大。而对于文本的情感分类,具有情感倾向的词汇可能会对情感分类作用更大。本文在前人所做工作的基础上进行研究,建立了文本情感分类模型,主要包括两大部分,一是情感词库的建立,二是利用支持向量机进行文本情感分类。关于情感词库的建立,主要包括三个工作:一是主观文本提取,二是情感词的自动标注,三是情感词的倾向性计算。首先要对文本进行主客观分类,提取主观性文本,去除具有干扰性的客观文本,为下一步情感词的提取工作打下基础。针对主客观文本分类,本文在他人研究的基础上,利用N-POS模型实现主观句的提取。本文对原方法进行了改进,将句子的长度对主观句权重的影响考虑进去,并结合实际数据证明了改进的效果。接下来,本文利用条件随机场模型自动标注情感词,减轻了人工工作量。最后,利用基于知网的词汇倾向性方法判断情感词的倾向性,并计算情感词的倾向值,从而构建情感词库。在情感词库的基础上,选择情感词作为文本特征,利用TF-IDF方法进行权重计算,然后利用支持向量机方法实现文本情感分类。由于传统的TF-IDF方法没有考虑词汇的情感倾向,本文对TF-IDF方法进行了改进,将TF-IDF方法和词汇的倾向值结合起来作为权重计算方法。然后利用LIBSVM平台构造分类器,将利用原TF-IDF方法和改进后的TF-IDF方法得到的结果进行比较,改进后的TF-IDF权重计算方法使分类效果有所提高。因此,在进行文本的情感分类时,应该将情感词的情感倾向值考虑进去。由于自然语言处理的复杂性和个人能力有限,本文还存在一些不足之处需要以后进一步研究探讨。在情感词的自动标注上,应该寻求更加有效的方法。建立的情感词库还需要完善和扩展,情感词的修饰极性需要进一步研究。