论文部分内容阅读
随着Web2.0技术的不断发展,网络用户已经从被动的“读者”变成了主动的“建设者”,越来越多的人借助于Web2.0提供的博客、论坛、评论网站和新闻组等舆论载体发表自己的观点和看法,收集和分析用户的这些观点和看法是了解网络舆情、进而体察民意的重要途径之一。面对不断涌现的海量的网络舆情信息,传统的人工采集、整理、分析信息的难度很大,借助计算机软件成为分析网络舆情信息的必由之路。与传统的面向商品评论的观点挖掘方法不同,面向网络舆情分析的观点挖掘技术需要应对舆情信息数据的海量性、类型的多样性、情感表达的细粒度性和混合性等诸多新的特点。针对舆情信息的特点,如何有效地挖掘网络中不同类型数据中存在的观点信息,是当今网络舆情分析所面临的关键问题,也给计算机技术研究与工程应用提出了许多具有挑战性的课题。为了更好地解决面向网络舆情分析的观点挖掘技术所面临的诸多困难和不足,本文从不同类型的网络数据角度出发,对网络中舆情信息的提取与汇总、情感相似性计算、面向观点的句子压缩以及观点社群构建等内容进行了研究,主要工作包括以下几点:(1)针对博客搜索结果数据,本文提出了一种基于WordNet词典注释的方法来扩展博客搜索结果中情感的表示模型。本文通过新表示模型计算观点相似性,并利用谱聚类对博客搜索结果中的观点进行聚类。在每一个观点聚簇,文本提出了一种基于互增强随机游走模型的方法,在对博客搜索结果项进行排序的同时,提取簇中的情感关键词。在真实博客搜索引擎上的实验结果证实了本文所提出方法的可行性和有效性;(2)针对用户生成内容中的短文本数据,本文提出了一种基于增强情感向量的方法度量网络短文本之间情感相似性。以中文博客情感语料为基础,基于概率话题模型的方法被引入学习短文本中潜在情感状态的概率分布。利用该概率分布,本文采用增强情感向量表示待比较的短文本对,从而计算短文本之间的情感相似性关系。增强情感向量既考虑了句子中情感词之间的潜在联系,又考虑了短文本中程度副词、标点符号等其它的特征。在中文博客句子上的实验结果表明,基于增强情感向量方法的性能超过了直接情感词匹配的方法以及基于潜在情感状态向量的方法;(3)针对中文长句子数据,文本设计了一种从单词重要性、语言连贯性以及观点强度等三个方面度量单词重要性的函数,并基于该函数,采用动态规划的方法提出了一种面向观点的中文长句子压缩算法。实验结果表明,该方法可以去掉中文长句子中次要的事实信息,并保留句子中最重要的表达观点的部分。该方法为进一步观点持有者和观点目标的提取提供了更加准确而有效的数据源;(4)针对标签和评价数据,本文将用户对资源的观点定义为用户对资源的评价与标注,并将网上评价系统中发表相似观点的用户集成起来形成虚拟的观点社群。利用观点社群中用户有相似的兴趣和爱好的假设,为用户个性化推荐资源、标签和潜在的朋友等。通过在真实数据集下的实验表明,该方法可以有效地为用户推荐其感兴趣的信息;(5)针对网络不同类型的舆情数据源,本文设计并实现了一种面向网络舆情分析的搜索引擎原型系统POSearcher。POSearcher采用了一种“话题-观点”词对的方法作为舆情信息的基本存储单位,并基于“话题-观点”词对和文档组成的双层图结构,提出了一种TO-HITS算法来对系统中索引的文档进行排序。POSearcher为网络舆情信息检索、分析和监控提供了一种新的工具。总之,文本从网络上不同类型数据的典型特征和挑战出发,针对面向网络舆情分析的关键技术展开研究,如舆情信息提取与汇总、短文本情感相似性计算、面向观点中文长句子压缩、观点社群的挖掘以及舆情搜索引擎的构建等。理论分析和大量的实验结果证明了这些方法的有效性和高效性。我们希望基于这些方法和技术进一步开发网络舆情搜索、分析和监控系统。