论文部分内容阅读
舆情分析可以更清晰化社会各个阶层民众对各种社会现象和社会问题的关注度、看法以及意见和行为倾向,从而为政府相关部门提供更广泛更深入更及时的信息参考和决策支持。随着互联网的普及,来自于互联网的信息与日剧增,这些信息中蕴含着真实客观的社会舆情,因此,有必要对这些互联网信息进行深入分析和挖掘,洞察民众的意愿,掌握网络舆情动态。尤其是在以互动交流为主要特点的Web2.0模式下,微博、BBS、新闻评论等成为了网络舆情的主要贡献者,然而,来自于这些信息源的信息纷繁复杂、实时海量,如何对这些信息进行有效地组织和分类以满足舆情分析的应用需求跃升为一个迫切需要解决的重要课题。又因为这些信息最显著的一个特点是大都以短文本的形式存在,短文本中所包含的有效特征很少,这使得传统的文本自动分类技术不再完全适用,必须深入研究适用于海量短文本自动分类的关键技术。 微博以其开放性、互动性、共享性和传播迅速性等特点,成为了民众参与度最高的公共舆论平台,是影响社会舆论的一支重要力量,因此,本文主要针对微博短文本信息展开研究,在深入分析微博信息特点的基础上,确定了本课题需要重点解决的三个问题,即文本内容短小造成的文本特征的高维稀疏性,以及微博数据天然的类别分布不均衡性导致的训练数据集呈现的偏斜性,还有微博数据的实时变化所带来的增量学习问题。本文针对微博短文本分类的这三个重要问题,展开了深入研究,主要贡献和创新点如下: 1)构建了挖掘微博短文本“隐含特征”的用户-超链主题模型 针对微博短文本特征的高维稀疏性,本文将微博信息中与主体文本内容有着紧密联系的结构化信息,即用户信息、用户行为信息和文本链接信息,引入到主题模型中,用于辅助挖掘微博短文本中的“隐含特征”,从语义角度对短文本进行特征扩展。本文所构建的新的用户-超链主题模型(User-Hyperlink Topic Model,UHTM)通过微博用户信息这一“纽带”将微博的文本信息、用户信息、用户行为信息和文本链接信息有机地结合在一起,实现了统一建模。UHTM模型将博文按照用户划分,明确博文中各部分文本的作者,并且基于该用户文本中的超级链接将外部链接文档合并进来,即以用户信息为桥梁来将当前微博文档和外部链接文档连接在一起(而已有的考虑了链接信息的主题模型都是基于文本信息将当前文档和外部链接文档连接在一起的),从而可以更深度地理解微博短文本信息。 2)提出了一个融入了类别信息的UHTM模型的参数估计方法 微博的实际数据分布具有天然的不均衡性,即某个或某些类的数据很多,而另外某个或某些类的数据很少,这必然会导致分类所用的训练样本集是偏斜的。在偏斜数据集上学习训练UHTM模型,必须要考虑类别信息对参数估计的影响,否则会导致主题模型所挖掘出的主题偏重于大类的词项,而忽视来自于小类的词项,最终会影响整体的分类效果。因此,本文提出了一个融入了类别信息的UHTM模型的参数估计方法,该方法的核心思想是首先使用一个新的融入了类别信息的词项权重计算方法来计算词项的权重,该权重计算方法涵盖了“词项的类别分布”、“词项的类别文档频率差异”和“词项的类别相关度”三个重要的类别影响因子,然后将词项的权重引入到UHTM模型的参数估计中,从而将体现数据偏斜性的词项的类别信息通过词项权重融入到了UHTM模型中,这样就保证了UHTM模型在挖掘主题的同时兼顾了数据的偏斜性。 3)构建了一个基于隐主题的SVM增量学习模型 随着时间的推移,微博数据分布会有变化,文本特征也会有变化,对于基于历史数据学习训练而成的分类模型,在一段时间之后可能就无法正确分类某些新数据了。本文构建了一个基于隐主题的SVM增量学习模型,此模型通过隐主题实现了样本的增量学习和文本特征的增量学习的有机结合。该模型中文本特征的增量学习是通过对之前样本的学习所得到的“主题-词项”概率分布作为学习新样本的先验概率来实现的,并通过一个新的“主题继承度”的定量计算方法且利用词项的权重来量化所有的先验知识;而样本的增量学习的核心思想则是充分利用了SVM支持向量的特性,将支持向量集作为历史分类模型的代表,并使用一个新的“有指导的单连接凝聚式层次聚类算法”来发现支持向量集中的高相似项,之后对这些高相似项的大“簇”,进行修剪,获得精简的支持向量子集,再与新增数据集中违反KKT(Karush-Kuhn-Tucker)条件的数据子集合并,来学习训练分类模型。此方案的学习方式是轻量级的,可以更灵活地应对短文本数据的实时变化给分类带来的困扰。 全文以扩展的UHTM主题模型为主线,将针对短文本特征的高维稀疏性,数据的偏斜性和数据的实时变化给短文本分类造成三大困扰的研究有机地贯穿在一起,不仅实现了从语义角度对短文本的特征扩展,还兼顾了数据的偏斜性,且对数据的实时变化也能灵活应对。本文的研究方向是当今学术界的研究热点,研究成果具有相当高的学术价值和理论意义,可以直接集成应用于实际的舆情分析系统,使得舆情分析系统在信息处理的自动化程度,精度和效率等方面得到全面显著的提升,具有很高的应用价值和实际意义。