论文部分内容阅读
近年来,随着计算机移动技术和社会媒体的发展,微博已经成为一个热门的信息交流平台。但是由于微博平台中的数据量非常庞大,在这样浩瀚的数据海洋中提取出带有观点的句子不是一件容易的事情,所以如何提取出带有用户观点的句子也越来越受到关注。但是,目前的中文微博观点句提取方法都集中在使用句法分析与分类器,忽略了微博主观信息所具有的内容关联性。因此,本文将传统观点句识别方法与共现词相结合,提出了基于内容共现词的中文微博观点句识别算法。本文的研究内容包含以下几点:首先,利用Latent Dirichlet Allocation主题模型对微博数据进行分析,将微博数据进行聚类处理,使得微博数据根据其表达的内容所属的主题进行分类,从而提取出每一个主题下具有典型的内容代表性的词语,将这些词语组成内容共现词集合,从而得到一个特征集合;然后,使用斯坦福大学的句法分析工具:Stanford Parser对微博数据进行句法分析,从而形成了宾州句法树结构。本文对于大量的微博数据进行了分析从而提取出其中主观性语句的宾州句法树模板,通过模板匹配实验验证了该模板的有效性,从而识别出较为明显的观点句;再次,考虑到目前较为常用的主观性语句识别方法,并且使用SVM和朴素贝叶斯分类器相结合的方法,加入内容共现词、形容词、动词、情感词与2-POS这五类特征,通过COAE2013提供的数据进行了训练实验与测试实验,证明了Latent Dirichlet Allocation主题模型所提取出的共现词作为分类器特征是有效的,从而识别出句法分析无法识别的较为隐蔽的观点句;最后将表达方式匹配的方法与分类器的方法相结合,并且进行了实验验证。本文工作的主要内容及创新点如下:(1)考虑中文的内部关联性并使用以隐含狄利克雷分布主题模型为基础提取共现词。首先由隐含狄利克雷分布主题模型得到每个主题下的高相关度词分布情况,提取其中名词;然后进行重复提取并进行阈值的判断,从而确定其中的共现词特征。(2)在传统观点句识别方法的基础上,采用了多种分类方法相结合的Weka分类工具,并且考虑到了共现词特征对于分类结果的影响,对于特征进行了实验与简化。