基于共现词的中文微博观点句识别

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zsdown520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机移动技术和社会媒体的发展,微博已经成为一个热门的信息交流平台。但是由于微博平台中的数据量非常庞大,在这样浩瀚的数据海洋中提取出带有观点的句子不是一件容易的事情,所以如何提取出带有用户观点的句子也越来越受到关注。但是,目前的中文微博观点句提取方法都集中在使用句法分析与分类器,忽略了微博主观信息所具有的内容关联性。因此,本文将传统观点句识别方法与共现词相结合,提出了基于内容共现词的中文微博观点句识别算法。本文的研究内容包含以下几点:首先,利用Latent Dirichlet Allocation主题模型对微博数据进行分析,将微博数据进行聚类处理,使得微博数据根据其表达的内容所属的主题进行分类,从而提取出每一个主题下具有典型的内容代表性的词语,将这些词语组成内容共现词集合,从而得到一个特征集合;然后,使用斯坦福大学的句法分析工具:Stanford Parser对微博数据进行句法分析,从而形成了宾州句法树结构。本文对于大量的微博数据进行了分析从而提取出其中主观性语句的宾州句法树模板,通过模板匹配实验验证了该模板的有效性,从而识别出较为明显的观点句;再次,考虑到目前较为常用的主观性语句识别方法,并且使用SVM和朴素贝叶斯分类器相结合的方法,加入内容共现词、形容词、动词、情感词与2-POS这五类特征,通过COAE2013提供的数据进行了训练实验与测试实验,证明了Latent Dirichlet Allocation主题模型所提取出的共现词作为分类器特征是有效的,从而识别出句法分析无法识别的较为隐蔽的观点句;最后将表达方式匹配的方法与分类器的方法相结合,并且进行了实验验证。本文工作的主要内容及创新点如下:(1)考虑中文的内部关联性并使用以隐含狄利克雷分布主题模型为基础提取共现词。首先由隐含狄利克雷分布主题模型得到每个主题下的高相关度词分布情况,提取其中名词;然后进行重复提取并进行阈值的判断,从而确定其中的共现词特征。(2)在传统观点句识别方法的基础上,采用了多种分类方法相结合的Weka分类工具,并且考虑到了共现词特征对于分类结果的影响,对于特征进行了实验与简化。
其他文献
计算机技术的迅速发展已经使得计算机成为了人们生活中不可或缺的组成部分,但是计算机网络上的病毒传播也带给了人们巨大的损失。因此研究计算机病毒的传播机理,分析病毒传播的
目前,高等院校针对学生的管理工作开始多样化,但对学生在学习成绩上的关注始终没有减弱。为了学生让学生享受美好大学生活的同时,能更高标准的完成学业工作,关于评奖评优的促进工
随着计算机网络的迅猛发展,网络规模的迅速扩大,网络资源信息量也呈爆炸式的增长趋势,如何在海量的资源信息中快速定位人们所需资源,并有效的利用它们成为人们所关注的焦点。
随着网络技术的快速发展,XML数据正成为主流的数据形式,已逐渐成为互联网上数据交换和处理的标准,在各个领域都有广泛应用。但由于XML数据路径分支多、存在大量冗余信息,造成
随着科技不断发展,网络的规模不断扩大,网络的技术也在不断推陈出新,在这种环境下,利用模拟方法研究越来越受到研究人员的欢迎。NS2是现在最流行、用户最多的网络模拟器之一
人工智能研究的进展,伴随着新问题的产生,对应着新思路的出现,粒计算就是数据处理的新课题,得到了研究者的关注,成为了研究的热点,形成了人工智能的研究方向。对数据有目的分
随着社会对信息数据的巨大需求,遥感影像数据量呈爆炸式增长,同时,遥感应用对数据处理的巨量需求,推动了遥感影像处理技术的不断发展。高性能集群计算是实现海量高分辨率遥感卫星数据快速处理的重要技术之一,能有效缓解高分遥感应用的“瓶颈”。其中,任务调度模型是提升集群系统效率的关键。作者所参与研发的国家重大专项课题“高分辨率对地观测应用系统”中海量遥感影像共性产品生产系统,具有任务性质单一、子任务量轻、资源
图像拼接技术一直是图像处理、计算机视觉和计算机图形学的研究热点。它可以用来建立高分辨率,大视角的图像,在遥感技术、虚拟现实、医学图像处理、军事、摄影测量等领域中均
无线传感器网络因为其自由度大、节点数量多、网络布局复杂,但也因其应用广泛、前景宽广,使其成为现代网络技术中的研究热点。无线传感器网络定位是无线传感器网络领域中重要
词汇语义关系是自然语言处理中至关重要的研究之一,词汇语义关系不仅是基础语义知识库构建的基本资源,而且在信息检索、机器翻译、情感分析等领域具有十分重要的作用。词汇语义