面向主题的中文文本观点检索研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:bianmomo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展和广泛普及,在很大程度上改变了人们的生活方式,人们不仅被动接受信息,还能与外界进行交互。互联网逐渐成为一种交互式媒体,更多的人通过博客B、BS等网络媒介记录自己的心情,发表对各种事物的评论。如何从互联网的海量数据中高效快捷地识别并抽取到针对某一实体的评论性信息至关重要。观点检索,是指利用信息检索与情感分析等技术,寻找针对主题的观点评论等信息。是主题检索与倾向型分析相结合的工作。观点检索的研究已经成为国际上研究的一大热点。中文文本观点检索的目标是互联网用户发表的带有情感倾向的评论信息,这些信息不论对于普通的网络用户,还是对于产品生产商以及其他组织机构等都有很重要的价值。如政府需要了解网络舆情;商家不仅需要了解对于自己产品的评价,也需要掌握有关竞争对手产品性能的反馈;而潜在购买者则希望从已经存在的评价中得到参考和建议。因此,观点检索具有很高的研究价值和应用价值。本文在研究了信息检索理论与文本倾向性分析技术等的基础上,结合国内外关于观点检索的相关研究,提出了基于关联度的文本观点检索算法,该算法综合考虑了观点检索过程中查询扩展,文本相关度计算,文本倾向性分析等过程对观点检索最后结果的影响,从理论上解决了观点检索中不同因素之间相互影响的问题。此外,本文讨论了目前常用于英文文本观点检索的一些方法,将其应用于中文中,并讨论了不同参数,不同资源下上述算法的效果。在阐述上述算法的过程中,本文研究了查询扩展算法,情感词词典构造方法等。此外,本文分别使用文本分类和基于情感词词汇的细颗粒度的方法对观点检索返回的文本进行倾向性分析。最后,本文对上述各种方法一一进行实验,通过实验,验证了上述各方法的效果,实验所得结果证明,本文提出的基于关联度的观点检索算法可以取得较好的效果,从而证明了该方法具有可行性和有效性。
其他文献
随着信息时代的到来,人们对数据交互和通信的需求越来越大。大多数的数据和信息可以通过传统的路由-交换互联网有效传输,但在一些网络设备难以架设的偏远山区以及在河流湖泊
数据挖掘技术通过对数据库中的数据进行挖掘,可以得到很多重要的知识,包括分类知识、聚类模式、关联规则以及序列模式等等。其中关联规则是通过分析数据库中频繁出现的数据之
聚类和分类是数据挖掘中的基本任务。长期以来,关于聚类技术在分类中的研究主要集中在应用聚类对训练数据进行数据预处理,期望通过减少噪音数据的影响提高最终的分类精度,因此,如
在游戏项目开发中,游戏工具的开发始终占据重要的位置。软件工程技术的进步使得越来越多的工程开发理念被应用到游戏领域。无论是游戏设计理念、项目开发流程,都使得开发效率
信息技术的迅速发展使数据库面临的安全问题更加复杂和多样,数据库作为信息系统重要数据的存储和处理核心,往往成为最吸引攻击者的目标。访问控制技术是数据库安全领域的一个
学位
失衡数据集是数据挖掘领域中广泛存在数据状态,由于不同类别的数据样本数量差异悬殊而使得正常的分类算法效果不明显。在数据挖掘领域中还有一个不可避免的问题就是数据缺失,
随着嵌入式系统以及多媒体技术的高速发展,使用嵌入式技术来实现视频点播、视频会议、视频监控等功能己经成为现在的研究热点。这样的嵌入式系统一般都具有功耗低、成本低、
随着互联网的高速发展,网络信息爆炸式增长,于此相比,互联网中的知识却相当匮乏。在此背景下,基于Web2.0的各种交互式百科知识网站应运而生并发展壮大,为用户提供了大量的有
在一个大规模分布式系统中,为了能够减少失效节点所造成的计算损失,基于卷回恢复的容错技术得到了广泛使用,其中具有代表性的如检查点技术。在设计检查点协议过程中一个关键问题
随着信息社会的发展,拥有海量数据的复杂网络不断出现,如何从这些网络中挖掘出有价值的信息是一个十分艰巨的任务。链接预测是数据挖掘领域的重要分支,也是社会网络分析的关