论文部分内容阅读
随着互联网的迅速发展和广泛普及,在很大程度上改变了人们的生活方式,人们不仅被动接受信息,还能与外界进行交互。互联网逐渐成为一种交互式媒体,更多的人通过博客B、BS等网络媒介记录自己的心情,发表对各种事物的评论。如何从互联网的海量数据中高效快捷地识别并抽取到针对某一实体的评论性信息至关重要。观点检索,是指利用信息检索与情感分析等技术,寻找针对主题的观点评论等信息。是主题检索与倾向型分析相结合的工作。观点检索的研究已经成为国际上研究的一大热点。中文文本观点检索的目标是互联网用户发表的带有情感倾向的评论信息,这些信息不论对于普通的网络用户,还是对于产品生产商以及其他组织机构等都有很重要的价值。如政府需要了解网络舆情;商家不仅需要了解对于自己产品的评价,也需要掌握有关竞争对手产品性能的反馈;而潜在购买者则希望从已经存在的评价中得到参考和建议。因此,观点检索具有很高的研究价值和应用价值。本文在研究了信息检索理论与文本倾向性分析技术等的基础上,结合国内外关于观点检索的相关研究,提出了基于关联度的文本观点检索算法,该算法综合考虑了观点检索过程中查询扩展,文本相关度计算,文本倾向性分析等过程对观点检索最后结果的影响,从理论上解决了观点检索中不同因素之间相互影响的问题。此外,本文讨论了目前常用于英文文本观点检索的一些方法,将其应用于中文中,并讨论了不同参数,不同资源下上述算法的效果。在阐述上述算法的过程中,本文研究了查询扩展算法,情感词词典构造方法等。此外,本文分别使用文本分类和基于情感词词汇的细颗粒度的方法对观点检索返回的文本进行倾向性分析。最后,本文对上述各种方法一一进行实验,通过实验,验证了上述各方法的效果,实验所得结果证明,本文提出的基于关联度的观点检索算法可以取得较好的效果,从而证明了该方法具有可行性和有效性。