论文部分内容阅读
社交媒体的兴起,不仅降低了人们沟通的成本,而且改变了人们消费信息的习惯,人们不再满足于被动的消费信息,转而成为制造和传播信息的主体,使得数据传播迅猛,数据量空前巨大。以微博媒体为例,微博媒体的短文本特性,如长度较短,广泛使用特殊字符,表达口语化等,使得传统长文本检索方法在微博检索中性能退化,甚至完全不可用。但是,主流社交媒体平台,如微博、Twitter和Facebook等,又迫切希望构建快速、智能的信息过滤系统,为用户提供更加有效的信息推送服务。这就需要对适用于微博短文本检索的方法进行深入研究。现有的许多改进短文本检索性能的方法中,通过引入外部信息提升微博检索性能的方法,简单易行且性能优异,得到了研究者的广泛关注。但随着对引入外部信息方法研究的深入,研究者发现面对微博检索问题,现有方法仍存在以下问题亟待解决:1.相关微博排序困难。通常检索方法能检索出大量相关微博,但是如何排序,使有限的推送中包含更多的信息,如何去掉冗余的信息,使推送服务质量更高,仍然有待研究。2.微博文本有效聚类困难。由于微博数据量大,文本短,表达口语化等特性,通常的聚类方法效果较差。为了解决上述问题,本文提出了一种微博检索方法,通过结合微博文本的聚类信息,达到理解用户实际搜索意图,提高检索性能的目的。本文的主要成果总结如下:1.提出了一种微博检索框架,探究了几种基本查询扩展方法对检索性能的影响。2.提出了一种多元检索模型,比较验证了该多元检索模型的检索性能。3.提出了一种基于非负矩阵分解的聚类方法(BNMF,Basic Non-negative Ma-trix Factorization),在聚类约束下提升了检索模型的检索性能。4.提出了一种基于相关约束的聚类方法(RNMF,Relevance Non-negative Ma-trix Factorization),对比于BNMF,验证了该聚类方法的性能。本文在TREC(Text REtrieval Conference)提供的Microblog数据集上进行的实验表明,基于聚类约束的高质量微博检索方法,相比较于基本检索方法,能够有效提升微博检索性能。同时,基于相关约束的聚类方法,相比较于基本非负矩阵分解的聚类方法,有性能上的提升。