基于聚类约束的高质量微博检索方法研究与应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:lxh272787054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体的兴起,不仅降低了人们沟通的成本,而且改变了人们消费信息的习惯,人们不再满足于被动的消费信息,转而成为制造和传播信息的主体,使得数据传播迅猛,数据量空前巨大。以微博媒体为例,微博媒体的短文本特性,如长度较短,广泛使用特殊字符,表达口语化等,使得传统长文本检索方法在微博检索中性能退化,甚至完全不可用。但是,主流社交媒体平台,如微博、Twitter和Facebook等,又迫切希望构建快速、智能的信息过滤系统,为用户提供更加有效的信息推送服务。这就需要对适用于微博短文本检索的方法进行深入研究。现有的许多改进短文本检索性能的方法中,通过引入外部信息提升微博检索性能的方法,简单易行且性能优异,得到了研究者的广泛关注。但随着对引入外部信息方法研究的深入,研究者发现面对微博检索问题,现有方法仍存在以下问题亟待解决:1.相关微博排序困难。通常检索方法能检索出大量相关微博,但是如何排序,使有限的推送中包含更多的信息,如何去掉冗余的信息,使推送服务质量更高,仍然有待研究。2.微博文本有效聚类困难。由于微博数据量大,文本短,表达口语化等特性,通常的聚类方法效果较差。为了解决上述问题,本文提出了一种微博检索方法,通过结合微博文本的聚类信息,达到理解用户实际搜索意图,提高检索性能的目的。本文的主要成果总结如下:1.提出了一种微博检索框架,探究了几种基本查询扩展方法对检索性能的影响。2.提出了一种多元检索模型,比较验证了该多元检索模型的检索性能。3.提出了一种基于非负矩阵分解的聚类方法(BNMF,Basic Non-negative Ma-trix Factorization),在聚类约束下提升了检索模型的检索性能。4.提出了一种基于相关约束的聚类方法(RNMF,Relevance Non-negative Ma-trix Factorization),对比于BNMF,验证了该聚类方法的性能。本文在TREC(Text REtrieval Conference)提供的Microblog数据集上进行的实验表明,基于聚类约束的高质量微博检索方法,相比较于基本检索方法,能够有效提升微博检索性能。同时,基于相关约束的聚类方法,相比较于基本非负矩阵分解的聚类方法,有性能上的提升。
其他文献
随着互联网时代的到来,以及智能设备的迅速普及,使得基于视频、音频的多媒体服务迅速的增长,特别是提供视频直播的多媒体服务,得到了广泛的关注和应用,用户已经不满足于仅通
近年来,移动互联网进入一个新的发展高峰。伴随而来的数据量剧增给数据的计算和存储带来新的挑战。在此背景下,云存储逐渐成为了一种被普遍使用的数据存储方式。而云存储环境
近几年,随着互联网的迅速发展和移动智能终端设备的广泛普及,社交网络已渗透到用户的生活和工作中,由于社交网络中用户的广泛参与性和信息的快速传播,对国家和社会影响的日益
现如今,人类的生存和生活方式由于无线通信技术的发展发生了极大的改变。一方面,在实际应用的大规模无线网络系统中,用户(或者说接入点)的空间位置通常是随机分布的,而由于无
随着科学技术的不断发展,市场竞争的不断激烈,企业发展面临的机遇与风险也大幅度的增加,因此企业必须在认真审视自身所处的外部环境以及自身发展阶段的基础上,不断调整与改进自身的总体发展战略,以实现企业的最终发展目标。财务战略作为企业总体发展战略的核心组成部分,是企业提升市场竞争力与可持续发展能力的重要保障。因此,制定与实施合理有效的财务战略,能够帮助企业实现经营发展与价值创造,是企业实现最终发展目标不可
图像边缘是数字图像中最重要的基本特征之一。图像的边缘检测技术在图像处理中、计算机视觉处理中都起着很十分重要的作用。因此,找出合适的方法提取图像边缘具有十分重要的
属性网络近年来非常普遍,例如社交网络和知识图谱,它们与大量的文档信息(例如,推文和维基页面)和位置信息(例如check-in数据)相关联。然而,这种大型网络所蕴含的丰富属性信息
传统模型匹配跟踪方法只考虑了目标自身特征,没有充分考虑目标与所处图像的关系,尤其在复杂背景下,易发生跟踪漂移,甚至丢失目标。针对上述问题,提出一种约束性局部模型匹配(
本文认为企业战略是对企业经营管理主题构思在哲学层面的抽象概括,是企业高层管理者为保证企业的持续生存和发展,通过对企业外部环境与内部条件的分析,对企业全部经营活动所
随着卫星导航领域的迅猛发展,导航信号与我们息息相关,广泛应用于交通运输、水文监测、气象预报和应急救援等领域。开展空间信号质量评估有助于监测导航信号质量,提供高可靠