【摘 要】
:
如今,互联网上的数据量呈指数级增长趋势,各种各样的数据与日俱增。面对如此浩瀚的数据海洋,如何从中快速、准确地获取用户需要的信息越发成为一个亟待解决的问题,这也是如今
论文部分内容阅读
如今,互联网上的数据量呈指数级增长趋势,各种各样的数据与日俱增。面对如此浩瀚的数据海洋,如何从中快速、准确地获取用户需要的信息越发成为一个亟待解决的问题,这也是如今的信息检索技术所要面对的巨大挑战。目前,信息检索中引入语义信息的主流做法是使用机器学习方法LDA训练主题模型。尽管融入LDA主题信息后,检索性能有所提升,但是LDA模型的算法复杂度太高,导致其训练主题信息时容易受限于语料的规模和主题的数目,因此不能很好地解决如今大数据时代面临的检索问题。2015年微软分布式、高性能工具LightLDA的开源,使我们看到了这一问题解决的希望。本文正是着眼于大数据时代面临的检索问题,探讨了 LightLDA在信息检索中应用的可行性和有效性,主要工作包括以下两个方面:第一,将LightLDA应用到信息检索模型中。我们利用LightLDA对几个规模较大的TREC数据集进行了主题信息的训练,并将训练后的主题信息融入到语言模型框架中,构建了基于主题信息的检索模型(简称LLBDM);然后在此基础上,利用信息熵的概念尝试构建了新的检索模型(简称LMLIE)。最后,把这两种模型的效果和信息检索中的Baseline做了比较,并分析了相关参数对模型的影响。通过实验,验证了 LightLDA在信息检索模型中的可行性和有效性。第二,将LightLDA应用到伪相关反馈中。我们利用LightLDA对伪相关反馈文档进行了主题信息的训练,然后基于Rocchio伪相关反馈框架和上述主题信息,构造了伪相关反馈模型Rocchio-LightLDA。最后,把Rocchio-LightLDA模型和伪相关反馈中的Baseline模型做了比较,并分析了相关参数对模型的影响。通过实验,验证了 LightLDA在伪相关反馈中的可行性和有效性。通过以上两方面的研究,我们成功地把LightLDA应用到了信息检索领域,为如今大数据时代面临的检索任务提供了一种可行的解决方案,同时对基于海量数据检索的相关问题也有一定的借鉴意义。
其他文献
随着信息技术的不断发展,全球信息存储量正在以57%的复合年增长率膨胀。大量数据密集型应用对现有的网络存储架构提出了更高的要求。对象存储技术同时具备传统SAN快速访问的
二十世纪九十年代,随着人类基因组计划的开展,极大地促进了基因组学和蛋白质组学的发展,人们获得了海量的氨基酸残基序列和蛋白质序列。但在蛋白序列数据迅猛增长的同时,蛋白
如今,如何在海量的信息中检索到自己感兴趣的资料已经成为非常值得关注的问题。而图像所包含的信息,具有丰富和直观的特点。因此,图像检索技术在近年来成为了一个新的研究热
在互联网广泛应用的影响下,特别是微信、微博、问答系统等新媒体的出现使得互联网每天产生海量的短文本信息。这些短文本的长度短、内容少、用词不规范、数据量庞大而且属于
随着网络规模扩大,IPv4作为Internet上使用最广泛的网络协议,其面临着地址空间的枯竭、带宽瓶颈、数据保密、服务质量以及网络安全等问题。为了迎接挑战,建立IPv6网络成为业界共
随着科技进步和社会发展,工业控制自动化领域成了信息物理融合系统(Cyber-physical systems, CPS)一个重要的应用领域。CPS是一种基于3C(Computation, Communication, Contro
随着信息化时代的到来,由不同的企业、单位建立起来的信息化网络数也越来越多,用户电脑数量也是骤增。这些网络在建立之初由于没有很好的考虑到风险管理的因素,或多或少的存
随着网络、通信、信息技术的进一步发展,变电站设备状态监测将向系统化集成化方向发展,形成以状态监测为基础的设备智能管理系统。但各子系统间缺乏有机联系,没有对各种实际对象进行建模和描述,各个厂商按照各自不同的理解进行设计,造成不同系统之间的互操作而临很多复杂问题。而IEC61850作为国际唯一的通信标准,定义了统一信息模型以及统一的标记配置语言,将IEC61850引入到变电设备的状态监测集成平台,用来
开放体系结构(OA)是当前海军作战领域研究的一种先进的技术,它作为一个综合的策略,目标是将允许使用和实现海军领域中覆盖海、陆、空和水下平台的软件构件、测试案例和场景、模
食品分拣系统是一个涵盖机械、光电、图像处理等为一体的自动化分拣系统。在食品加工生产线上,分拣系统能够对物料进行自动分类。这种分拣系统自动化程度高,安全、准确、高效