融合词项重要性的多层Markov网络检索模型

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:dalu008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索是当今计算机领域研究的热点之一,其目的是为了满足用户对信息需求,即从海量信息中查找到所需信息。但是由于用户查询与文档表示的不确定性,往往会影响文档与查询的匹配效果,导致检索效果低下。  在检索模型中,图模型的方法被用于表示文档及查询语句,Markov网络检索模型是其中的一种图模型,利用Markov网络可构造词项子空间、文档子空间,从中提取最大词项团与最大文档团,通过对文档集做初次的检索,从检索的结果中构造查询子空间,从中提取出最大查询团,可构造扩展的Markov网络检索模型。在前述的研究中,度量词项采用的是BM25的形式,其缺点是BM25权重假定了词项之间的独立性,在计算时仅考虑了词项的频率信息,忽略了词项之间的依赖关系、位置特征、语序特征等。  针对上述问题,本文将基于词重要性的词项权重的计算方法应用于多层的Markov网络查询扩展模型中,该方法首先建立了文档的词项图,然后根据词项图得到词项的共现矩阵和词项间的概率转移矩阵,最后利用马尔科夫链的计算方法得到词项的权重。将得到的词项权重运用在扩展的Markov网络模型中。在5个常用的标准测试集ADI,MED,CRAM,CISI和CRAN中进行了实验,结果表明本文提出的模型优于一般的基于词袋权重的多层Markov网络检索模型。  本文的工作在于:  (1)在多层Markov网络扩展的检索模型中使用了基于词重要性的方法来度量词项的权重。模型先构造多层Markov网络模型,分别是词项子空间,文档子空间,查询子空间。将这三层Markov网络信息加入到检索模型得到扩展的Markov网络模型,且在模型中词项的权重考虑了词项之间的依赖关系即采用了基于词项重要性的方法。  (2)验证并且分析了本文提出的模型的检索效果,通过调节模型中的参数考察了其对检索效果的影响,结果表明,相比于一般的基于词袋权重的多层Markov网络检索模型,融合词重要性的多层Markov网络检索模型具有更好的检索效率。
其他文献
随着嵌入式移动多媒体应用的日益丰富与普及,保证智能终端的实时性显得非常突出。能保证智能终端的处理性能的处理器的快速发展也使多核处理器上的实时任务调度问题成为计算
随着纺织工业的发展,嵌入式技术在纺织工业的应用越来越广泛,如电子提花机、经编机、圆机和毛巾机等机械系统。嵌入式技术的应用大大提高了纺织生产效率,节约了成本。但是在织造
近年来,入侵容忍作为一种数据库安全技术,得到了越来越多研究者的重视。目前入侵容忍数据库都将研究重点放在了事务依赖的追踪以及事务恢复的一致性和效率等方面,并没有考虑事务
拒绝服务DoS(Denial of Service)攻击对互联网中的相关服务产生极大影响,而慢速拒绝服务LDoS(Low rate DoS)攻击作为一种新的DoS攻击,其攻击效率更高、隐蔽性更强,使得传统DoS攻击的
磁盘阵列技术通过数据分条技术来提高存储系统的吞吐率,通过数据冗余技术来提高存储系统的可靠性。当一个磁盘阵列建立好之后,随着用户的使用,可用的空间将会越来越小,这个时候需
不断膨胀的移动互联网业务规模为电信核心网的可扩展性带来挑战。作为3GPP提出的下一代核心网,IMS(IP Multimedia Subsystem)沿用了集中式的组网方式,可扩展性存在严重问题。利用
三维动画是三维图形表现技术中的代表性技术,作为模拟真实和虚幻视觉世界的高级技术,在创作空间和表现力上具有其他同类技术不可比拟的优势,在户界面设计上应用三维动画可以在操
随着SOA(Service Oriented Architecture)及云计算等新兴计算模式的快速发展,作为SOA具体实现的Web服务(Web Services)也得到了迅速发展。如何根据用户对服务质量和安全及成本等
根据CAP理论,分布式文件系统在可用性、一致性和分区容忍性三个方面不可能同时满足。在分布式环境中,硬件故障、软件故障、网络分离及电源故障都可能导致分布式文件系统中节点
传统模式下的云应用的开发、发布、部署和维护有着诸多的不足,它们往往给应用开发者、云平台开发者以及云平台终端用户带来繁重工作量。让云平台以虚拟设备的方式封装云应用并