基于实体的海量数据在线检索关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:binguo404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网页信息迅速爆炸的时代,为提高用户的检索效率,对网络数据进行有效的整合成为了一个重要的研究课题。网络数据呈现半结构化状态,如商品数据、博客等,并且数据来自世界各地,语言习惯的不同导致描述方式也可能不一致,因此处理起来会比较困难。现有的实体识别方法多是针对文本形式的词组或是关系数据,无法处理网络数据的问题,而专门针对网络数据设计的实体识别算法,如多数针对商品数据设计的实体分类算法,它们一般存在如下的不足:第一无法满足时间效率的要求,即这些方法如果用到实际工程系统中,用户需要经历很长的等待时间;第二对领域知识有较大的依赖,现有的方法无法做到领域无关且无先验知识的实际要求;第三实体识别效果不好,无法取得类似关系数据上的效果。针对以上问题,本文在以商品数据为研究对象的前提下,提出了一种基于实体的海量数据在线实体分类方法。本文采用属性提取的方法将半结构化的商品结构化,以此来计算商品间的相似度,在此基础上又提出了两种优化方案,即通过网络的分类优化和基于用户反馈的分类优化。在属性提取方面,本文提出了基于模式和基于距离的两种方法,该方法无需先验知识且无需人为监督,最终提取出属性的同时还生成了两个本地知识库,用于优化后续的分类结果;针对提取的属性信息,本文提出了同义词发现算法,用于排除商品描述中的笔误以及用词习惯不同的问题;结合属性信息,本文提出了全新的相似度度量方法,并依此将商品按实体聚类;对于实体聚类的结果,本文提出了基于网络的优化方案,利用网络上的知识去识别跟多的商品属性信息;本文还提出了基于用户反馈的优化方案,提出了针对三种不同用户行为的优化方法;最后本文结合真实的商品数据,通过大量的实验验证了本文算法的有效性,同时在理论研究的基础上搭建了一个基于实体的在线商品检索系统,验证了本文算法在工程上的实用性。
其他文献
随着网络技术的不断发展,特别是高带宽时延乘积网络的出现,现有的TCP拥塞控制机制已经远远不能适应新网络环境的要求,越来越多的科学工作者投入到研究TCP拥塞控制的工作中,使
随着嵌入式技术的发展,越来越多的嵌入式系统中使开始用实时操作系统(RTOS)。嵌入式实时操作系统正逐渐成为嵌入式研究热点。但许多RTOS由于发展历史悠久、规模较为庞大、实
现代设计、制造和经营管理的方向是自动化、智能化、信息化,计算机技术的应用加速了产品的设计和生产过程,提高了产品质量,降低了成本,从而使劳动生产率大幅度提高。本课题通过在
传统的集散控制方式所实现的供水系统,达到了“以分散控制为主,集中管理为辅”的系统要求,可以基本上满足城市自动化供水的需求。但这种系统的最主要缺点是:系统开放性差、而且是
随着计算机技术的发展,急剧产生海量的数据。如何从这些数据中提取有用的信息是一个重要的问题。粗糙集理论-一种新的数据分析方法-在分类的意义下定义了模糊性和不确定性的概
现场稽核就是稽核对象对被稽核对象进行现场检查的过程。目前在国内的现场稽核(审计)中,大多数单位还采用传统的手工方式进行,另外现场稽核是一个经常变化的过程,也就是说现场稽
随着世界经济全球化的加快,国内外市场环境要求国内的公众电信运营企业在经营理念、管理模式上能有一个较高层次的飞跃,以求在电信运营业的国际化竞争中立于不败之地。客户服
随着电信市场竞争的不断加剧,基于客户关系管理的信息化支撑工作越来越重要。在此背景下,BSS(Business Support System)系统的建设任务摆在面前,虽然整个项目有国际咨询公司的参
随着网络技术的发展及链路带宽的不断提升,Internet上承载的音频、视频流业务日益丰富。这些新兴的多媒体应用需要网络提供端到端的QoS控制和保证。然而,目前的Internet缺乏有
很多实际应用问题中包含的信息可以抽象成图,将实体抽象成点,实体间的相应关系抽象成边,解决好图问题就可以很好地解决好与之对应的实际问题。但是随着数据量的累积,相应的图模型