面向混合数据模型的文本搜索技术及优化策略

来源 :东北大学 | 被引量 : 0次 | 上传用户:pengsuli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络的不断发展,各种数据大量地涌现,而这些数据中,很多是以混合形式出现,称为混合数据。混合数据通常由结构化数据和非结构化数据构成,其中非结构化数据主要以文本形式体现。如何从这些大量混合数据中搜索到用户需要的信息一直是个有挑战的而又急待解决的问题。而文本搜索的任务是如何从大量数据中找到与查询文本相关或满足用户需求的文本。因此,在计算机领域,文本检索一直是个热点的话题。文本搜索(即检索)是信息检索的一个核心部分。而本文的重点是如何在混合数据上进行文本搜索以及优化。近年来,已提出了很多关于文本搜索的相关技术,主要分为两类:旨在构建一个准确而又合理的相似(相关)度函数;而另外些技术重点研究如何对查询文本进行关键词扩展或优化技术。但是,这些技术的研究重点都仅仅放在单纯文本的匹配上,忽略了混合数据中除文本以外的其他结构化数据。所以,直接使用这些技术得到的返回结果常常是不理想的。此外,由于混合数据包含各种各样的结构化数据和非结构化数据,导致数据检索技术面临更加复杂的问题。如何充分利用结构化数据来辅助文本搜索从而达到优化的目的是一项具有挑战性的工作。本文提出了一种面向混合数据模型的搜索技术及优化方法。主要贡献如下:(1)针对混合数据模型的特点,提出了一种属性分类策略;(2)在此策略的基础上给出相应的属性打分方法并提出了的文本搜索的基本方法;(3)在此策略的基础上,针对结构化数据利用挖掘技术,得到一些属性规则;(4)基于这些属性规则,提出了几种过滤方法和排名的策略,进而优化了文本搜索的策略。最后,通过在基于HP真实数据上大量实验测试表明,本文所提出的优化算法同现有的其他技术相比较,会得到更高的准确性和召回率。
其他文献
本文论述了用数字图像技术及数理统计知识对编织复合材料预制件表面图像进行编织均匀性检测的方法;详细阐述了检测系统的硬件结构、软件结构及其实现方法。系统通过对复合材料
句法分析是自然语言处理中的一个中心课题。根据目标的不同,目前主要有两类研究方向:第一类着眼于句法分析的完整性,主要依赖于大规模形式化的语言知识;另一类着眼于提取与应用相
该文以企业产供销一体化决策支持系统为研究对象,进行如下研究工作:在概述企业决策支持系统基本知识的基础上,分析了决策支持系统的基本特点,论述了决策支持系统的功能与结构
该论文对于基于提升方法的整型小波变换进行了初步的研究,在此基础之上对静止的遥感图像压缩开展了一些工作,主要包括:1.对图像压缩的原理和发展历史进行了综述,并比较了传统
该文采用CORBA中间件技术对配电管理系统中的图形子系统进行了研究与设计.文中针对配电管理系统中图形子系统与其它子系统之间存在跨平台、跨语言的问题,采用中间件技术构建
Internet宏观拓扑的演化是复杂网络理论研究的重要组成部分,受到了学者们的广泛关注,并在该领域取得了长足的发展。掌握宏观拓扑的演化规律,有助于理解其形成规律,建立更加符
电子商务网上交易的信息不对称性和风险导致了顾客对网上购物的不信任。如何提高消费者对卖方的信任已成为电子商务发展急需解决的问题。信任机制和信誉评价模型在促进交易双
随着Internet的飞速发展和广泛应用,大量的网络病毒已将Internet作为其一种主要的传播途径。其中利用电子邮件传播是最直接的方式。为了使邮件病毒的查杀工作对用户及邮件服务
该文回顾了传统的数据加密技术,研究了当前多媒体信息隐藏技术的发展状况,着重分析了图像空间域排列变换和频域变换的特点,找到了静态图像加密算法的加密原则—好的图像加密
主动实时数据库(ARTs-DBMS)完善地集成了传统数据库、实时系统及主动规则的技术与机制.主动实时数据库系统的高效性要求以内存数据库(MMDB)作为底层支持,论文以自行研制开发