信息网数据库系统中文自然语言查询研究

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:lake_zhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着信息管理内容的不断扩展,出现了丰富多样的数据模型,而针对不同类型数据库的自然语言处理也是数据库管理中亟待解决的问题。因此提出了一种适用于信息网数据库系统的中文自然语言查询的模型设计和实现方法。根据信息网模型(INM)的半结构化特点以及查询语言的文法形式,在数据模型提取基础上建立扩充的语义知识库,通过对自然语言结构中的关系实体进行层次分析获得相对应的模糊关系树。然后选取树的最高层次实体作为INM数据库的查询语言IQL的查询起点,按照语义分析结果依次构造完成IQL的查询语句。实验证明该方案对于信息网数据库系统的中文语言查询可行且具有较高命中率。
其他文献
本文设计了一个云环境下的基于MapReduce的在线聚集系统,相对于传统的批处理模式,在线聚集能在处理过程中不断地返回近似结果,使得用户可以提前终止处理,从而在云平台即用即付的收费模式下节省大量计算成本。
使用索引可以提高管理文本信息的效率,但传统的搜索引擎返回结果为文本全文,表示该单词包含在文本文件中,其语义较为模糊,从而降低了信息管理、信息提取的有效性。针对文本特定上下文区域进行检索,可以获得关健词相关的语义环境,从而更有效地管理文本信息。介绍了一种基于上下文索引的文本局部匹配搜索引擎,该引擎包含上下文提取语言、上下文索引、匹配算法等模块,可以在文本的特定范围内提取模式信息,同时支持索引的随机访
随着NoSQL运动的兴起和在社交网络等热门应用中产生了越来越多有价值的图数据,图数据库开始成为重要研究趋势.将信息检索领域的关键词搜索用于图数据库的查询,能让用户不必掌握复杂的查询语言和数据库模式就能查找结构化信息.介绍了一个高效的图数据库关键词搜索引擎FindGrape.该系统通过构建一种新颖的基于磁盘的分布式索引,利用图中局部拓扑信息来实现在搜索前裁剪匹配节点,从而显著提高搜索效率,特别是对大
当前深层网络数据库的数量以惊人的速度增长。查询表单是访问深层网络数据的入口,由于深层网络数据库中的数据隐藏在查询表单之后,难以获取其信息,造成大量信息资源的浪费。为集成深层网络数据,向用户查询提供方便,首要问题是理解查询表单。为此,在统计分析的基础上,提出了一种提取表单信息的方法。通过观察大量含有查询表单的页面,发现查询表单表现的一般结构,从而确定可能存在的表单语法。虽然来源不同,但通过表单语法引
由于人工输入的商品容易存在信息错误、信息缺失以及主观上描述的差异,无法使电子商务数据满足传统实体识别算法的要求。本文设计并实现了一个基于电子商务的实体分类系统,提出了针对电子商务数据的数据清洗、词性标注、实体识别等算法,并集成了用户行为反馈技术以不断优化实体分类结果。系统采用真实商品数据做实验,验证了系统的有效性。
含谓词的XPath查询为小枝查询(twig query),它是XQuery最基本的查询模式。小枝查询算法有两大类:小枝分解和整体小枝连接,其中TwigStack系列算法处理小枝查询的效率是最优的,但其缺点在于不支持Twig Query中含“OR”以及通配符“*”的查询;在大型商业数据库管理系统中,TurboXPath是DB2用于处理小枝查询的基本算法,它对XPath的支持较全面,但由于TurboX
随着Web 2.0相关技术的发展,传统爬虫无法适于动态网页中用户评论的获取.主要工作包括:1)分析了动态网页用户评论的挑战;2)设计了一种新的用户评论获取方法ReviewCrawler,ReviewCrawler根据网页的DOM树,利用对比学习思想挖掘包含用户评论的节点,并在获取评论中学习新特征词;3)利用真实商品评论验证了ReviewCrawler准确性、有效性,实验表明ReviewCrawle
在一个字符串集合中,通过一些字符串的相似性函数寻找与查询字符串相似的字符串集合被称为字符串的近似查找。这种查找常应用于数据库、信息检索等各个领域。但是在某些特定的情况下,需要考虑字符串在查询中的重要性,即权值。针对这种同时考虑字符串相似性与权重的查询,在字符串集合中选择最佳的查询结果。首先提出了一个分为两步的Dtree算法处理这样的查询,并在两个步骤中设计了基于树状的索引结构来支持这样的查询。在真
实时OLAP对数据装载与更新、查询分析性能等方面具有更高的敏感性,面向DBMS的数据ETL和复杂SQL查询,提出了一种轻量级并行处理方法,即通过并行ETL过程将大规模、高维度事实表按照特定策略分布于多个数据节点,并基于多数据节点实现MDX多维查询分析的并行处理。采用Hadoop MapReduce编程模型,基于开源OLAP引擎Pentaho Mondrian实现,并通过实验及一个实时数据仓库商业项
随着移动计算的发展和移动设备的普及,移动数据管理已经应用在军事、交通等很多领域中。本文针对室内移动数据查询这一特殊的“限制性路径查询”开展研究工作。在室内空间的图模型的基础上不仅给出了该查询准确的形式化定义,还提出了CRS算法来解决室内环境下的限制性路径查询。最后的实验结果证明了该方法的有效性。