基于概念语义相似度的文本信息检索研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:jhq0327
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络信息的剧增,人们越来越依赖于信息检索技术来寻找信息,但目前基于关键字的传统搜索方法并不能很好地满足人们的信息需求。由于忽视了资源本身所含的语义信息,传统的基于关键字的信息检索,只能获得较低的查全率和查准率。本体理论和技术源于知识工程和人工智能领域,能够很好的处理基于语义的推理机制和自然语言理解问题,因而成为改进传统信息检索方式的良好途径。相比于传统的基于关键字检索方法,基于本体技术的语义信息检索能减少不相关的返回结果,提高检索结果的查全率和查准率,更加符合用户的需求。  本文的主要工作由两个部分组成:  (1)对概念语义相似度计算方法进行分析和研究的基础上,本文提出了一种综合的语义相似度计算方法。在相似度计算时充分考虑数据层(Data Layer)、本体层(Ontology Layer)和上下文层(Context Layer),并对本体层的语义相似度计算进行了细化,重点对基于语义距离的相似度计算方法进行了改进。实验验证上述方法的有效性。  (2)提出了一种文本信息检索方法,把本体技术结合到传统的全文信息检索中。对初始查询进行查询扩展,利用概念语义相似度,对扩展词的规模和查询权重进行有效的控制,并结合向量空间模型(Vector Space Model,VSM)和本体技术对检索结果文档的分值进行计算,过滤与原始查询语义相关度较小的文档,最后实验验证该方法的效率。
其他文献
非结构化P2P网络和结构化P2P网络是两种典型的P2P拓扑结构,非结构化P2P网络使用洪泛方法,具有较好的稳定性,但是可扩展性和查询效率较差。结构化P2P网络使用分布式哈希表方法
海马区域作为哺乳动物和人类大脑组成中的一部分,属于边缘系统并且在从短期记忆到长期记忆的信息合并和空间导航功能中扮演着重要的角色。近十几年来,对大脑海马区的研究取得了
为了更好地满足市场和顾客的需要,印刷电路板(PCB)的生产方式往往以小批量多品种为主。利用传统的统计过程控制(SPC)方法,很难保证统计所需的样本容量,而当采集到了足够的样
随着中国互联网产业的发展,出现了大量的像淘宝、京东这样拥有海量图片的网站,并且图片的数量还在以指数级别的规模增长。当用户在访问这些网站时,页面中图片流量能占到页面总流
由于在商业领域的巨大成功,以数据库、面向对象、网络等技术的综合为主要依托的信息技术(IT)是计算机科学技术中发展最快的领域之一,也是应用最广的技术之一。面向文本、数据
随着生物信息学的发展,大量的蛋白质需要进行分析。但对于许多蛋白质序列,人类并不清楚它们之间的进化关系,也不清楚它们所具有的生物学功能。这就需要对蛋白质进行序列比对
现今,信息技术高度发达,伴随经济工业对计算机智能控制要求的不断提高,嵌入式系统的应用需求越来越大,尤其在经济工业各个重要领域都要求使用时间控制严格的实时系统。虽然市
对图像数据进行有效分析之前,图像的平滑和分割是最重要的步骤,它们的成功与否,直接影响后续工作的质量。近年来,基于偏微分方程的图像处理受到了研究人员的广泛关注。将图像
体病相关是中医体质学研究的核心内容和难点,人们以前往往是根据医生经验来分析的,而医生经验的不同,辨证也有所差异,这在很大程度上阻碍了中医体质学的发展。因而提出客观的
作为一种网络的通用件,统一用户数据库是下一代网络架构、网络融合和业务融合领域的研究热点。统一用户数据库需要支持多种访问接口,如LDAP接口、XML接口等,如何实现这些应用