基于WordNet的概念格语义匹配算法及其在搜索引擎上的应用

被引量 : 0次 | 上传用户:zhangShunsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网用户数量的增加,网上信息迅速膨胀,搜索引擎成为了人们获取新知识的重要手段。然而传统的搜索引擎查询系统大多是基于关键字匹配的,所以在进行搜索时会带来一些问题,比如查询返回信息过多或者不容易找到与查询相关的信息等等。智能化是未来搜索引擎应该追求的方向,这主要表现在两个方面:一是对搜索请求的理解,二是对网页内容的分析。基于概念的智能检索才符合信息检索未来的需求。形式概念分析(Formal Concept Analysis,以下简称FCA)的主要内容是研究“概念”和“概念分层”的数学化描述,其主要思想是:从被表示为形式背景(Formal Context)的数据中获取形式概念(Formal Concept)以及形式概念之间的联系,形成一种以形式概念为元素的格结构——概念格(Concept Lattice)。随着概念格应用的不断深入,概念格之间的匹配研究也越来越重要。本文首先提出了基于概念格的搜索引擎匹配模型,即将自然语言的用户查询与网页文档分别构建概念格,然后进行匹配。在进行概念格匹配时,本文提出了一种基于WordNet的概念格语义匹配算法。目前搜索引擎的智能化表现在对自然语言的语义分析和内容信息的理解,这离不开语义知识库的支持,它是帮助计算机“了解”人类语言的一个媒介和桥梁,也是让计算机逐渐“聪明”起来的物质前提。在众多的语义知识库中,WordNet体系简洁、内容详实,已经成为自然语言处理领域最重要的公用语义资源和语义知识库事实上的国际标准。我们用WordNet来计算词汇语义间复杂的难以把握的语义关系,构造出相似图,然后通过计算节点与节点之间的相似度,节点与概念格之间的相似度,最后得到概念格与概念格之间的相似度。本文还研究了概念格的语义匹配算法在网络爬虫的智能爬行方向的选择方面的重要作用。包括了种子URL的选择,网页的解析与获取,索引库的建立,网页中属性的抽取,造格算法以及概念格语义匹配等多个方面。实验证明在基于FCA的搜索引擎模型中,基于WordNet的概念格语义匹配算法的可行性。FCA的搜索引擎模型的优越性体现在对数据源的有效组织方面,反映出文档之间或者文档中事物之间潜在的语义关系。同时,概念格的语义匹配算法的实用价值和性能也在实验中得到了验证。
其他文献
针对市场高精度电子秤具有高价位、大体积等问题,研制了智能化、便携式、高精度电子秤;本设计采用电阻式应变片传感器为前端信号采集单元,采集的信号通过信号调理电路处理即
一种从冰冻组织中提取中期核并用于快速FISH分析的方法Hedley等1983年第一次提出了从保存的组织中释放细胞核的方法,这种方法经过多次修改,但仍只适用于石蜡包埋的组织。本文建议的方法可以从
将泌乳期大鼠分为对照组、CS组和SS组,利用RT-PCR法对大鼠乳腺组织斯钙素基因进行检测,分析生长抑素对大鼠乳腺斯钙素基因表达的影响。结果表明:乳腺中有STC1表达,无STC2表达
对一类简谐激励作用下含干摩擦和间隙的单自由度碰撞振动系统的动力学特性进行了研究,通过数值仿真揭示了p/1运动随激励频率变化的演化过程以及共存吸引子的存在范围与特点,
运用大学生学习压力感问卷,对长春五所高校大学生的学习压力现状进行调查,根据学生所面临学习压力的内容与程度的不同,确定将大一、大二、大三的学生作为研究对象。同时采用
变电站综合自动化是近年来电气工程应用中快速发展的一个领域,它可以对变电站实施有效的管理、维护和降低资金投入。智能电子设备(IED)是变电站自动化系统中最重要的基本单元
<正> 日本群马大学从1961年至1976年底进行放射治疗的睾丸肿瘤60例中,单纯精原细胞瘤42例,非单纯精原细胞瘤18例,其中混合型精原细胞瘤5例,胚胎癌10例、畸胎癌2例,畸胎瘤1例
经济社会的不断发展,为社会的整体进步带来了积极的推动作用。随着人们购买车辆需求量的加大,汽车生产商为了更好地满足用户多样化的需求,在发动机的生产研制中投入了更多的
<正>养老机构服务标准化建设是养老服务业发展的内在要求,也是建设社会养老服务体系的重要技术支撑。过去由于缺乏统一的养老机构服务质量标准,养老机构开展服务质量建设缺乏
20世纪70年代以来,环境问题成为影响人类生存的重大问题。我国在近30年的改革开放中,经济得到了高速的发展。然而,传统的粗犷型经济增长方式是以牺牲环境和资源的极度浪费为