基于文本挖掘的实体搜索的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:morenedu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络搜索的研究是当前计算机科学领域研究的热点与前沿,研究重点逐渐从原始的关键字搜索趋向于更加智能更加复杂的高级搜索,如实体搜索领域。在实体搜索中,输入为一个关键字或语句查询(如“信息检索”、“网络协议”),输出为一系列与此查询相关的实体的列表(如人名,或时间表述等)。实体搜索大大扩展了网络搜索的范畴和深度,具有重要理论意义与实用价值。 本文即研究互联网及企业网中的实体搜索问题,针对一般性的实体搜索问题解决三个主要问题:(1)实体识别,(2)备选实体查找,(3)备选实体排序。实体识别,即标识出哪些是实体,属于哪类实体。备选实体查找,即应用信息检索的方法,在数据集中检索出与查询相关的实体。备选实体排序,即基于和查询的相关性,将这些被选答案进行排序,并将排序结果作为搜索结果反馈给用户。在整个搜索过程中,排序是核心问题,决定了搜索的准确性和搜索效率。 针对实体识别问题,本文针对不同的实体类型,定义了相应的实体识别的方法,并应用字符相似度和上下文相似度来解决实体归一化的问题,即将表述同一实体的不同描述聚合到同一类中。 针对备选实体查找问题,本文应用传统的信息检索的方法查找与查询相关的文本;并针对不同文本对实体搜索的贡献差异,提出了一个基于分类的文本过滤算法。 针对备选实体排序问题,本文提出两个排序算法:一种是无监督的两层模型算法,将文本和查询之间的关系,即文本和实体之间的关系,以合理的方式结合在一起,以得到最终查询结果;另一种排序算法为一种有监督的学习算法,应用一个线性学习模型,通过爬山算法对模型的特征参数进行学习,并定义了一套适用于一般性实体搜索的特征。 实验结果表明,本文提出的实体搜索算法有效的解决了网络中的实体搜索问题,明显优于基于其它传统搜索算法的实体搜索的方法。同时,此实体搜索算法独立于实体类型,可广泛适用于多种类型及多种领域的实体搜索。
其他文献
AdHoc网络又称为多跳无线网络(Multi-HopWirelessNetwork),是一种特殊的无线移动通信网络。AdHoc网络中所有节点的地位平等,无需设置任何中心控制节点,具有很强的抗毁性。 网
随着现代测控领域的发展以及后PC时代的到来,新型嵌入式系统及其开发环境正在成为研究与开发的重点与热点。但是嵌入式软件由于其自身的特点,既要满足不同应用领域产品的功能要
虚拟装配技术是虚拟现实技术在制造业领域中的典型应用,相对于传统装配技术而言,该技术能够降低生产成本、提高产品质量和生产效率,因此虚拟装配技术成为了近年来CAD/CAM相关
作为网络教学的一个重要的组成部分,答疑系统在老师和学生之间的交流方面发挥着重要的作用。现有的答疑系统主要缺陷是缺乏对问句语义的理解,提供的答案不尽人意。然而完全解决
随着网格技术的发展和应用范围的扩大,不同的资源特性和独立的安全策略使得网格的安全方案异常复杂。如何安全的共享分布于不同领域不同平台的网格资源,成为网格安全面临的主
数字水印技术是近几年提出的一种产品版权保护技术。人们为了保护数字产品不被非法侵权,将版权标志、用户序列号或与产品相关的信息作为水印信息,嵌入到数字产品中,以进行产品版
本文对民族地区高校网络教学设计与评价进行了研究。文章从建构主义学习理论入手,通过对传统教学模式与网络教学模式的比较,总结出网络教学模式所具有的开放性、自主性、协作性
近年来,通信市场的竞争由单一的价格战演变为形式多样的资费套餐业务的竞争。各大运营商纷纷推出各种资费套餐业务吸引用户。要想在竞争中取得有利的地位,套餐策略必须紧跟用户
学位
在竞争日益激烈的电信行业,高效利用各个独立、分布的业务系统在长期生产经营活动中积累沉淀下来的数据,是电信运营商正确制定营销策略,取得竞争优势的重要保证。然而,运营商独立