论文部分内容阅读
网络搜索的研究是当前计算机科学领域研究的热点与前沿,研究重点逐渐从原始的关键字搜索趋向于更加智能更加复杂的高级搜索,如实体搜索领域。在实体搜索中,输入为一个关键字或语句查询(如“信息检索”、“网络协议”),输出为一系列与此查询相关的实体的列表(如人名,或时间表述等)。实体搜索大大扩展了网络搜索的范畴和深度,具有重要理论意义与实用价值。
本文即研究互联网及企业网中的实体搜索问题,针对一般性的实体搜索问题解决三个主要问题:(1)实体识别,(2)备选实体查找,(3)备选实体排序。实体识别,即标识出哪些是实体,属于哪类实体。备选实体查找,即应用信息检索的方法,在数据集中检索出与查询相关的实体。备选实体排序,即基于和查询的相关性,将这些被选答案进行排序,并将排序结果作为搜索结果反馈给用户。在整个搜索过程中,排序是核心问题,决定了搜索的准确性和搜索效率。
针对实体识别问题,本文针对不同的实体类型,定义了相应的实体识别的方法,并应用字符相似度和上下文相似度来解决实体归一化的问题,即将表述同一实体的不同描述聚合到同一类中。
针对备选实体查找问题,本文应用传统的信息检索的方法查找与查询相关的文本;并针对不同文本对实体搜索的贡献差异,提出了一个基于分类的文本过滤算法。
针对备选实体排序问题,本文提出两个排序算法:一种是无监督的两层模型算法,将文本和查询之间的关系,即文本和实体之间的关系,以合理的方式结合在一起,以得到最终查询结果;另一种排序算法为一种有监督的学习算法,应用一个线性学习模型,通过爬山算法对模型的特征参数进行学习,并定义了一套适用于一般性实体搜索的特征。
实验结果表明,本文提出的实体搜索算法有效的解决了网络中的实体搜索问题,明显优于基于其它传统搜索算法的实体搜索的方法。同时,此实体搜索算法独立于实体类型,可广泛适用于多种类型及多种领域的实体搜索。