论文部分内容阅读
对特定实体搜索的研究是一个正在兴起的研究热点。本文研究了专家搜索问题,专家搜索隶属于实体搜索研究领域。目前专家搜索研究中,专家搜索主要是指给定一个主题或领域,搜索在这一主题或研究领域内的专家,即返回给用户一个有序的领域相关专家列表。这种定义和研究方法不能提供更多有关专家信息,限制了专家搜索的使用价值。针对上述问题,本文提出了加入传略信息的专家搜索研究工作,主要工作如下:
(1)设计有关算法实现从一个庞大组织内部网络的异构语料库中自动获取所有专家研究主题及排序列表,同时结合抽取所得专家其它信息(如专家联系方式、个人简介等)形成专家的个人传略,并将相关结构化数据映射到专家传略信息库。本文通过把专家传略的概念引入到专家搜索定义中,扩展了专家搜索中专家实体内涵,使专家搜索系统返回的有关专家实体信息更为丰富。其中,设计实现专家主要研究主题排序算法将排序问题转化为概率估计问题,并设计利用三类不同的相关度度量来估计专家与研究主题相关度。
(2)发现专家实体之间的相关性,并把这种相关性用于专家排序算法。基于实体相关性的专家排序模型是在两阶段语言模型的基础上,利用实体相关性对专家排序结果进行调整。同时,本文利用专家传略中的研究主题排序列表,将这部分信息与已有专家排序结果相融合,实现对专家排序结果的优化。
(3)设计开发专家搜索原型系统。专家搜索是一个应用性很强的研究领域。因此本文在进行算法研究的同时,设计、开发出一个原型系统,支持实验分析和算法验证。通过基于大规模真实异构数据集合的实验,验证算法在现实大规模企业级信息检索应用上的有效性。
实验表明,本文提出的专家搜索有关算法有效地解决了企业级应用中的专家搜索问题,显著提升了专家搜索系统的性能。