论文部分内容阅读
当今时代是一个信息时代,越来越多的企业实现了信息化管理,对一些大型企业或组织,有着大量的内部网语料,如何通过文本检索技术,自动挖掘出企业文本语料中的有用信息,受到了大家的关注。其中专家搜索是近年来的一个研究热点。对于大型企业来说,它的分公司可能遍布世界各地,有着成千上万的员工,专家搜索系统可以找到具有特定经验和技能的人,是企业非常有价值的辅助管理工具。专家搜索系统的目标是在大规模文本语料中找到在某一个领域有一定的知识和技能的人,即谁或哪些人是某个领域的专家。其关键问题就是如何建立主题—文档—专家三者之间的关系。在以往的研究中,各种信息检索技术如语言模型、社会网络、文本分类等被应用到专家搜索系统中,但都没有很好地挖掘出专家作为一个web对象的深层信息。本文在基本模型的基础上,提出了改进的专家搜索模型,从角色决定和主页挖掘两方面改善专家搜索结果。角色决定通过“角色”概念的引入,改善了文档—专家关系,主题—专家关系的描述模型。主页挖掘基于企业语料环境结构封闭性好,相关度高的特点,挖掘候选专家的简历页面信息,增加对候选专家专业领域判断的准确性。同时,为了增强搜索结果的完整性,本文将传统的面向对象的分析方式应用到web对象建模的过程中,提出了web对象的属性挖掘模型,将专家对象的完整信息返回给用户。本文的工作主要包括:●本文介绍了专家搜索的研究现状,详细介绍了基于企业级语料的专家搜索问题,指出了现有方法的局限性。●提出了“角色”的概念,通过“角色”的引入,改善了主题—文档—专家关系的描述模型。提出了专家页面挖掘,通过对特定类型网页的分析,改善专家搜索结果。●将传统的面向对象的分析方式应用到web对象建模的过程中,将单纯的网页文本加以抽取提炼成为web对象。并且提出了web对象属性挖掘模型,挖掘专家对象的属性信息。●设计和实现了一个基于企业级语料的专家搜索系统。在TREC会议2007,2008两年的企业搜索任务数据集上进行了实验,与基本模型的结果相比,各项评测指标有明显提高,显示了改进专家搜索模型的优越性和适用性。同时给出了属性挖掘模型的实验,实验证明了该模型的有效性。