论文部分内容阅读
虽然现在网上有海量的信息,例如Google能检索出成千上万的网页,但是仍然有很多信息没有办法被搜索到。很多知识不能存储于文档或者数据库中,而仅存在于人的脑子中,这些知识被称为隐性的知识(Tacit Knowledge)。正是由于有很多知识并不能用书面形式表达,所以我们需要一种方法,能找到掌握这些知识的专家。通过与专家面对面的交流或者发送电子邮件询问的方式,得到更多原本不可能得到的知识。专家主要分成两类,一类是企业内部的,还有一类是学术界。本文关注的重点是学术界的专家寻找。虽然都是寻找专家,但是在学术界和在企业里,寻找的方式还是有些不同的。在企业,寻找专家主要通过每个人在企业内公开的资料,个人简介,通信的邮件等,并且寻找的范围也相对小且固定,都是集中在一个企业内部。而在学术界,主要通过每个学者的主页(Homepage),发表过的论文,参加过的会议等信息来寻找专家,并且寻找的范围更广,几乎涉及全世界所有的大学和研究所。本文提出了一个专家寻找的通用模型框架,可以将很多模型融合到框架中并结合不同的方法,提高专家寻找的精确度和鲁棒性。该框架通过文档作为中间参数对查询主题与候选专家之间的关联度进行打分。我们将专家寻找的过程分为三部分,分别是文档重要性打分,文档与查询主题关联性打分和文档与候选专家间关联性的打分。每一部分都可以使用不同的方法对其进行打分,并且还能有效的结合多种打分方法。接着我们在实验中使用了多种方法为专家寻找模型框架的各部分进行打分,并且使用了不同类型的数据集,例如计算机数据集DBLP与生物医学数据集MEDLINE。以此证明我们框架的通用性与鲁棒性基于上述方法,本文完成了一个生物医学领域的专家寻找系统BMExpert,其功能是通过对MEDLINE数据集的挖掘,寻找与用户输入查询主题相关的生物医学领域的专家。BMExpert是基于一种改进过的语言‘模型,这种改进过的语言模型能够同时考虑文章内容和文章所属杂志影响因子的影响。根据我们的实验,BMExpert的表现要优于同类网站。