论文部分内容阅读
寻求合作者是科研工作者的重要学术活动之一,因为合适的合作者会有助于提高学者的研究质量,加快其研究进程。随着信息技术的快速发展,科研社交平台已经广泛出现,并且吸引了大量的研究人员通过虚拟社区来开展科研合作。因此,在这些科研在线平台中开发出高效的合作者推荐系统将有效地促进学术合作与知识共享。信息过载和信息不对称是在合作者推荐的研究领域需要解决的两个关键问题。总的来说,本研究首先要定义出潜在的学术合作者推荐的情境,同时需要给出对应的解决方案,为用户提供有效的建议和决策支持。现有的合作者推荐研究主要关注研究者之间的相似度,如基于专业知识背景的相似性和社交网络的邻近度等。尽管在这一领域已经有很多的研究,但是对于科研合作者推荐的总体框架和有效的推荐算法仍然是缺乏的。在本研究中,我们提出了一个总体框架来解决科研合作者的推荐问题。该框架定义出了两个主要的合作者推荐情境,即基于相似性的合作者推荐,和在一个特定的背景限制下的合作者推荐。针对这两个推荐情境,本文提出了两个对应的高效的解决方案。对于基于相似性的合作者推荐问题,我们提出了一个混合方法,分别从专业知识的相关性、社交网络的邻近度和机构层面的合作度三个维度,整合了五种异质文献网络的特征。针对在限定背景下的合作者推荐问题,本文给出了一个以专业知识的覆盖面为导向的合作者推荐机制,该机制提出并使用了一个基于传统的潜狄利克雷分配(LDA)模型的改进方法,以提高其对同一语料库中不同影响力的文档的建模性能。为了验证我们提出方法的准确性,本研究构建了基于现实世界的科研合作数据集,并在该数据集中进行了两个系列的对比实验。在离线数据实验中,通过与最新最先进的其他合作者推荐方法的比较,实验结果证明了本文提出的两种方法具有令人信服的优异表现。本文所提出的解决方案已经在中国最大的科研社交平台之一——科研之友社交网站上实现了。基于该平台上的科研合作者推荐应用可以有效地辅助科研人员开展工作,并能引导他们更好地进行知识共享和协作。随着信息技术的迅速发展,各种科研社交平台开始出现并且吸引了大量的科研工作者(例如,LinkedIn.ResearchGate、CiteULike和科研之友).相当一部分研究人员已经开始通过虚拟社区收集信息,并逐渐改变了他们传统的学术活动形式。他们在这些虚拟社区中查看彼此的简历,寻找感兴趣的学者和研究团体,并与其沟通、互动,并建立起与世界各地不同的科研人员之间的联系。寻求合适的合作者的是科研工作者的一项重要任务,因为良好的合作者会有助于提高研究质量,加快研究的进程。相比之下,不适合的合作者可能会损坏科研工作者的职业生涯。这是因为低效的合作将导致其科研出版物不足,从而影响其教职的获取与职称的提升。科研合作重要性的另一个根据是,它可以在弥补不同地区的科研基础设施的发展水平间的差异。因此,开发出能够促进高效科研合作的合作者推荐系统是十分重要和关键的。当今时代的技术进步,使得更多的研究人员能够活跃在各个科学社交平台中,以推广他们的研究成果,与世界各地的研究人员交换意见并获取建议。这些科研社交平台中汇集了数百万注册用户的个人背景信息与社交信息。这为利用这些信息来对科研工作者进行合作者推荐提供了一个极好的机会。如果能够找到合理的推荐机制,那么社交平台将能明显地转变传统的学术合作方式,并促进整个科学界的知识传播与共享。在Web1.0时代,学者们可以通过在网上数据库中进行搜索来使用相应的网络服务。如在谷歌学术和美国科学信息研究所(ISI)数据库中进行基于特定关键字的搜索。Web1.0时代的技术发展使得科研工作者可以在学术论坛和维基百科中贡献并分享其领域知识。然而,他们很难利用这些平台来进行社交互动。在Web2.0时代,众多科研社交平台已经出现,如Linkedln、 ResearchGate、Mendeley和科研之友等。这些平台吸引了众多学者,为基于这些平台的合作者推荐提供了关键的前提条件。已注册的研究人员可以在这些平台上参加兴趣小组,与其他科研人员建立好友关系,并保持与本领域同行的在线交流。这些合作者完全不同于传统的、局限于他们周围的同事的潜在合作者。因此,这些科研社交网络服务平台完善并且促进了科研人员知识的共享和合作。在这些平台上的合作者推荐系统可以有效地帮助科研人员,提高他们的学术能力和竞争力。相应推荐机制的有效性对用户的满意度是至关重要的。在科学研究领域,找到合适的学者进行合作,可能会促进有效的知识发现和交流,并最终提高科研人员的生产力和创新能力。信息过载和信息不对称是关于合作者推荐的研究需要解决的两个关键问题。总的来说,合作者推荐首先要定义出潜在的学术合作者推荐的情境,同时需要给出对应的解决方案,为有需求的科研人员提供有效的建议和决策支持。现有的合作者推荐的研究主要考虑专业知识的相似性和社交网络邻近度。尽管在这方面有很多的研究,但是一个总体框架和有效的推荐机制仍然还是缺乏的。在两种基于相似性的合作者推荐中,基于专业知识相似性的研究主要利用文本挖掘技术,来提供基于专业知识匹配的合作者推荐。这些研究大多采用直观的关键词匹配机制来寻找候选合作者然而由于关键词的语义模糊性,这种方法会造成的关键词失配的问题。因此,对研究人员的专业知识进行有效的语义表示对于解决专业知识匹配问题是非常重要的。在基于相似性的合作者推荐方面,另一个主要研究重点是从社交网络邻近度的角度来预测的潜在的合作者。社交网络结构分析对于减轻关键词不匹配的影响是有帮助的。然而,现有的方法中采用的网络特征还很不全面,这导致了不能令人信服的结果。例如,从文献计量学领域的研究中可以看到,研究者所属机构可以影响到科研人员之间的合作。许多研究机构都会与固定的研究机构间保持良好的合作关系。因此,机构的合作联系度是一种重要的被忽视的潜在因素。为相似性为基础的合作者推荐,有以下几个重要的研究空白。首先,传统的专业知识表征方法往往采用以向量空间模型为基础的方法,但是这可能导致关键词的不匹配的问题。因此,在这项研究中需要寻找到一个有效的语义相似度度量指标以克服传统方法的缺陷。其次,传统的推荐人物的方法往往只考虑从个人的社交网络中的相似度。然而,影响科研合作者选择的一些重要因素(如机构合作度)却在很大程度上被以前的研究忽视了。因此,在本研究中,这些重要的潜在特征,应当被定义出来以并纳入推荐系统框架中。第三,基于路径和邻居的社交网络特征在以前的研究中很少被融合在一起来解决实际问题。这两类特征在度量社交网络相似度的时候各有其优势。在这项研究中,这两类社交网络特征的优势应该被组合来充分利用。第四,上述的这些异构文献网络中的特征应该被有效地结合起来,以获取更准确的推荐结果。以往的大多数合作者推荐的研究主要集中于基于相似性的情境下(即没有限制条件的情况下)。但是,也有一些重要的合作者推荐需求在以往的合作者推荐研究中没有定义,例如在特定背景中的合作者推荐。对于在限定的背景下合作者推荐,有以下的研究空白需要填补。首先,作为对一般的基于相似性的合作者推荐的一种有效补充,背景信息对于促进推荐系统来准确定位相关的合作者是至关重要的。据我们所知,很少有研究涉及在限定背景下进行合作者的推荐。因此,为了实现在具体背景下的合作者推荐,提出一个有效的专业知识的覆盖面导向的推荐的方法是必需的。第二,基于主题模型的方法是专业知识建模和研究人员背景分析领域至今最为有效的方法之一。如何有效地利用主题建模技术来提高了对科研工作者专业知识进行准确匹配也是亟需解决的问题之一。从前面的讨论中可以发现本文几个主要的研究目标。本文的第一个目标是定义一个全面的推荐框架,涵盖了科研合作者推荐的绝大部分的可能情境。第二个目标是确定和充分利用研究人员的隐式和显式的信息,以实现对科研工作者的合理的建模。第三个目标是找出可能影响科学合作的潜在因素,并抽象出有效的特征来融入到合作者推荐的方法中去。第四个目标是在科研社交网络平台和大量的科研合作数据集上验证和实施本文所提出的方法。证明所提出的方法的合理性和有效性是十分重要的。行为科学和设计科学是信息系统领域研究的两个主要流派。设计科学研究和其方法论有几个突出和重要的定义。如设计科学研究方法的六个步骤,有研究者定义了设计科学的过程,包括“研究问题的识别和动机的发现,为解决问题设定目标,设计和开发,论证,评价和交流”。这种方法论被信息系统领域设计科学的研究人员所广泛接受。设计科学也认为是创造出对人类和组织知识有贡献的信息技术产品,以及对信息技术的使用的科学。根据以为的定义,本文的研究可以分成两个主要阶段,即构建阶段和评估阶段。在构建阶段本文提出了合作者推荐的总体研究框架。基于科研合作的需求,两种主要的合作者推荐的情境可以被定义出来:基于相似性的合作者推荐和在限定背景下的合作者推荐。有效的解决方案已经被给出以解决这两种情况中的信息不对称和信息过载的问题。同时本文也找到了几个能支持推荐特征选择的理论基础,其中包括链接强度理论、马太效应以及同质性理论等。对于基于相似性的合作者推荐问题,我们提出了一个混合方法,分别从专业知识的相关性、社交网络的邻近度和机构层面的合作度三个维度,整合了五种异质文献网络的特征。针对在限定背景下的合作者推荐问题,本文给出了一个以专业知识的覆盖面为导向的合作者推荐机制,该机制提出并使用了一个基于传统的潜狄利克雷分配(LDA)模型的改进方法,以提高其对同一语料库中不同影响力的文档的建模性能。在评估阶段,本研究构建了基于现实世界的科研合作数据集,并在该数据集中进行了两个系列的对比实验。在离线数据实验中,通过与最新最先进的其他合作者推荐方法的比较,实验结果证明了本文提出的两种方法的优异表现。本文所提出的解决方案已经在科研之友社交网站上实现了,该平台也是中国最大的科研社交平台之一。在这项研究中,我们提出了一个总体的合作者推荐的框架,涵盖了在科研合作者推荐需求的两种主要情境。具体来说,我们定义两种情境下的合作者推荐问题及其对应的解决方案。在过去,科学家们主要是通过一些真实世界的社交场合来建立彼此之间的关系,比如参加学术会议或研讨会。现在许多研究人员都参与了在线科研社交平台,使他们能够互相沟通、交流思想、分享知识,并找到一个方便快捷的方式来寻求合作者。也有许多研究已探讨了通过社交网络来推荐合作者。一些专家检索的研究也提出了寻找特定领域专家的问题。然而,对于科研合作者推荐的问题,就我们所知,还没有研究给出比较全面的基于社交网络平台的合作者推荐的总体框架。对于在在线科研社区中的研究人员来说,在正确的时间以正确的方式寻找到合适的研究同行与潜在的项目合作者是困难的,但是也是非常重要的。因此,定义出合作者推荐的情境是在本研究中的重要组成部分。大多数先前的合作者推荐的研究的重点是为没有特定目的的科研人员推荐合作者,如推荐一个专家来建立关系并彼此交流。目前只有一些基于相似性的合作者推荐的方法被提出来。然而,研究人员寻求合作者可能有不同的要求。是否要限定在特定的研究领域内找合作者是来区分不同推荐机制的核心特性。在这项研究中,我们打算建立一个总体的推荐框架,它可以涵盖大部分的合作者推荐的需求。具体来说,我们开发了两种合作者推荐模型来表征科研合作者寻求的需求场景。对于寻求合作者的科研工作者,如果没有特定的合作主题要求,那么就会采用基于相似性的合作者的推荐框架为其提供服务。对于想要找到一个特定的合作主题下的合作者的研究人员,适用于一个以专业知识覆盖面为导向的合作者推荐的方法。基于相似性的合作者的推荐是最常见的情况,被推荐对象一般是想找人建立联系,互相交流科研想法,寻求潜在的项目/论文的合作机会。对于这种需求的合作者,他们未来的合作没有具体的相关目标和主题。这种协作通常关系是一个长期的关系。因此,感兴趣的研究人员与其合作者可能在将来某个时间点形成具体的合作(如发表科技论文或申请到科研项目)。然而,这种合作的主题在一开始是不能肯定的。因此,我们把这类合作者推荐问题称为基于相似性的合作者推荐。合作者推荐的另一种主要的需求情况如下:研究者在寻求合作者时具有特定的研究主题需求。例如,研究人员可能要找人合作以完成一个特定的研究问题、科技期刊特刊的要求或者是给定研究主题的科研项目的要求。这些情景都有一个限定的背景主题,并且研究内容的专业知识覆盖面比内容的关联性更为重要。在这种情况下,本文提出了一种以专业知识的覆盖面为导向的合作者推荐方法。在过去,科学家们主要是通过一些真实世界的社交场合来建立彼此之间的关系,如参加学术会议,或通过地缘关系,如与来自同一所大学的同事合作。随着在线科研社交平台的盛行,许多研究者往往会利用虚拟社交网络来找合作者。本文提出了合作者推荐的总体研究框架。考虑到科研合作的需求,两种主要的合作者推荐的情境可以被定义出来:基于相似性的合作者推荐和在限定背景下的合作者推荐。我们提出了两种高效的解决方案来处理这两个问题。在离线数据实验中,通过与最新最先进的其他合作者推荐方法的比较,实验结果证明了本文提出的两种方法具有令人信服的优异表现。本文所提出的解决方案也已经应用在中国最大的科研社交平台——科研之友社交网站上了。基于该平台上的科研合作者推荐应用可以有效地辅助科研人员开展工作,并能引导他们更好地进行知识共享和协作,建立合作关系。与以往的研究相比,目前的研究有如下三个主要的贡献。首先,本文提出了科研合作者推荐的总体框架。该总体框架涵盖了科研合作中最主要的两个情境。该框架定义出了两个主要的合作者推荐情境,即基于相似性的合作者推荐,和在一个特定的背景限制下的合作者推荐。这个框架的有效性在实验结果中已经被验证了。其次,基于相似性的合作者推荐方法集成专业知识的相关性、社交网络的邻近度和机构层面的合作度三个维度的五种特征。实验结果分别验证了上述这些特征的有效性。五个特征的聚集效应也反映了所提出的混合方法的性能。第三,针对有背景限制的合作者推荐问题,一个以专业知识的覆盖面为导向的合作者推荐方法被提出并应用。该机制提出并使用了一个基于传统的潜狄利克雷分配模型的改进方法,以提高其对同一语料库中不同影响力的文档的建模性能。本文所提出的专业知识覆盖面为导向的匹配方法在和两个基于信息检索技术的对比方法的性能测试中,证明了我们提出的方法的合理性。本研究思路也可推广到类似的研究中。