论文部分内容阅读
一般来说,本体至少包含两个要素:领域概念和概念之间的关系。科学术语本体指的是,在一个科学领域里,由领域概念和概念之间的层级关系构成的一种简单形式的本体。科学术语本体在科研项目管理、研究评价(Research Assessment Exercise)等活动中扮演着极其重要的角色,因为科学术语本体能够准确地将一个科学领域里的资源做详细的分类,从而提高信息检索效率。例如,在中国国家自然科学基金委,近几年,平均每年都收到超过170,000份的基金申请书。平均来说,每个基金委的项目主任(Program Director)在不到三周的时间内,要负责超过1,500份申请书的项目评议专家指派工作。实践当中,大多数项目主任都采取这样的策略:先把项目申请书分组,然后指派项目评议专家。为了帮助项目主任快速地、宏观上把握所负责项目申请书的内容,从而提高分组效率,我们亟需构建科学术语本体。当前术语本体构建方法主要由两类:一类是手工方式构建,另外一类是自动构建。手工方式构建术语本体一般由领域决策者(Domain Decision Makers)主导,如基金委的管理人员、期刊编辑、本体工程师等。自动构建术语本体依赖于计算机算法处理自然语言。以质量和效率两方面作为标准来评价两类术语本体构建方法:手工方式构建的术语本体一般质量比较高,没有噪音数据,但是费时费力,并且对领域决策者的技能要求比较高。相比较而言,自动方式构建术语本体能够在短时间内处理大量数据,并且能及时更新,但是这样构建的术语本体质量较低,经常有噪音数据。为了兼顾质量和效率两方面,我们提出了第三种术语本体构建方法:社会化方式构建术语本体。社会化方式构建术语本体之所以可行,得益于我们所处的Web 2.0时代。各式各样的社会化媒体能够把人们方便地聚集在网络上协同工作。尤其是科研社交网络的兴起(如ResearchGate、科研之友等)能够使一个科学领域的学者跨越时间、空间交流。社会化方式构建术语本体的本质就是通过科研社交网络,鼓励一个科学领域的学者积极参与到术语本体的构建过程中去,从而减轻领域决策者的负担。综上所述,本文的研究问题是:如何以社会化的方式构建科学术语本体?构建一个科学领域的术语本体包含两个核心的任务:(1)构建领域关键词表;(2)生成关键词之间的层级关系。本文的研究目标包含以下三个方面:(1)提出一个社会化方式构建科学术语本体的统一可扩展的理论框架;(2)设计社会化投票方式构建领域关键词表的方法并实现;(3)设计以关键词相似度和专指度生成关键词层级关系的方法。在信息系统研究领域,行为科学(Behavioral Science)和设计科学(Design Science)是两个主要范式。行为科学致力于构建和检验理论(Theories),用以描述、解释或预测人和组织的行为,设计科学专注于创造和检验人工物(Artifacts),从而拓展人和组织的能力。本研究遵循设计科学研究方法。总体上,本文包含构造(Build)和评价(Evaluate)两个阶段。在构造阶段,我们首先提出了以社会化投票方式构建领域关键词表的方法,其次设计了集成了LDA主题模型和包容层次结构模型(Subsumption Hierarchy Model)的关键词层级结构生成方法。在评价阶段,我们首先通过问卷(Survey)的方式评价了以社会化投票方式构建领域关键词表的方法,其次,以实验(Experiment)的方法对关键词层级结构生成方法的LDA主题模型部分进行了评价,再次,以实验的方法对关键词层级结构生成方法的包容层次结构模型部分进行了评价,最后,以用户研究(User Study)的方法对整个术语本体构建方法进行了评价。在理论上本研究(1)提出了一个社会化方式构建科学术语本体的统一可扩展的理论框架;(2)设计了以社会化投票方式构建领域关键词表的方法;(3)设计了以关键词相似度和专指度生成关键词层级关系的方法。在实践方面,本研究提出的领域关键词表构建方法被应用于中国国家自然科学基金委的项目评审工作中。据我们了解,全国科学技术名词审定委员会每年都要耗费大量的人力、物力做技术名词规范工作,但大都用手工的方式,本研究为类似的组织提供了构建科学领域术语本体的备择方案。