科学术语本体构建的社会化方法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhyoua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一般来说,本体至少包含两个要素:领域概念和概念之间的关系。科学术语本体指的是,在一个科学领域里,由领域概念和概念之间的层级关系构成的一种简单形式的本体。科学术语本体在科研项目管理、研究评价(Research Assessment Exercise)等活动中扮演着极其重要的角色,因为科学术语本体能够准确地将一个科学领域里的资源做详细的分类,从而提高信息检索效率。例如,在中国国家自然科学基金委,近几年,平均每年都收到超过170,000份的基金申请书。平均来说,每个基金委的项目主任(Program Director)在不到三周的时间内,要负责超过1,500份申请书的项目评议专家指派工作。实践当中,大多数项目主任都采取这样的策略:先把项目申请书分组,然后指派项目评议专家。为了帮助项目主任快速地、宏观上把握所负责项目申请书的内容,从而提高分组效率,我们亟需构建科学术语本体。当前术语本体构建方法主要由两类:一类是手工方式构建,另外一类是自动构建。手工方式构建术语本体一般由领域决策者(Domain Decision Makers)主导,如基金委的管理人员、期刊编辑、本体工程师等。自动构建术语本体依赖于计算机算法处理自然语言。以质量和效率两方面作为标准来评价两类术语本体构建方法:手工方式构建的术语本体一般质量比较高,没有噪音数据,但是费时费力,并且对领域决策者的技能要求比较高。相比较而言,自动方式构建术语本体能够在短时间内处理大量数据,并且能及时更新,但是这样构建的术语本体质量较低,经常有噪音数据。为了兼顾质量和效率两方面,我们提出了第三种术语本体构建方法:社会化方式构建术语本体。社会化方式构建术语本体之所以可行,得益于我们所处的Web 2.0时代。各式各样的社会化媒体能够把人们方便地聚集在网络上协同工作。尤其是科研社交网络的兴起(如ResearchGate、科研之友等)能够使一个科学领域的学者跨越时间、空间交流。社会化方式构建术语本体的本质就是通过科研社交网络,鼓励一个科学领域的学者积极参与到术语本体的构建过程中去,从而减轻领域决策者的负担。综上所述,本文的研究问题是:如何以社会化的方式构建科学术语本体?构建一个科学领域的术语本体包含两个核心的任务:(1)构建领域关键词表;(2)生成关键词之间的层级关系。本文的研究目标包含以下三个方面:(1)提出一个社会化方式构建科学术语本体的统一可扩展的理论框架;(2)设计社会化投票方式构建领域关键词表的方法并实现;(3)设计以关键词相似度和专指度生成关键词层级关系的方法。在信息系统研究领域,行为科学(Behavioral Science)和设计科学(Design Science)是两个主要范式。行为科学致力于构建和检验理论(Theories),用以描述、解释或预测人和组织的行为,设计科学专注于创造和检验人工物(Artifacts),从而拓展人和组织的能力。本研究遵循设计科学研究方法。总体上,本文包含构造(Build)和评价(Evaluate)两个阶段。在构造阶段,我们首先提出了以社会化投票方式构建领域关键词表的方法,其次设计了集成了LDA主题模型和包容层次结构模型(Subsumption Hierarchy Model)的关键词层级结构生成方法。在评价阶段,我们首先通过问卷(Survey)的方式评价了以社会化投票方式构建领域关键词表的方法,其次,以实验(Experiment)的方法对关键词层级结构生成方法的LDA主题模型部分进行了评价,再次,以实验的方法对关键词层级结构生成方法的包容层次结构模型部分进行了评价,最后,以用户研究(User Study)的方法对整个术语本体构建方法进行了评价。在理论上本研究(1)提出了一个社会化方式构建科学术语本体的统一可扩展的理论框架;(2)设计了以社会化投票方式构建领域关键词表的方法;(3)设计了以关键词相似度和专指度生成关键词层级关系的方法。在实践方面,本研究提出的领域关键词表构建方法被应用于中国国家自然科学基金委的项目评审工作中。据我们了解,全国科学技术名词审定委员会每年都要耗费大量的人力、物力做技术名词规范工作,但大都用手工的方式,本研究为类似的组织提供了构建科学领域术语本体的备择方案。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:探讨小潮气量联合低水平呼气末正压通气(PEEP)用于老年患者全身麻醉中对呼吸功能的影响。方法将该院拟行上腹部手术的46例老年患者分为两组,每组各23例,对照组采取常规潮气量
随着全球范围内数据的爆炸性增长,重复数据删除技术已经被越来越广泛地应用于存储和网络传输系统。面向存储和网络传输系统的重复数据删除,涉及众多科学问题,针对备份存储系
非约束虹膜识别系统是对传统虹膜识别系统的扩展,非约束是指在系统正常工作的情况下,对用户配合系统的行为尽可能少的进行约束,同时使系统可以用多个采集设备在较远采集距离
针对超高摩尔质量聚乙烯(UHMWPE)加工流动性差的缺点,综述了提高其加工流动性的共混改性、流动改性剂改性、液晶高分子改性、层状硅酸盐改性及超声波改性等方法及其研究进展,指出
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
应用共振光散射光谱研究了pH6.30磷酸盐缓冲介质中近红外阳离子花菁染料与阴离子表面活性剂的相互作用.由于形成离子缔合物,花菁的聚集形态发生了变化,导致共振光散射增强,最大散
目的:建立LC-M S/M S测定人血浆中肌苷浓度的方法并应用于异丙肌苷药代动力学研究。方法以阿德福韦为内标,采用甲醇∶10 mmol/L 乙酸铵(15∶85,v/v )为流动相,以Agilent SB-C18柱(5
新课程强调兴趣,而中长跑是中学生最不喜欢的运动项目之一,特别是害怕中长跑中出现的"极点"现象。本文根据体育教学实践,从思想,技巧,教学形式,及教育评价上进行研究分析,希