论文部分内容阅读
随着知识经济时代的来临,知识受到史无前例的关注和重视。知识的科学管理和有效利用可以实现知识增值,成为数字化时代知识管理的重要目标。信息技术环境下,如何为用户提供准确的、个性化的知识,已成为当前的热点研究之一。为了向用户提供更好的知识服务,需要从知识元层对知识组织、管理等进行研究。论文在知识组织与管理相关理论基础上,建立知识元描述模型,提出基于知识元的向导信息提取方法和知识元标引方法,开展了系统的研发与典型应用。论文的主要内容如下:第一,建立了面向学科的知识元描述模型。对知识元概念的界定,以文本知识元作为研究对象,采用面向对象设计方法,提出了一个面向学科的知识元描述模型,该模型定义了知识元所包含的9个基本组成元素,建立了模型的XML文档,并将该模型应用于学科文本知识元的描述。第二,提出了基于相邻词共现分析法的向导信息提取方法。通过人工统计与分析已有主题词特征来发现向导信息的构词规律,结合词频、词性、上下文特征及位置等关联信息,设计相邻词共现分析的向导信息提取方法,对该方法的相邻共现信息进行定义,并将其应用于向导信息的提取中。该方法无需专业词典的支持,其提取效果要优于传统的TF/IDF方法。第三,提出了基于规则的知识元标引方法。论文选取了知识元描述模型中具有代表性的四个元素:知识元名称、知识元描述、知识元属性和知识元来源作为具体的研究对象。在人工标引分析的基础上,发现知识元描述的句法特征,建立了知识元的提取规则,提出了一种基于规则的知识元标引方法。实验证明,该方法可以为用户提取出文中主要的知识元描述,极大地提高知识元标引效率。此外,还研究了知识元之间的关系。第四,完成知识元标引系统的设计实现与应用研究。论文从系统整体设计、流程设计、数据库设计、系统的实现、测试与评价几个方面,实现了知识元标引系统的主要功能,即文本预处理、主题词的提取、知识元描述的提取、知识元表示和知识元查找功能。该系统将上述三个方而的研究成果组织成一个有机整体,从系统层而验证了本研究的可行性和有效性。最后,对该系统在学科教育文本资源的聚类检索中的应用研究进行了说明。论文的主要特色和创新之处体现在:(1)构建了一种而向学科的知识元描述模型,该模型有别于传统的“资源、索引和元数据目录”信息组织模型,定义了“知识元”基本结构,为构建“主题、知识元和主题图”知识组织模型奠定基础。(2)提出了基于相邻词共现分析法的主题词提取方法,该方法基于主题词的语言特征规律,结合主题上下文关系,实现了自动挖掘领域知识元向导信息特征词。(3)提出了一种基于规则的知识元标引方法,该方法区别于大粒度资源的信息组织标引方法,论文结合语义内容信息和主题词关联关系等,通过规则发现知识元,实现了细粒度、语义特征的知识元标引。其研究成果为基于知识元的知识挖掘、知识融合和知识浓缩关键技术研究奠定了基础。