论文部分内容阅读
现代远程教育蓬勃发展的今天,于教学资源的建设显得更加重要。在教学资源建设中,能否对已有资源进行快速准确的检索,从而达到合理的共享与重用,是资源能否最大限度地发挥作用的关键。信息提取技术是信息检索和信息共享与重用的基础。目前网络上已经累积了大量的网络课件,如何从现有课件中准确的提取有用的资源,用于课件建设或其他应用,成为解决此类问题的关键。网络课件的特点是其内容主要由多媒体信息构成,而传统的信息提取技术多为针对文本信息的提取,因此需要设计新的信息提取算法来提取多媒体信息。另一方面传统信息提取技术往往将整篇或者整段文字作为结果返回给用户,而在信息查询、信息共享以及信息重用中,往往需要更为精确、范围更为多样化的信息。如果有一种信息提取方法,能实现对信息提取的结果提供多种粒度的选择,将有助于提高信息提取的准确度和信息的重用程度。有鉴如此,论文提出了一种网络课件的多粒度信息提取方法。随着网络远程教育日益普及,与之相关的规范化、标准化也成为国际国内广泛关注的问题。国家有关机构正在制定与网络课件相关的一系列规范和标准,在这些规范和标准中提出了网络课件应该遵循的基本模型。由于在这些规范中规定了网络课件的描述语言是XML语言,因此遵循标准的网络课件文档都将是结构化文档。为了与标准兼容,网络课件的多粒度信息提取实际上成为了对网络课件结构化文档的多粒度信息提取。以网络课件标准模型为基础,论文提出了适用于信息提取的网络课件信息提取模型.信息提取模型对标准课件模型进行了改进,突出了信息提取所需要的信息结构。基于该提取模型设计了课件的多粒度提取过程和相关算法。多粒度信息提取算法主要从两个方面考虑,即多媒体内容的提取和多粒度的信息提取。在多媒体内容的信息提取中,采用了对多媒体内容加权的方法来计算其相关度;而在多粒度信息提取中,引入了图论的概念,对文本内容的逻辑结构和语义结构进行了分析,定义了对应的概念与相关度计算方法。为了实现课件多粒度信息提取的构想和检验所提出的方法,设计开发了一个实验系统。在该系统中对算法中可能对结果产生影响的主要参数进行了测试和评估,并根据实验结果提出了改进建议与未来研究的方向。