论文部分内容阅读
近年来,随着信息技术的不断发展,各高校通过自身的校园门户网站或者其他互联网平台,不断的对本校的研究生招生目录进行发布、共享与更新。与传统的纸质版招生目录相比,电子文档版的招生目录内容更加丰富,人机交互界面更加友好,能提供更多的人性化服务。但是,目前高校研究生招生目录在信息发布、网络共享和信息资源的再利用等方面也存在一些问题。大量的非结构化和半结构化信息零散的分布在学校有关信息系统中,信息没有得到全面、系统的管理和利用,对外公布的信息之间缺少联系,各部分信息之间孤立存在,增加了获取信息的难度,消耗了用户的大量时间,进而使得信息利用率不高。本论文为了解决各高校研究生招生目录的信息再利用等方面存在的问题,通过设计获得结构化数据的方案,便于信息聚合与利用。对各高校现有的研究生招生目录的调查分析,统计研究生招生目录的数据项及现有信息的共享与利用方式、查找可以借鉴的信息结构化输出与聚合模式、编制研招目录Schema、设计全国研招目录XML数据库的索引架构以及分析数据库的运作与利用模式等。在设计研究生招生目录Schema方面,要充分考虑XML架构的包容性与可扩展性,以便将来更好的被其他高校采用。同时,XML架构在设计时也要采用简单的技术手段、最大限度使用中文、不增加操作者的工作量等。数据结构化的目的是便于信息聚合,而信息聚合的目的是便于信息的再利用。本方案的最终目的是各高校的研究生招生目录都以统一的XML架构对外发布,并生成全国研招目录XML数据库。基于XML的分布式文本数据库,是使聚合变得简单的可行路线。全国研招目录XML数据库部分完成或全部建立起来后,可直接用于考研门户的数据导入,也可以直接用于按照需求导入关系数据库,然后再进行再利用操作,也可以不导入其它系统直接利用,例如采用XQuery程序做查询操作。