论文部分内容阅读
目前,在中国高校数字图书馆,学位论文数据库是重要的数字资源,然而,其元数据录入一直依赖手工完成,效率低,耗费大量的人力。针对这一问题,采用基于文档特征与规则模式匹配的方法,利用正则表达式研究学位论文元数据的自动抽取,该算法包括信息定位和元数据抽取两个模块。实验数据表明,该算法具有较高的准确率和召回率以及综合性能指数F。