论文部分内容阅读
信息抽取(Information Extraction)的核心在于识别和提取文档中用户感兴趣的数据,并以更为结构化、语义更为清晰的形式表示,为用户查询数据、应用程序利用数据提供便利。近年来国内外已有多位研究者面向各个领域开展信息抽取研究并获得一定成效。介于日益严峻的环境问题对生态和生物研究提出了更高、更紧迫的要求。本文选用生物多样性作为研究领域。物种描述是生物学和生态学的起点,相关文档应为首要进行信息组织和利用的对象。然而分类学描述通常采用自然语言,内容缺乏一致性,难以得到有效地利用。为完善生物学和生态学研究的支持基础,已有多个机构及研究者试图传统格式的分类描述文本转化成新的数字格式(XML或RDF),试图为基于语义的信息组织和利用奠定基础。其中cui等设计开发的MARTT系统实现了良好的标注效果,其自行构建的先导词算法,在标注准确率和召回率上都优于其它两种常用机器学习方法,即支持向量机和朴素贝叶斯。本文通过深入研究MARTT的系统原理,和自建的机器学习算法,选用中国植物志中的物种分类学描述为数据集,设计实现了针对生物多样性中文文档的语义标注系统。文章主要包含了五个部分的内容:(1)数据集的获取与XML标引,本文设计了植物分类学描述的XML标引结构,并将收集的PDF格式的描述文档进行格式转换和XML标引。(2)中文分词软件的选用,本文通过对比不同中文分词软件的分词效果,选用最合适研究中语词切分的相关软件。(3)标注算法的构建。本文设计实现了适用于中文植物分类学文档的机器学习算法,用于实现语义标注。(4)对比研究平台的搭建。本文采用LIBSVM软件包,运用支持向量机算法对文档进行了分类测试。(5)标注效果的评估。本文将数据集合区分为训练集合和测试集合,运用从训练集合获知的标注规则对测试集合进行标注。通过标注准确率对标注结果进行评估。评估结果显示,系统基本完成了对描述文档主要结构的标注,对个别元素的标注结果还有待改善,且总体优于SVM文本分类系统所产生的标注结果。本文将基于机器学习的语义标注应用于植物分类学文档是十分有意义的。首先选用《中国植物志》作为数据集来源具有较强的现实意义和潜在的应用价值,其次语义标注为基于语义的信息组织与利用研究的基础和核心内容,语义标注工作完成后,能够在此基础上开展XML结构化检索、联合搜索等信息创新用法。最后,该项工作对生物学和生态学研究起到一定的支持作用,对于其他领域相关研究的开展也具有极其现实的借鉴价值。本文初步地对系统的几个重要部分进行了介绍并提出了解决问题的方法,并对各部分进行了实现。研究还需在数据集合的丰富、标引工作的简化、标引结构的优化、系统的通用性实现等方面做更多的工作。