论文部分内容阅读
林业黄页是重要的林业信息资源,林业电子黄页不仅逐步取代了传统纸质黄页,同时也包含更丰富的信息。因此整合不同渠道(黄页数据库、网页等)的林业电子黄页,形成全面、准确而专业的林业电子黄页信息库,不仅可以为各类用户检索林业组织信息提供方便,同时也形成了主要的林业Web信息源,为整合林业Web信息,进而提供专业搜索引擎服务奠定基础。然而,随着我国林业信息化的发展,林业电子黄页特别是基于WWW的林业黄页信息,呈现出分散、海量、异构、非结构、多元化等特点,从而影响林业黄页信息检索和利用的效率。其中,利用文本分类技术,对采集到的海量林业黄页文本信息进行自动标引和分类,可以极大提高信息检索效率,有明显的应用价值。本文在概述我国林业黄页信息资源现状和文本分类技术的基础上,重点对我国林业组织分类及其文本特征进行了总结、分析和研究。利用改进的统计量法(CHI),通过对数以千计的黄页样本数据的训练学习,构建了相应的特征词库和语料库。进而设计实现了一个林业黄页分类的原型系统,并对约2000条林业黄页数据进行了分类测试实验。实验结果表明机器自动分类的平均查准率值超过90%,分类方法及系统有一定的实用性。特别是林业组织特征库和语料库的建设,填补我国这方面研究的空白。