林业黄页信息自动分类技术研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:tiamflying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
林业黄页是重要的林业信息资源,林业电子黄页不仅逐步取代了传统纸质黄页,同时也包含更丰富的信息。因此整合不同渠道(黄页数据库、网页等)的林业电子黄页,形成全面、准确而专业的林业电子黄页信息库,不仅可以为各类用户检索林业组织信息提供方便,同时也形成了主要的林业Web信息源,为整合林业Web信息,进而提供专业搜索引擎服务奠定基础。然而,随着我国林业信息化的发展,林业电子黄页特别是基于WWW的林业黄页信息,呈现出分散、海量、异构、非结构、多元化等特点,从而影响林业黄页信息检索和利用的效率。其中,利用文本分类技术,对采集到的海量林业黄页文本信息进行自动标引和分类,可以极大提高信息检索效率,有明显的应用价值。本文在概述我国林业黄页信息资源现状和文本分类技术的基础上,重点对我国林业组织分类及其文本特征进行了总结、分析和研究。利用改进的统计量法(CHI),通过对数以千计的黄页样本数据的训练学习,构建了相应的特征词库和语料库。进而设计实现了一个林业黄页分类的原型系统,并对约2000条林业黄页数据进行了分类测试实验。实验结果表明机器自动分类的平均查准率值超过90%,分类方法及系统有一定的实用性。特别是林业组织特征库和语料库的建设,填补我国这方面研究的空白。
其他文献
李敬泽的批评有一种当下批评界少有的亲和力,他对待文学与作家的关系,不像有些批评家那样是对立的、陌生的,也不像一些学院批评家那样理论化和刻板。在很大程度上,这与他做过
期刊
该论文试就房地产流通中的经济活动问题进行分析、探讨.目前,有关房地产流通的研究集中的如何拓宽流通渠道,活跃和发展各级市场,以及如何建立全方位的房地产大流通市场体系等