基于互联网的模糊数据挖掘技术的研究与应用

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:ntzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上丰富、广泛的信息已成为人们最重要的信息来源之一。如何帮助用户快速、准确地查找网上有用信息,是一个非常有意义的问题,具有很高的实用价值,己经成为近年来的研究热点。作者研究的目的,一方面是利用模糊数据挖掘技术提高检索的效率和分类的准确性;另一方面希望通过对文本分类问题的研究,认真分析一些算法,并对算法的改进等方面做一些有意义的探索。本文的研究工作主要包括如下两个方面:一是对中文文本自动分类的理论进行研究分析。文本自动分类分为自动聚类和自动归类,本文仅研究自动归类。而文本的自动归类包括训练过程和分类过程,训练过程中最重要的是训练算法的选取和训练文本的寻找,本文中采用的算法是模糊算法;分类过程是在训练过程中产生的分类模型基础上进行的。本文采用二级分类的模式,为了提高分类的速度,在第一级采用基于字的分类技术,速度较快,但分类正确率略低,在第二级采用基于词的分类技术,正确率较高,但分类速度稍慢。通过两级分类的设计,即保证了速度,又提高了分类正确率。 二是对分类算法进行了一些有意义的探索。本人在学习研究前人工作的基础之上,选择模糊算法进行了重点研究,对该算法有了更深刻的认识,并对算法做了一定的调整,使它更适应文本自动分类的要求。
其他文献
随着国土资源部“十一五”规划的制定和开始实施,“加大对政务公开执行情况督查力度,大力推进政务信息网上公开”已成为各级国土资源管理部门“十一五”期间重点工作之一。实施
人工免疫系统作为计算智能研究的一个崭新分支,已在数据挖掘、机器学习、自动控制、故障诊断等诸多领域显示出强大的信息处理和问题求解能力以及广阔的研究前景。将人工免疫算
使用工作流管理技术整合Web服务,提供了一个跨平台的、语言无关的、便于复用的柔性计算环境,能满足现代企业提出的敏捷制造要求,是现在研究的热点。本文在对Web服务及Web服务