基于模糊关联规则的中文文本分类

来源 :河北大学 | 被引量 : 0次 | 上传用户:kage
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展和日益普及,电子文本的数量急剧增加,如何有效地组织和管理海量电子文本,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学与技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱的问题,方便用户准确地定位所需要的信息。同时,作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类有着广泛的应用前景。本文给出一种基于模糊关联规则的自动文本分类方法。该方法汲取了传统的关联规则分类算法的优点,并引入了模糊集理论。与一般分类规则相比,模糊关联规则中不仅包含词条,而且包含了词条在文本中出现的频率。通过词频来区别词条对文本分类的不同作用,可以更为精确地限定与文本相匹配的规则的范围。实验结果表明该方法是可行的,与传统分类方法相比,分类的准确率有了明显提高。由于模糊关联规则比一般规则复杂,致使构建模糊文本分类器和应用其分类新文本的效率都有所降低,同时也增加了存储开销,为此我们又从以下几个方面对模糊文本分类器进行了深入研究和优化。首先,在挖掘模糊关联规则时,对于不同类别的文本集,不再采用统一的最小支持度阈值,而是根据文本集的特性,将给定的支持度阈值通过模糊函数转化为适合该文本集的阈值,使用转化后的阈值对规则的生成过程加以限制,在一定程度上解决了阈值设置不当所带来的问题。其次,给出一种快速挖掘模糊关联规则的算法。该算法对频繁2-项集和频繁k-项集(k>2)的生成采用了不同的处理方法,规则的生成过程中只需要遍历数据库两次,大大提高了挖掘效率,且不需要保存候选项集,节省了存储开销。最后,针对通过遍历分类器分类新文本的方法效率低的问题,给出一种基于模糊分类规则树的文本分类方法。分类器中的规则以树的形式存储,由于树型结构可以共享相同结点,节省了存储空间;在分类新文本时,由于不需要遍历没在新文本中出现的词条所引导的子树,大大减少了需要匹配的规则的数量,提高了分类效率。实验表明,优化后的基于模糊关联规则的文本分类方法的整体性能得到了明显改善。
其他文献
随着我国软件产业的发展,软件工程化进程的深化,软件质量越来越成为用户方与开发方矛盾的焦点。采取何种措施来保证软件质量,在维护用户利益的同时,促进软件企业的进步是一个现实
XML全称为可扩展无标记语言(eXtensible Markup Language)。它是一套定义语义标记的规则,这些标记将文档分成许多部分,并对这些部分加以标识。由于它允许开发与自己特定领域
如何有效地对海量数据尤其是诸如音频之类的多媒体数据进行分析、存储和检索是一个亟待解决的问题。由于原始音频数据的非结构化特性,音频检索受到极大的限制。相对于日益成
入侵检测技术是继“防火墙”、“数据加密”等传统安全保护措施后新一代的主动型安全保障技术,它对计算机和网络资源上的恶意使用或入侵行为进行识别和响应。随着信息化建设的
随着信息技术飞速发展,在信息处理过程中,人们发现信息的数据量越来越大庞大。如何从大量的信息数据中获取人们所需要的知识?如:数据的分布,数据发展趋势等等,因而聚类作为一
本文研究含有控制时滞的线性系统、非线性系统的最优扰动抑制问题,其研究内容概括如下:1、提出了一种时滞系统的模型转换方法。对于仅含有控制时滞的线性系统和控制、状态均
目前,木材管理仍然是林业工作中的薄弱环节。采购销售等环节“暗箱操作”、生产过程“跑冒滴漏”等问题在一些企业中仍比较突出,严重制约着企业经济效益和市场竞争力的提高,国家
随着移动互联网、全媒体和在线教育的快速发展及大数据技术的应用,人们进行学习的方式变得多样化和丰富化。教学不再局限于时间和地理位置,用户可以随时随地的通过任何终端获取
由于语义Web服务的前景良好,其采用机器可理解的方式描述Web服务的功能,从而提供Web服务之间的互操作。随着面向服务计算体系架构(Service Oriented Architecture,SOA)的快速发
近年来,以笔记本电脑、智能手机、PDA为代表的手持移动设备得到了日益广泛的应用,给人们的学习生活带来了很大的便利。相比与传统的分布式系统,移动计算有其自身的特点,开发