文本关联规则挖掘方法研究与应用

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户:wenxiaoyan0411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的大规模普及和企业信息化程度的提高,文本信息快速积累,人们迫切需要研究出方便有效的工具从大规模文本信息中提取符合需要的简洁、精炼、可理解的知识,文本挖掘就是为解决这个问题而产生的研究方向。由于文本数据与一般数据库数据有巨大的差异,文本数据是半结构化数据或非结构化数据,因此文本关联规则挖掘与数据库关联规则挖掘在目标上有相似性,但在实现技术上有一定的差异性。本文研究了文本关联规则挖掘的关键技术和方法,并以机械行业用户需求挖掘为背景详细描述了文本关联规则挖掘的过程,完成了如下工作:(1)对各种中文分词器进行了比较,最终采用ICTCLAS分词器对用户需求进行中文分词得到标注词性后的分词结果,通过词性标注可以将汉语中的虚词作为停用词去掉,达到粗降维的目的。通过中文分词和去停用词,得到用户需求的候选特征。(2)对每篇文档统计其候选特征并按频率从大到小排序,当累积频率达到一定阈值时截尾,提取高频词作为文档特征;为了避免将低频专业词汇去掉,建立专业关键词库,将文档中出现的专业词汇作为文档特征选出。汇总所有的文档特征得到文档特征集,采用文档频数法(DF)进行特征降维,将文档频数较高的非专业特征去掉。(3)采用向量空间模型将半结构化或非结构化的用户需求转化为结构化的向量,从而得到文档集的文本特征向量空间模型。(4)以文本特征向量空间模型为输入,利用灰色关联度计算公式计算出专业特征词和非专业特征词之间的关联度。(5)在关联度计算结果的基础上利用专业特征阵进行二次特征降维,选择一定数量的特征词用来描述文档集。最后,对19篇挖掘机用户需求进行了实验,并详细介绍了通过文本挖掘得到的特征词在机构设计信息加工系统中的应用。
其他文献
随着当今Internet技术日渐成熟和第三代互联网的提出,网格计算的设想与实践已不再遥远,网格计算的核心是对异地异构资源非集中性控制的资源协调,通过通用开发的协议和接口,提
随着数据库和网络技术的不断发展,使得人们可以越来越容易地获得海量的数据,但由于数据信息自身的复杂性,使如何有效地处理和理解这些数据成为需要解决的难题,而机器学习方法
随着互联网时代的到来,网络渐渐地融入人们的生活。许多网民通过互联网进行购物、交友、学习等日常活动,它已经成为人们生活中十分重要的一部分。在人们的互联网生活中,网络
图像分割技术一直是图像处理领域中的研究热点,国内外众多研究人员对图像分割理论及其应用进行了深入的探索,提出了很多有价值的算法。在医学图像处理领域,针对医学图像的特点,也
Web服务作为一种新型的Web应用模式,近年来得到了迅速的发展。随着Web服务数量的快速增长,Web环境下存在大量具有相同或重叠功能和不同服务质量(QoS)的Web服务,如何利用QoS属
随着计算机的广泛应用和互联网技术的迅速发展,由于传统的中考报名、考试、招生模式已经不能满足时代的需求,广东省考试院主持开发了中考招生报名系统。虽然目前基本满足了用
近年来,随着计算机和网络技术的发展,P2P网络技术在文件共享和信息搜索等方面得到了越来越广泛的应用。然而,搭便车现象和共享资源的质量差等问题的存在,严重影响到P2P网络的
虚拟样机技术降低了产品开发的成本,提高了产品开发的效率,在各行各业得到了广泛的应用。但虚拟样机开发本身所具有的复杂性制约了虚拟样机技术的发展,研发具有易用性和高效性的
学位
随着我国铁路运输的快速发展和高速、重载铁路的运行,传统的轨道车管理办法已越来越不能适应这种发展形势。运用计算机辅助决策轨道车管理是提高工作效率、科学配置资源的有
随着时代和技术的发展,SOA以其松散耦合性、高度可集成性、数据信息规范性和数据可复用性等特点备受人们的青睐。Web服务(Web Service)是实现SOA的方式之一,它以XML、WSDL、S