基于电子政务的改进FP_Growth算法研究和应用

被引量 : 2次 | 上传用户:shijun21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术迅速发展,电子政务的数据量激增。面对这些大量的数据,传统数据库技术难以发掘隐藏在数据中的有用信息,导致了数据仅被存储而得不到有效利用的局面。为解决这一问题,数据挖掘技术逐渐深入电子政务,取得了很好的效果。其中关联规则是数据挖掘领域的重要研究课题,它揭示项集之间的有趣关系,被广泛应用到商业,医疗,网络和通信,生物学等各个领域。关联规则的概念是于1993年Agrawal等人提出,他们基于对超市购物的分析,提出了经典的Apriori算法,引起国内外学者的关注和研究,也发展出更多的算法。其中应用最为广泛的是J Han等人提出的FP_Growth算法,算法不需要生成候选项集,具有较高的效率。本文的主要工作如下:(1)首先对FP_Growth算法进行分析,发现FP_Growth算法的三点不足,一是仍需遍历数据库两次,增加了开销;二是挖掘过程中需要多次遍历FP-树以及条件Fp-树,效率低;三是整个过程需要遍历项头表,而算法中项头表采用顺序结构,查询效率低,影响了算法的执行效率。(2)针对这几点不足,本文对FP_Growth算法进行改进,提出了新的结构FP-Table,基于FP-Table提出改进的TFP_Growth算法。算法仅需一次扫描数据库,通过二维表生成FP-Table,然后基于FP-Table挖掘频繁项集,在很大程度上提高了算法的执行效率。对TFP_Growth算法分析发现生成的二维表中存在很多无效数据,造成内存空间的浪费。为此本文提出两种优化方案,方案一是对二维表进行压缩,压缩之后所需空间仅为原来的1/2,大大提高了算法的空间效率。方案二是针对稀疏数据集,采用二次扫描数据库的方式,避免了生成无效数据,提高了处理稀疏数据的效率。(3)然后针对电子政务数据特点,对算法做相应的处理,通过信访示例说明在电子政务领域的应用过程,包括数据选择,数据预处理,数据挖掘,信息应用等过程。综合整个过程,提出了一个可以应用于电子政务系统的数据挖掘应用框架。(4)最后通过实验表明,TFP_Growth算法的时空效率都明显优于FP_Grow th算法。
其他文献
新时期下,新的高校教育体制改革已经开始不断的深入,高校行政管理在高校改革发展中发挥着重要作用,作为高校重要环节的行政管理,改革创新势在必行。但是,当前高校行政管理中
目的 提高肾上腺肿瘤的影像学诊断水平。 方法 肾上腺肿瘤患者 385例。男 15 8例 ,女 2 2 7例。平均年龄 38.2岁。行B超CT检查 385例 ,行IVU检查 380例 ,行MRI检查 180例
采用文献资料法等对吴清源的棋艺人生进行研究。主要结论:吴清源的棋艺人生可以分为三个阶段:中国时期(15岁之前),日本时期,晚年时期;其棋艺特点是:进攻与防守兼用,细小与宏观兼具,执著
本文分析了审计程序设计涉及的四项决策及影响因素,认为审计程序设计应围绕风险评估、控制测试和实质性测试的目的来确定审计程序、样本规模、选取项目及何时执行这些程序,从
<正> 也许是由于保护环境、保护动物的观念日益深入人心,也许是由于健康饮食观念的重新确立,西方一些国家正出现新一代的素食者。专门负责向年轻人推销产品的美国茨尚公司总
期刊
文章以农民"自新型农村合作医疗制度(简称"新农合")2003年试点至今虽参合率很高但其主观续保意愿并不强"为背景,根据湖南省湘西自治州的实际调查资料,从农民个人特征、家庭特
我国加入世界贸易组织,中小企业必须在同等条件下与外来企业竞争。中小企业将面临更为激烈的市场竞争。中小企业该如何应对?本文着重介绍中小企业会计存在的问题与对策。
20世纪90年代以来,"金砖四国"中的中国、印度、俄罗斯和巴西作为新兴经济的代表和发展中国家的领头羊,外包产业开展得有声有色,国际市场占有率和RCA指数均有不同程度的提升,
基于"以最低表观密度达到设计强度"的目的,本文将砂浆视为一相,粗轻骨料视为一相,"砂浆相"主要提供强度,"粗轻骨料相"主要起填充和"轻质"的作用。将"砂浆相"和"粗轻骨料相"按