基于电子政务的改进FP_Growth算法研究和应用

被引量 : 2次 | 上传用户：shijun21

【摘要】

：

随着信息技术迅速发展,电子政务的数据量激增。面对这些大量的数据,传统数据库技术难以发掘隐藏在数据中的有用信息,导致了数据仅被存储而得不到有效利用的局面。为解决这一

【作者】

：

冉洵

【发表日期】

：

2014年01期

【关键词】

：

电子政务数据挖掘关联规则 Apriori算法 FP_Growth算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术迅速发展,电子政务的数据量激增。面对这些大量的数据,传统数据库技术难以发掘隐藏在数据中的有用信息,导致了数据仅被存储而得不到有效利用的局面。为解决这一问题,数据挖掘技术逐渐深入电子政务,取得了很好的效果。其中关联规则是数据挖掘领域的重要研究课题,它揭示项集之间的有趣关系,被广泛应用到商业,医疗,网络和通信,生物学等各个领域。关联规则的概念是于1993年Agrawal等人提出,他们基于对超市购物的分析,提出了经典的Apriori算法,引起国内外学者的关注和研究,也发展出更多的算法。其中应用最为广泛的是J Han等人提出的FP_Growth算法,算法不需要生成候选项集,具有较高的效率。本文的主要工作如下：(1)首先对FP_Growth算法进行分析,发现FP_Growth算法的三点不足,一是仍需遍历数据库两次,增加了开销；二是挖掘过程中需要多次遍历FP-树以及条件Fp-树,效率低；三是整个过程需要遍历项头表,而算法中项头表采用顺序结构,查询效率低,影响了算法的执行效率。(2)针对这几点不足,本文对FP_Growth算法进行改进,提出了新的结构FP-Table,基于FP-Table提出改进的TFP_Growth算法。算法仅需一次扫描数据库,通过二维表生成FP-Table,然后基于FP-Table挖掘频繁项集,在很大程度上提高了算法的执行效率。对TFP_Growth算法分析发现生成的二维表中存在很多无效数据,造成内存空间的浪费。为此本文提出两种优化方案,方案一是对二维表进行压缩,压缩之后所需空间仅为原来的1/2,大大提高了算法的空间效率。方案二是针对稀疏数据集,采用二次扫描数据库的方式,避免了生成无效数据,提高了处理稀疏数据的效率。(3)然后针对电子政务数据特点,对算法做相应的处理,通过信访示例说明在电子政务领域的应用过程,包括数据选择,数据预处理,数据挖掘,信息应用等过程。综合整个过程,提出了一个可以应用于电子政务系统的数据挖掘应用框架。(4)最后通过实验表明,TFP_Growth算法的时空效率都明显优于FP_Grow th算法。

其他文献

新时期高校行政管理改革的思考

新时期下,新的高校教育体制改革已经开始不断的深入,高校行政管理在高校改革发展中发挥着重要作用,作为高校重要环节的行政管理,改革创新势在必行。但是,当前高校行政管理中

期刊

高校行政管理改革

肾上腺肿瘤影像学诊断的评价(附385例报告)

目的　提高肾上腺肿瘤的影像学诊断水平。　方法　肾上腺肿瘤患者 385例。男 15 8例 ,女 2 2 7例。平均年龄 38.2岁。行B超CT检查 385例 ,行IVU检查 380例 ,行MRI检查 180例

期刊

肾上腺肿瘤影像学

吴清源棋艺研究

采用文献资料法等对吴清源的棋艺人生进行研究。主要结论：吴清源的棋艺人生可以分为三个阶段：中国时期（15岁之前），日本时期，晚年时期；其棋艺特点是：进攻与防守兼用，细小与宏观兼具，执著

期刊

体育史民族传统体育围棋吴清源

老年高血压患者用药护理探讨

期刊

高血压/药物疗法高血压/护理

风险导向审计程序设计研究

本文分析了审计程序设计涉及的四项决策及影响因素,认为审计程序设计应围绕风险评估、控制测试和实质性测试的目的来确定审计程序、样本规模、选取项目及何时执行这些程序,从

期刊

风险导向审计审计程序样本规模

西方刮起素食风

<正> 也许是由于保护环境、保护动物的观念日益深入人心,也许是由于健康饮食观念的重新确立,西方一些国家正出现新一代的素食者。专门负责向年轻人推销产品的美国茨尚公司总

期刊

素食者

新型农村合作医疗制度续保意愿实证研究

文章以农民"自新型农村合作医疗制度(简称"新农合")2003年试点至今虽参合率很高但其主观续保意愿并不强"为背景,根据湖南省湘西自治州的实际调查资料,从农民个人特征、家庭特

期刊

新型农村合作医疗制度Logistic模型续保意愿

浅议中小企业会计存在的问题与对策

我国加入世界贸易组织,中小企业必须在同等条件下与外来企业竞争。中小企业将面临更为激烈的市场竞争。中小企业该如何应对?本文着重介绍中小企业会计存在的问题与对策。

期刊

企业会计问题

“金砖四国”承接服务外包的竞争力比较研究

20世纪90年代以来,"金砖四国"中的中国、印度、俄罗斯和巴西作为新兴经济的代表和发展中国家的领头羊,外包产业开展得有声有色,国际市场占有率和RCA指数均有不同程度的提升,

期刊

金砖四国服务外包竞争力市场占有率

轻质高强陶粒混凝土的试验研究

基于"以最低表观密度达到设计强度"的目的,本文将砂浆视为一相,粗轻骨料视为一相,"砂浆相"主要提供强度,"粗轻骨料相"主要起填充和"轻质"的作用。将"砂浆相"和"粗轻骨料相"按

期刊

轻质高强混凝土轻骨料陶粒强度表观密度

基于电子政务的改进FP_Growth算法研究和应用

其他学术论文