基于改进的位图存储及运算技术的spam算法优化研究与设计

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:tp13140
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的逐渐普及,各行各业积累了大量的数据,而这些数字化资源中隐含了大量的,有价值的信息。因此,数据挖掘(Data Mining)应运而生,它负责挖掘数据潜在的知识并用于决策支持。它一般包括关联规则挖掘和序列模式挖掘。其中序列模式挖掘常用的算法有AprioriAll,GSP,FreeSpan,PrefixSpan,spam等等。其中spam算法通过采用位图的方式存储数据,并由此使用位运算实现连接操作,因此具有较高的挖掘效率。本文基于spam算法原理构建了新的序列模式挖掘算法。该算法采用数组存储数据的方式。这是由于在分析spam算法过程中,发现其生成的位图数据包含有大量的0值,使得存储空间占用较大,通过使用数组,仅存spam位图中1值的位置(本文称为有效值),可以有效的减少内存的开销,存储的方法类似spam,数据中的每一个序列对应一组项集数组。由于新的存储方式不再适用原本高效的位运算方法,本文针对数组存储数据的方式,设计了对应的高效的项扩展算法及序列扩展算法。项扩展算法:针对候选序列的两个项集A、B,依次在每个序列中让对应的两个项集A、B的数组进行交集运算,再通过判断结果是否为空集来确定该序列是否存在该项扩展,运算结束后即可统计该候选项扩展的支持度。虽然使用数组求交集的方式相较于位运算其速度较慢,但是采用数组存储后,其仅包含位图中值为1的数据,相比位图的数据容量要小很多,因此该算法对比spam的项扩展算法,性能损失并不大。序列扩展算法:数组中存储的值是该项集按时间排序的位置值,因此,针对候选序列扩展的两个项集A、B,只需要确定一个序列中,B项集对应的数组中的任意值,是否大于A项集中的任意值即可。由此可以设计算法为:对两个候选项集对应的数组,采用一个数组内的最小值与另一个数组的最大值比较大小的方式确定是否存在该序列扩展,并通过循环最终获得对应的支持度。相较于spam的先转置位图再进行位算的方法,该序列扩展算法只需分别比较两个项集对应的数组内的两个特殊值即可,因此具有更高的运算效率。本文经过和spam算法的对比测试,确认在spam算法的位图数据中对应的有效值占比如果小于1%,则新算法将会同时具有更好的空间效率和时间效率。在实际数据分析中,我们发现大多数类型的数据如超市、银行等,其以位图形式展开后其1值占比均非常小,更适合用本文的算法进行挖掘。因此,新算法具有很高的实际应用价值。
其他文献
脓毒症是严重创伤、烧伤、重度感染、重大手术等临床急危重症患者常见的致命性并发症。细胞内谷胱甘肽(L-γ-glutamyl-L-cysteinylglycine,Glutathione,GSH)在维持氧化还原平
目的:通过对比腹腔镜下根治性膀胱切除回肠原位新膀胱术和回肠通道术两种尿流改道方式的临床疗效及对患者生活质量的影响,为腹腔镜下根治性膀胱切除术后尿流改道方式的合理选
随着无线和移动通信技术的更新换代,固定宽带普及率逐步上升,多媒体应用方兴未艾,移动流量规模庞大且增长迅速。为了缓解传输需求与网络供给之间的矛盾,研究者考虑将移动数据分流(Offload)到WiFi网络上传输,以此缓解热点区域的网络负载、提高移动用户的传输质量、驱动新型的商业模式,并引起了各方的广泛兴趣。顺应存储、计算与网络资源向无线边缘下沉的浪潮,已有研究提出在WiFi接入的本地局域网中建立允许缓
目的:通过观察艾滋病并肺结核患者发生IRIS时氧化应激指标(MDA、SOD)和外周血Th17/Treg细胞百分比,分析MDA、SOD、Th17、Treg之间的相关性,探讨氧化应激对艾滋病并肺结核患者
随着中国制造2025战略的进行,各行各业对现有的产业不断升级,机器人在各行业也扮演着越来越重要的角色。在医疗领域,机器人革命也在悄无声息的进行着。17年达芬奇手术机器人
平面微带传输阵可以实现天线整体波束形状和指向的变化,为了实现批量生产、降低成本以及在移动、共形等等特殊环境下的要求,微带阵列天线的优势就凸显了出来,作为一种新型天线,在达到了高增益性能的要求下,结构尽可能的简单,易实现成为天线主流研究方向,尤其是在电磁场、无线信息通讯和卫星通讯等领域。本文对新型平面微带传输阵进行了研究。首先,主要介绍了传输阵的研究背景及其意义,并对传输阵的国内外研究现状进行了搜集
甘遂为大戟科大戟属植物甘遂Euphorbia KansuiT.N.Liou ex T.P.Wang的块根,始载于《神农本草经》,列为下品。其味苦,性寒,有毒,具有泻水逐饮、破积通便之功效,用于水肿胀满、
清代蒙旗历史地理及其变迁,是中国边疆历史地理研究的重要组成部分。近年来,有关内蒙古历史地理的研究成果取得一定的成绩,虽有一些相关成果相继问世,但卓索图盟喀喇沁中旗历史地理研究尚未出现专门系统的论述和考证。因此,本课题的研究是蒙旗历史地理研究的重要组成部分。本文以清代卓索图盟喀喇沁中旗的历史地理为研究对象,利用清代卓索图盟喀喇沁中旗札萨克衙门蒙文档案,与喀喇沁左旗和右旗档案相结合,并利用清代政府所编
豫剧作为河南省的地方戏剧,对当地人民来说不仅是一种文化娱乐,也是他们与神灵对话的媒介。在焦作地区,每逢火神祭祀、丧葬仪式、节日庙会等重要的场合时,当地村民都会自发请
目的:讨论GP方案(吉西他滨+顺铂)和TP方案(紫杉醇+顺铂)诱导化疗联合同期放化疗治疗局部晚期鼻咽癌患者的临床疗效及毒副反应。方法:随访我院2015.01-2017.06经病理组织证明