抽样技术在数据挖掘中的应用研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:ig226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库规模的急剧膨胀使利用已有数据挖掘算法处理大规模数据集的时空代价较大,而抽样技术是一种解决大规模数据挖掘的重要手段,适当的抽样技术可以保证挖掘结果准确性并且降低算法的时空代价。本文主要对数据挖掘中的抽样技术进行研究。 本文主要工作如下: (1)将最优统计样本数的概念引入抽样过程,以克服已有抽样挖掘算法主观因素过重的缺陷。以最优统计样本数为样本容量的抽样挖掘算法不仅能反映数据本身的分布特点,而且能在保证挖掘结果准确性的同时降低抽样的样本容量。 (2)提出一种面向分类规则提取的分层抽样算法。该算法以在保证重要分类规则不丢失的前提下降低样本容量为目的,采用最优统计样本数确定样本容量并且利用分层抽样提高分类算法在不均匀数据集上分类的准确率。 (3)提出一种加权挖掘频繁项集的抽样算法。该算法以在大规模数据集中挖掘大频繁项集为目的,同时兼顾了样本的质量和容量两个方面的因素,能够在保持频繁项集基本不丢失的基础上降低处理的数据规模。 (4)提出一种新的基于随机抽样的网格聚类算法。该算法继承了网格聚类算法对大规模和高维数据聚类良好的伸缩性,并利用随机抽样确定网格划分粒度的方法进一步提高基于网格聚类方法聚类的精确度。 实验结果验证了上述算法的有效性。
其他文献
中国目前已开始进入工业化中期阶段,意味着政府为增加农民收入、平抑城乡收入差距的行为选择有了很大的空间.按照中国到2020年经济总量翻两番的目标测评,届时人均GDP可达到30
我国加入WTO后很多国外医疗卫生机构、跨国医药企事业单位公司、人才服务机构及其他健康相关产业以各种方式进入我国市场,加剧了医疗市场和人才的竞争。医院人才竞争日趋激烈
2010年6月10日,由山东省教育科学规划领导小组办公室组织的“山东省教育科学。‘十一五’规划课题评审会”在济南市召开。山东省社会科学规划办公室、山东师范大学、山东教育
农业现代化是一个科技含量高,涉及面较广的系统工程.要实现广东省委"2010年力争全省基本实现水稻生产机械化,珠江三角洲基本实现农业现代化",博罗县"2013年基本实现农业现代
江苏某化工企业设计采用铁炭微电解一Fenton一混凝沉淀一水解酸化一UASB—A/O工艺处理医药中间体生产废水。连续运行结果表明,在进水流量为320m^3/d、高浓进水COD为15000mg/L、
1976年 5月 在乌兰巴托举行了社会主义国家档案主管机关领导人会见会。 9月20—22日 举办了有关采用组织管理文件标准系统全苏讲习班。 9月27日—10月1日 苏联档案代表团参加
0概述白俄罗斯共和国是欧洲中部的一个内陆国家,全国面积为20.76万km2,总人口为985.2万人(2004年).该国地处东欧平原,地势低平,沼泽、泥地广布.北部有低缓的丘陵,境内湖泊较
日前,农业部办公厅印发了农业机械化管理司制定的《全国水稻生产机械化十年发展规划(2006—2015年)》(以下称“十年发展规划”)。印发“十年发展规划”的《通知》中称:当前,全面快速
萧山市长河镇文书何金海同志自1954年担任文书以来,几十年如一日,默默无闻,踏踏实实,埋头苦干,安心、热心、专心地做好本职工作,多次被评为杭州市和萧山市档案工作先进工作者
<正> 精液液化异常是指在射精后至少半小时精液不能完全液化或超过一小时方开始液化的现象,它包括精液不液化及液化迟缓。自Bunge(1954)首次提出至少有一部分生育力低下或不