论文部分内容阅读
随着计算机数据库技术与网络技术的不断发展,信息社会的不断进步,人们对于知识发现与信息处理效率的需求变得日益苛刻,在这种大背景之下,数据挖掘技术与量子计算双双诞生。一方面,数据挖掘技术在面临信息膨胀、知识缺乏的巨大矛盾情况下,不断扮演这救世主的角色。数据挖掘的研究热潮使其被广泛应用于信息获取、决策支持等领域,并义不容辞地担任起为电子商务、科学研究、社交网络等领域打造应对信息洪流的诺亚方舟的巨任。另一方面,海量数据、非结构化数据、高维数据、缺失数据、噪声数据、分布式等新的信息挑战日益严峻。作为处在浪潮之巅的数据挖掘技术也变得黔驴技穷、捉襟见肘。而量子计算与量子算法却在解决复杂问题上具有得天独厚的优势,甚至能够将传统世界中无能为力的NP难题转换成P问题,从而使得问题得到有效解决。因此,本文试图前瞻性的研究现有的量子算法,分析其优缺点,提出或改进新的量子算法,并尝试量子算法与数据挖掘算法的融合,为新的信息挑战寻求出路。本文主要做了以下几方面的工作:第一、介绍了量子计算与数据挖掘的相关背景,对量子计算的基本原理做了简要的回顾,并对量子漫步理论进行了探讨与分析。第二、在现有的量子遗传算法的研究成果基础上,针对存在的不足,提出了一种基于3D角度编码的量子遗传算法(3D-AQGA)。该算法充分利用了量子的空间运动特性,采用球坐标角度编码的方式作为出发点,对算法的更新与变异操作进行了重新设计。仿真实验也表明了该算法在优化问题上具有明显的优势。第三、基于上述的量子遗传算法,并考虑距离度量在聚类问题中的重要性,提出了量子遗传聚类算法。就算法融合作为出发点,将3D-AQGA与传统的k-means相结合,并充分考虑数据集属性相关度、量纲、噪声等影响,设计了一种基于分位数极差的广义加权Minkovski距离,将其替代欧式距离作为本章聚类算法的距离度量,实验表明新算法与新度量让聚类效果取得显著提高。第四、对量子漫步模型进行了深入研究,提出了一种网格化量子漫步聚类模型。该聚类模型考虑聚类分析的独有特点,采用网格化的方式将现有的离散量子漫步模型进行改造,并对网格化量子漫步聚类模型进行了分析与探讨。由该模型设计的量子漫步聚类算法能够有效完成聚类任务并获得算法效率的指数加速。