论文部分内容阅读
随着Web技术及其应用的快速发展,XML已经成为互联网上信息表示和数据交换的一个重要标准,XML在电子商务、数据交换、科学数据表示、数据建模与搜索引擎等领域有着广泛的应用,其作用已深入到网络社区的每个角落;而且当前数据库的发展呈现三个主要特征:支持XML数据格式,具有商业智能,支持SOA(服务导向架构)。随着大量XML数据的涌现与传递,产生了对XML数据管理的需求,因此如何有效地表示、存储、管理、查询与挖掘这些XML数据或数据流已成为当前XML数据库领域中一个重要挑战,具有十分重要的理论和应用价值,本文正是基于此背景研究XML数据智能管理的。本文围绕XML数据/数据流的表达、查询和聚集等问题展开研究,研究内容和取得的成果主要体现在数据智能清洗与查询方面:数据清洗是提高数据质量、并提高数据查询效率的一种有效手段。随着互联网的发展,XML数据智能清洗与查询的重要性逐渐为人们所认识;针对以往XML数据清洗检测繁锁及灵活性差的缺陷,本文尝试通过合理组合XML键、融入粒子群算法、通过引入贝叶斯学习方法及隐马尔可夫模型信息抽取策略构建XML数据清洗过程的元数据模型,综合清洗结构化数据中相似重复记录的思想,提出一种利用粒子群算法改进XML数据清洗的新方法;同时引入群智能算法提高XML数据查询的智能性与有效性,特别是粒子群算法具有快速随机的全局搜索能力,但无法利用反馈信息,而蚁群算法通过信息素的累积和更新收敛于最优路径上,具有分布式并行全局搜索能力,但初期信息素匮乏,求解速度慢等特征,采用启发式方法,结合XML半结构化的特点,将粒子算法与蚁群算法融入于XML概率查询上,并进行相应的改进,采用粒子群算法快速生成信息素分布,利用蚁群算法精确求解,达到优势互补,提高数据查询的范围和收敛的效率。