论文部分内容阅读
随着当今计算机的广泛应用,各种数据被不断地存储到数据库及因特网中。人们希望从这些数据中发现潜在的、有助于决策的知识。正是这种需求推动了数据挖掘兴起和数据挖掘技术的发展。作为一个多学科交叉的前沿领域,数据挖掘融合了数据库、统计学、机器学习、人工神经网络、高性能计算等学科中的各种理论和算法。其中,人工神经网络凭借其本身具有的非线性处理、自适应学习、高度容错能力等特性在数据挖掘应用中得到了广泛的使用。本文研究了神经网络在数据挖掘中的应用。为提高神经网络训练过程的达优率与泛化能力,改善其在分类预测任务中的预测准确度和噪声承受力,提出以复合适应度代替传统的均方误差作为神经网络的训练指标,并结合单纯形算法对微粒群算法进行改进,得到一种基于复合适应度的单纯微粒群神经网络训练算法模型。将这样的模型应用于数据挖掘的预测任务中,实验结果表明,预测准确度和噪声承受力均有所提高。针对因特网能够提供大量信息数据,但其开放性,使一些色情的、暴力的、迷信等不良信息得以传播,侵害人们的身心健康、危害社会的稳定。如何过滤Web中的不良信息,构建健康、安全的资讯环境,已经成为未来互联网健康发展的一个研究重点。因此开发并完善能够智能的从Web中发掘不良信息,并将其分类与执行过滤的开源项目是本文的从理论研究迈向实际应用的重要一步。本文将基于复合适应度的单纯微粒群神经网络训练算法模型最终改写成为C语言模块,并应用于开源的Web过滤工程Dansguardia中,建立了从理论探索到实际应用的桥梁。