论文部分内容阅读
Deep Web又称为看不见的网页,是指通用搜索引擎由于技术原因无法索引至的那部分信息,Deep Web包含的信息是Surface Web的400~500倍,相比于表层网其信息更有价值。这些信息以自主的、独立的形式分布在整个网络中,而且Deep Web数据源是动态的、不断变化的,并非所有的网页表单都是DeepWeb查询接口,这给Deep Web信息的获取带来了困难。使用者可以通过目录指南、专业搜索引擎、Deep Web数据库等方式来获取Deep Web信息。为了有效的提供这信息,必须对Deep Web进行数据集成。本文针对Deep Web数据集成中的数据源发现和接口分类这两个重点问题进行了较为深入的研究,主要的研究工作和成果如下:(1)对Deep Web进行了研究,凶手Deep Web的定义、数据特性、规模、存在类型、获取途径以及Deep Web数据集成中的关键问题。(2) Deep Web查询接口的判定。在网页表单特征提取的基础上加入了启发式判定规则。运用了分类器集成思想,采用Adaboost算法将多个朴素贝叶斯分类器进行累加形成一个强分类器,减弱朴素贝叶斯分类算法中属性独立性假设的要求,利用多个分类器之间的差异来改善分类器的整体性能。实验结果显示,在查全率和查准率上都达到了90%,取得了较好的判定效果。(3) Deep Web数据源分类。采用ID3算法和C4.5算法相结合的方式,较好的处理了归纳偏置问题和分裂子集样本数目接近样本总数引起的增益比率过大问题。实验结果显示,在多个领域的分类准确性都有所提高。本文解决方案比较适用于存在共有属性的领域,在这类领域的分类效果比较好。本文提出了基于特征与启发式规则相结合的Deep Web查询接口判定方法,采用Adaboost-Naive Bayes分类器对查询接口进行判定。在此基础上采用ID3和C4.5相结合的分类算法对Deep Web数据源分类。实验表明,在查全率和准确率上都得到了提高。但是,还有很多有意义的问题值得进一步研究,例如:中英文网页之间的差别;进一步扩展Adaboost-Naive Bayes分类器;充分利用网页表单以外的其他网页特征;通过返回结果判定网页表单类别;分类中融入遗传算法、人工神经网络、支持向量机等分类算法。