论文部分内容阅读
Web是一个巨大的、广泛分布的全球化信息仓库,它提供了新闻、财经、广告、商务、文化、教育等多方面的信息服务。如何有效地帮助用户从Web上发现他们感兴趣的资源,已经成为一个迫切需要解决的课题。 论文首先介绍了Web挖掘的一些基本概念、方法和技术,阐述了什么是Web挖掘,为什么要进行挖掘。研究了基于主题特征词和统计学知识的Web页面分类挖掘的一般过程和方法。作者针对一个已有的系统进行分析,指出了该方法的局限性——在学习阶段对于训练集依赖性大,导致在训练集不足的情形下分类的精度不高。 针对基于主题特征词和统计学知识的Web页面分类挖掘的缺陷提出了基于本体的Web页面分类挖掘模型。该模型利用本体来表述已有知识,在此基础上对解析后的页面采用多种匹配方法进行信息抽取,并结合三个算法来计算页面与本体的相关度,来提高相关度计算的正确性,建立更为有效的分类规则,以力求提高分类的精度。 建立了一个基于本体的Web页面分类挖掘原型系统,通过实验表明,这种基于本体的方法确实能够在训练集数量较小的情况下,得到较高的分类精度。同时也与原有的系统进行了对比性实验,确实证明了该方法的在训练集较小的情形下,比基于主题特征词方法的能够有更好的精度。 最后对本文的工作进行了总结,并确定了进一步研究方向。