论文部分内容阅读
互联网技术的迅猛发展,推动了网络信息的爆炸式增长。它容纳了海量的各种类型的数字化信息,包括文本、图形、图像、声音甚至视频。这些信息大都是半结构化或非结构化的数据,因此,如何在浩瀚而又芜杂的网络信息海洋中迅速有效地获得所需的信息是信息处理的一大目标。基于人工智能技术的网页分类系统能依据网页的文本内容的语义将大量的网页自动分门别类,可以大大缩短在线文档的整理时间,从而更好地帮助人们把握所需信息。近年来,网页分类技术也逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。
对网页分类所涉及到的关键技术,包括分类有效信息抽取、中文分词、维数约简、文本表示模型、分类算法以及分类评价标准等进行了全面的介绍及深入的研究和探讨。通过分析向量空间分类模型对训练集依赖程度过大,结合系统应用环境的特殊性,给出了利用网页搜集器搭建URL分类库与向量空间分类模型结合的方法。削弱了训练集对分类器的约束力,提高了分类系统的覆盖率和准确度。并对结果进行了实验检验,实验结果表明本文的分类URL分类库对网页分类是有效的,与传统的基于向量空间分类模型相比,分类结果的F1值平均可高达85.02%。
将网页搜集器和网页分类器应用到网络运营商对用户网络行为监测分析系统的一个子系统,即广告推送系统中,实现根据用户上网URL记录分析用户网络行为类别,且取得了不错的效果。