论文部分内容阅读
Blog的影响日益扩大,其信息量迅速增长,并已通过频繁的链接和交互在互联网上构建起了一个动态且紧密的虚拟网络,该虚拟网络已与现实社会相互影响、密不可分,成为现实社会一个重要的信息来源。然而,面对Web领域中海量的电子信息,人工进行检索、分析、识别是不可想象的,因此要想对Blog开展研究工作,首先必须通过自动识别将Blog信息从浩如烟海的网络信息中区分出来,这一步是整个Blog研究领域的必由之路。近几年来,尽管针对Blog网页识别领域开展的研究工作逐渐增多,然而由于Blog领域自身的特殊性和复杂性,直接利用文本分类的相关技术或在其基础上简单修改移植后的应用效果并不令人满意。当今社会迫切需要高效便捷的Blog网页识别技术,在这一背景下,本文开展了对Blog网页识别方法的研究工作。本文研究了与Blog网页识别相关的各种方法和技术,并在此基础上提出了基于综合特征空间的Blog网页识别方法。本文所做的工作主要有以下几个方面:(1)研究了网页特征信息抽取的方法,分析了网页获取、清洗、解析和信息抽取的整个过程,提出了Blog综合特征空间的概念,并且详细论述了该空间中三大类共五种Blog特征的概念、定义和抽取方法。(2)研究了网页的形式化表示方法,分析了特征项的提取、选择和权重计算的整个过程,在此基础上设计了基于标签信息的TF-IDF算法以及标签权重调整方案。随后,提出了网页文本内容特征的形式化表示方法和页面布局特征的形式化表示方法,并详细的阐述了两种形式化特征的概念、定义和获取方法。(3)研究了网页识别方法,介绍了聚类和分类的基本概念,重点分析了K-means聚类算法和KNN分类算法。随后,提出了一种K-means的改进算法——SILKM算法、一种基于KM和CV的KNN改进算法——KNC算法。(4)提出了一种基于综合特征空间的Blog网页识别算法,并将本文提出的KNC算法运用到基于页面布局特征的Blog网页识别阶段和基于文本内容特征的Blog网页识别阶段。