基于综合特征空间的Blog网页识别方法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:lzl2008000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Blog的影响日益扩大,其信息量迅速增长,并已通过频繁的链接和交互在互联网上构建起了一个动态且紧密的虚拟网络,该虚拟网络已与现实社会相互影响、密不可分,成为现实社会一个重要的信息来源。然而,面对Web领域中海量的电子信息,人工进行检索、分析、识别是不可想象的,因此要想对Blog开展研究工作,首先必须通过自动识别将Blog信息从浩如烟海的网络信息中区分出来,这一步是整个Blog研究领域的必由之路。近几年来,尽管针对Blog网页识别领域开展的研究工作逐渐增多,然而由于Blog领域自身的特殊性和复杂性,直接利用文本分类的相关技术或在其基础上简单修改移植后的应用效果并不令人满意。当今社会迫切需要高效便捷的Blog网页识别技术,在这一背景下,本文开展了对Blog网页识别方法的研究工作。本文研究了与Blog网页识别相关的各种方法和技术,并在此基础上提出了基于综合特征空间的Blog网页识别方法。本文所做的工作主要有以下几个方面:(1)研究了网页特征信息抽取的方法,分析了网页获取、清洗、解析和信息抽取的整个过程,提出了Blog综合特征空间的概念,并且详细论述了该空间中三大类共五种Blog特征的概念、定义和抽取方法。(2)研究了网页的形式化表示方法,分析了特征项的提取、选择和权重计算的整个过程,在此基础上设计了基于标签信息的TF-IDF算法以及标签权重调整方案。随后,提出了网页文本内容特征的形式化表示方法和页面布局特征的形式化表示方法,并详细的阐述了两种形式化特征的概念、定义和获取方法。(3)研究了网页识别方法,介绍了聚类和分类的基本概念,重点分析了K-means聚类算法和KNN分类算法。随后,提出了一种K-means的改进算法——SILKM算法、一种基于KM和CV的KNN改进算法——KNC算法。(4)提出了一种基于综合特征空间的Blog网页识别算法,并将本文提出的KNC算法运用到基于页面布局特征的Blog网页识别阶段和基于文本内容特征的Blog网页识别阶段。
其他文献
微分方程在实际问题中的应用十分广泛,如:在金融学、神经网络、化学等领域都有着重要的作用。20世纪以来,随着大量的应用问题诸如流体力学、气象学、地下水动力学等等的产生和
胡锦涛同志最近指出:要把树立正确的政绩观作为新时期党的建设新的伟大工程的重要内容,通过加强思想政治建设和深化干部人事制度改革予以切实保证。树立正确的政绩观,要靠领
学位
近年来,新华北路街道党工委以争创自治区党委组织部发起的“六个好”创建活动为契机,从阵地、队伍、网络三个环节入手,巩固基层党建基础,促使街道、社区建设事业生机勃勃。
鹤壁中泰矿业有限公司(原四矿)是设计年产量为120万t原煤的高瓦斯矿井,为保证矿井瓦斯排放量及矿井的正常、安全生产,设计建造了通风机房2个,即贾吕寨和赵荒通风机房。 Hebi
学位
北方铜业股份有限公司铜矿峪矿目前年处理矿量400万t,二期工程建成之后,年处理矿量将达到600万t。溜破系统是二期工程的重要组成部分,溜破系统衬板主要用于溜井加固,满足了溜
数据挖掘(Data Mining)是指从大量的结构化和非结构化的数据中提取有用的、有意义的信息和知识的过程。随着数据挖掘研究的不断深入和发展,数据挖掘已经广泛应用到多种领域中
地震信号消噪的方法有很多种,基于小波变换的消噪方法是其中一种性能非常好被广泛应用研究的信号去噪方法。而小波变换的计算机实现算法也有几种,其中Mallat算法的应用最为广
本文主要研究二重传递置换群与非平凡4-(v,k,2)设计,运用分类讨论的方法,寻找其中能旗传递作用的设计及其相对应的群.在20O1年至2005年间MichaelHubar运用ONan-Scott定理、有限单