基于视觉特征中文网页分类方法的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:qq350645682
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于视觉特征的网页分割技术越来越受到人们的关注,它模拟了人们在视觉感知角度上对于一个网页结构的理解,此技术对于信息检索、信息提取、网页自动分类等网络应用技术将起到极大的推动作用。网页自动分类问题是网页分割技术的重要应用之一。作为一个具有代表性的网页分类问题,中文网页分类一直是众多学者研究对象。本文的研究主要着眼于以下几个方面:首先,将传统的基于文档对象模型(Document Object Model,DOM)树的网页表示方法与基于视觉特征(vision based)的网页表示法进行了全面的比较。基于视觉特征的网页表示法在进行网页结构分析时采用的是一种自上而下、不依赖于标签树(tag-tree)的方式,即与编写网页的HTML文档的表达方式无关。它充分利用了网页中可视化的信息从而得到基于视觉特征的网页结构,较好地解决了网页的DOM树结构与语义结构的兼容问题。利用可视化的分割符将网页划分成分块并抽象成层次结构,这种层次化的语义结构在一定程度上与人们的直观感知是相吻合的。其次,在基于视觉特征的网页分割算法的基础上,提出了一种根据分块重要度进行中文网页分类的方法。利用基于视觉特征的网页分割法将中文网页分割后,由于网页中“噪声”信息的存在,所得到的分块并不都是具有同等权值(重要度)的,只有权值较高的分块才能在语义上反映出网页的主题,利用这些高权值分块进行中文网页分类可以获得更好的分类质量。在分类系统中,查全率(Recall)和查准率(Precision)反映了分类质量的两个不同方面,两者必须综合考虑,表示为F1测试值,本文实验用F1值来衡量最终的分类质量。在本文实验中,将传统的全文网页分类方法和基于视觉特征的利用分块重要度的网页分类法进行了比较。实验结果表明利用分块重要度的分类法由于综合考虑了网页层次结构和语义机构,其分类质量为最佳。实验中的分类器选择的是支持向量机(Support Vector Machine,SVM)分类器和K—近邻法(K-Nearest Neighbour,KNN)分类器。基于视觉特征网页分类法具有较好的分类质量,它对信息检索、网页分类等应用起到了极大的推动作用,例如分块检索思想在图像检索领域的引入等,这在本文中都有相应的介绍。
其他文献
医学数据可视化作为科学计算可视化应用最成功的领域,经过几十年的发展,已经从辅助诊断发展成为辅助治疗的重要手段,并将深入到医学的各个领域。体数据可视化(Volume Visualizat
学位
目前,嵌入式实时系统的广泛应用使得确保其正确性和可靠性成为当前的研究热点。MARTE(Modeling and Analysis of Real Time and Embedded systems)是UML在嵌入式实时系统领域的
网络通讯已经被广泛的应用到现在的日常生活和工作中。但是,由于各种原因的存在,比如:黑客、病毒、网络不通畅等多种原因,导致在网络通讯中传输的文件缺失、被恶意修改甚至是感染
随着移动智能业务的广泛开展,业务控制点的安全稳定问题日益突出,简单的本地双机或集群保护已不能胜任系统的高可用性要求,保证业务运行的连续性和可靠性迫切要求全面的容灾
随着科技进步和计算机网络技术的发展,网络时代来临了,它的到来彻底改变了人们的生活方式,越来越多的人融入到了网络,享受着网络带给人们的种种便利。但同时随着互联网规模的
等值面技术在可视化中应用广泛,许多标量场中的可视化问题都归纳为等值面的抽取和绘制,Marching Cubes方法是目前应用最为广泛的等值面抽取方法之一。自1987年Lorensen等提出该
学位
排课问题是一个多目标、有限资源、带有不确定约束条件的组合优化问题,并且已经被证明为一个NP完全问题。 遗传算法是一种借鉴于生物界自然选择和进化机制发展起来的高度并
VOIP(Voice over IP)从诞生以来,发展迅速,赢得了市场的青睐, SIP(Session Initiation Protocol,会话初始化协议)协议的应用,促进了VOIP的发展。国内VOIP主要使用H.323协议族