基于标记树表示方法的页面结构分析

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:liuyu890501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用。文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件。采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法。在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统。实现自动朗读页面主题的功能。
其他文献
在分析利用MATLAB函数开发独立可执行Visual C++应用程序的优势和接口技术的基础上,克服以往该方法不能调用MATLAB工具箱函数的不足,探讨了一种能在Visual C++中利用MATLAB时频
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文
随着互连网的迅速发展和网上数据量的增加,越来越多的应用迫切需要通过网络来交换数据,服务于决策。然而,目前Web数据结构的差异和平台差异给数据的集成带来了实现上的困难。基
探讨了柔性管理产生的东西方文化背景,陈述了柔性管理的基本问题,通过与刚性管理的比较,揭示出柔性管理的特质,对于现代企业管理具有启迪作用。
通过高职高专院校人才培养水平评估工作的实践,对照评估指标发现并分析了以往工作中的差距,指出图书馆应提高认识,抓住机遇,乘势而上,客观认识自我,实事求是,及时整改,才能达到以评促
分析了与北京八达岭林场潜在林火险情密切相关的气候、地形、植被和可燃物四类因素。气候潜在林火险情主要是防火期内温度高、湿度小、风多、风大、植物凋萎期长。陡急险坡和
基于高性能机群系统建立并行数据挖掘平台,能够有效地提高数据挖掘算法的执行效率,提高对大量数据信息的处理能力,而且可以减少系统开发、升级及维护的费用,提高系统可伸缩性。文
文章分析了领导者在企业文化塑造中的作用,提出领导者作为企业价值的倡导者,对组织的行为、经营理念、核心价值取向都有决定性作用,无疑领导者对企业文化的形成和传播都有直
文章结合华南师范大学大学城校区图书馆实行的创新服务模式,介绍了“学科分馆——学科馆员”组合服务模式下学科分馆的岗位设置、职责分工及能力要求,指出了目前该服务模式存在
文章从模式识别的角度出发,提出在应用DGA对电力变压器进行故障诊断的过程中,若能针对具体的分类模式,提取出能够区别不同类别模式的‘哒择性”的信息,将有利于提高诊断效果;对放