网页裁剪中HTML修补器的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户：sakula617

【摘要】

：

网页裁剪工具是企业信息门户(EnterpriseInformationPortal，简称EIP)中常用的信息资源获取工具，应用于企业信息门户(EIP)建设中，具有价值很大的研究开发意义。目前，国外很多大公

【作者】

：

李锐

【机构】

：

中山大学

【出处】

：

中山大学

【发表日期】

：

2006年期

【关键词】

：

企业信息门户网页裁剪正则表达式有穷自动机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页裁剪工具是企业信息门户(EnterpriseInformationPortal，简称EIP)中常用的信息资源获取工具，应用于企业信息门户(EIP)建设中，具有价值很大的研究开发意义。目前，国外很多大公司，比如IBM、ORACLE等，都开发了Portal产品，而且在Portal产品中都附带网页裁剪工具。但是网页裁剪工具仍然存在着很多问题，其中一个比较大的问题就是使用该工具的文本裁剪方法容易产生HTML结构不完整的情形，造成裁剪得到的门户部件不能正确地运行。本文的主要工作就是通过研究一个HTML修补器来解决上述HTML结构不完整的问题，主要工作及创新点如下： (1)综述企业信息门户EIP以及国内外网页裁剪的情况，主要介绍了外国的大公司IBM和ORACLE的Portal及其网页裁剪的情况； (2)总结HTML语言以及词法分析的理论性知识，在词法分析中重点介绍了正则表达式和有穷自动机； (3)提出了一个基于有穷自动机的HTML修补器的解决方案。该方案首先利用网上开源工具HTMLTIDY对HTML网页进行预处理，使HTML代码规范化、标准化，然后根据正则表达式和有穷自动机对HTML代码进行词法分析，最后提出一个基于有穷自动机的三次扫描修补算法对HTML代码进行修补，从而使得待修补的HTML代码结构完整化。本文的HTML修补器成功地应用在一个实际EIP项目开发的网页裁剪工具中，并取得了良好的效果。但是该HTML修补器也存在一些不足之处，目前只能应用于文本裁剪，而不能应用于图像和动画裁剪，这也是将来需要进一步研究的工作。

其他文献

三维多介质流流动问题的数值模拟

本文将RGFM（Real Ghost Fluid Method）方法推广应用于三维多介质流动问题的数值模拟，给出了三维问题界面处Riemann问题的构造方法，通过在界面处构造并求解Riemann问题，得到界面处

学位

多介质流动数值模拟边界条件界面处流体RKDG方法

论音乐课堂教学中审美教育的开展

《全日制义务教育音乐课程标准》指出:“以音乐审美为核心的基本理念,应贯穿于音乐教学的全过程,在潜移默化中培育学生美好的情操、健全的人格。”所谓美育,即审美教育,是教

期刊

音乐课堂教学音乐课程标准健全的人格音乐审美音乐教学义务教育培育学生形象生动审美教育美感教育基本知识基本理念基本理论全日制全过程运用

切削液选择系统研究与开发

本文通过对数据库技术及综合评价方法的研究,设计开发了切削液选择系统;针对从切削液数据库中选取的结果结合切削液性能指标,建立了切削液AHP层次结构及模糊综合评价模型;结

学位

切削液综合评价模糊数据库多目标决策

关于K-完美超图的一些性质

此文章的思想主要来自于拉瓦兹和贝尔热在完美图方面所做出的文章，这些文章详细的说明了完美图的性质和一些相关重要定理。图G是完美的，如果G和它的所有诱导子图都满足色数等于

学位

弱k-完美强k-完美k-团强色数平衡超图单模超图树超图线图强独立集

两类分数次微分相关反问题的正则化方法

本文研究了两类与分数次微分相关的反问题.其中,第一类为分数次数值微分问题;第二类为分数次扩散方程的非特征Cauchy问题.对于第一类问题,我们采用截断的正则化方法;对于第二

学位

不适定问题分数次数值微分分数次扩散方程稳定性估计正则化非特征Cauchy问题

埃森焊接与切割展览会在经济低迷条件下开幕

第17届德国埃森焊接与切割展览会的18个展厅共聚集了42个国家的1015家参展商。在展会上,从净化器到纤维激光器技术,人们很容易找到自己所需的 The 18 exhibition halls of t

期刊

埃森纤维激光器激光切割机气体保护电弧焊送丝机焊炬焊接工艺设备生产商中国展团产品技术水平

优化用户使用效能的辟谣信息网站建设探究

文章通过文献归纳和访谈提炼出辟谣信息网站的质量要素,利用调查问卷采取用户意见,基于卡诺模型理论,将要素进行分类。研究结果显示,2项要素对辟谣信息网站用户的使用效能影

期刊

信息网站卡诺模型使用效能质量要素文献归纳网络谣言模型理论问卷调查模型分析网站设计

探究性教学模式下的信息技术与初中生物课程整合的实践

信息技术以其强大的渗透力促使基础教育的课程改革飞速发展,使得信息技术与中学课程教学的整合成为新一轮课程改革的重点.本文主要阐述了探究式教学模式下的信息技术与初中生

期刊

信息技术课程整合探究性教学模式

自主学习策略在高中语文写作教学中的应用探微

高中语文写作教学是高中语文教学中的一个重要部分,文章在分析高中语文写作教学现状的基础上,将自主学习策略应用到高中语文写作教学中,引导学生观察生活,激发学生写作兴趣;

期刊

自主学习策略高中语文写作教学

小型发电站无线数据采集技术应用

目前,黄山供电公司管辖并已投入运行的小型发电站数量众多,但由于小型发电站位置大多比较偏僻,上级调度部门无法及时获取必要信息,无从管理,对电网安全稳定运行造成了不利影

期刊

无线数据采集供电公司调度机构投入运行方案制定采集装置数据系统多功能电能表北斗卫星用户机

网页裁剪中HTML修补器的研究

其他学术论文