网页裁剪中HTML修补器的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:sakula617
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页裁剪工具是企业信息门户(EnterpriseInformationPortal,简称EIP)中常用的信息资源获取工具,应用于企业信息门户(EIP)建设中,具有价值很大的研究开发意义。目前,国外很多大公司,比如IBM、ORACLE等,都开发了Portal产品,而且在Portal产品中都附带网页裁剪工具。但是网页裁剪工具仍然存在着很多问题,其中一个比较大的问题就是使用该工具的文本裁剪方法容易产生HTML结构不完整的情形,造成裁剪得到的门户部件不能正确地运行。 本文的主要工作就是通过研究一个HTML修补器来解决上述HTML结构不完整的问题,主要工作及创新点如下: (1)综述企业信息门户EIP以及国内外网页裁剪的情况,主要介绍了外国的大公司IBM和ORACLE的Portal及其网页裁剪的情况; (2)总结HTML语言以及词法分析的理论性知识,在词法分析中重点介绍了正则表达式和有穷自动机; (3)提出了一个基于有穷自动机的HTML修补器的解决方案。该方案首先利用网上开源工具HTMLTIDY对HTML网页进行预处理,使HTML代码规范化、标准化,然后根据正则表达式和有穷自动机对HTML代码进行词法分析,最后提出一个基于有穷自动机的三次扫描修补算法对HTML代码进行修补,从而使得待修补的HTML代码结构完整化。 本文的HTML修补器成功地应用在一个实际EIP项目开发的网页裁剪工具中,并取得了良好的效果。但是该HTML修补器也存在一些不足之处,目前只能应用于文本裁剪,而不能应用于图像和动画裁剪,这也是将来需要进一步研究的工作。
其他文献
本文将RGFM(Real Ghost Fluid Method)方法推广应用于三维多介质流动问题的数值模拟,给出了三维问题界面处Riemann问题的构造方法,通过在界面处构造并求解Riemann问题,得到界面处
本文通过对数据库技术及综合评价方法的研究,设计开发了切削液选择系统;针对从切削液数据库中选取的结果结合切削液性能指标,建立了切削液AHP层次结构及模糊综合评价模型;结
此文章的思想主要来自于拉瓦兹和贝尔热在完美图方面所做出的文章,这些文章详细的说明了完美图的性质和一些相关重要定理。图G是完美的,如果G和它的所有诱导子图都满足色数等于
本文研究了两类与分数次微分相关的反问题.其中,第一类为分数次数值微分问题;第二类为分数次扩散方程的非特征Cauchy问题.对于第一类问题,我们采用截断的正则化方法;对于第二