论文部分内容阅读
网页裁剪工具是企业信息门户(EnterpriseInformationPortal,简称EIP)中常用的信息资源获取工具,应用于企业信息门户(EIP)建设中,具有价值很大的研究开发意义。目前,国外很多大公司,比如IBM、ORACLE等,都开发了Portal产品,而且在Portal产品中都附带网页裁剪工具。但是网页裁剪工具仍然存在着很多问题,其中一个比较大的问题就是使用该工具的文本裁剪方法容易产生HTML结构不完整的情形,造成裁剪得到的门户部件不能正确地运行。
本文的主要工作就是通过研究一个HTML修补器来解决上述HTML结构不完整的问题,主要工作及创新点如下:
(1)综述企业信息门户EIP以及国内外网页裁剪的情况,主要介绍了外国的大公司IBM和ORACLE的Portal及其网页裁剪的情况;
(2)总结HTML语言以及词法分析的理论性知识,在词法分析中重点介绍了正则表达式和有穷自动机;
(3)提出了一个基于有穷自动机的HTML修补器的解决方案。该方案首先利用网上开源工具HTMLTIDY对HTML网页进行预处理,使HTML代码规范化、标准化,然后根据正则表达式和有穷自动机对HTML代码进行词法分析,最后提出一个基于有穷自动机的三次扫描修补算法对HTML代码进行修补,从而使得待修补的HTML代码结构完整化。
本文的HTML修补器成功地应用在一个实际EIP项目开发的网页裁剪工具中,并取得了良好的效果。但是该HTML修补器也存在一些不足之处,目前只能应用于文本裁剪,而不能应用于图像和动画裁剪,这也是将来需要进一步研究的工作。