论文部分内容阅读
随着手持移动设备的在日常生活中的日益普及,利用其获取Web网页信息的应用模式迅速发展。目前互联网绝大多数网页是针对桌面计算机的显示屏幕分辨率设计的。手持移动设备的屏幕尺寸小,分辨率无法达到现有网页的要求,导致信息浏览效率的下降。因此,探讨如何提高小屏幕设备上的网页浏览效率并降低用户操作负担,已经成为一个普遍关注的课题。本文对小屏幕设备上的网页自适应问题进行研究。作者在借鉴现有网页分割技术和网页摘要技术的基础上,提出了基于网页分割和摘要的小屏幕设备网页自适应解决方案。按照实际应用环境对这两项技术作改进,使它们能有效地解决小屏幕设备上的网页自适应问题。为了获得更好的网页自适应能力,本文提出的方法引入对设备描述文件的分析,以根据不同的设备尺寸生成适合屏幕显示的网页摘要结果。本文关键的研究内容概括如下:对于网页自动分割技术,本文首先分析了目前采用的主要技术和存在的不足,以此为基础提出了利用多个语义线索的网页分割算法。以往的网页分割技术只考虑单一信息线索,而本文提出的算法尽可能从用户感知的角度出发,综合考虑非视觉因素和视觉因素来识别网页结构,并借鉴信息提取技术中的模式检测法对分割作调整。同时,该算法并不局限于应用环境,可作为各种应用场景下的通用方法。与现有工作相比,该算法有所创新,并且实验证明该算法的平均准确率比以往算法高,而且更为鲁棒,适用范围更广。对于网页摘要技术,本文将网页摘要的算法结合具体的应用环境,提出了基于屏幕尺寸的网页自动摘要算法。该算法的特点是摘要的屏幕自适应性,即根据不同的屏幕尺寸选择摘要内容。算法利用传统文档摘要的方法同时,还利用网页的半结构化特征抽取隐含的语义信息,以提高摘要的质量。最后在详细阐述这两个关键的算法之后,作者设计和实现了代理服务器端的原型系统,详细介绍了代理服务器的系统结构及其主要模块,并针对两个算法设计了实验以验证算法的有效性。