基于区域块密度的网页信息抽取技术在移动网站开发中的研究与实现

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:jyzhenghb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动通信技术的高速发展,移动智能设备的普及率越来越高,使用移动设备访问网站的比例也逐步提高,人们迫切的需要使用移动设备随时随地的获取互联网资源。不过移动设备的屏幕尺寸、硬件性能等与普通电脑存在很大差异,并且移动设备用户的使用场景与传统互联网用户间的差别也很大,传统意义上的网站设计并不能很好的满足移动场景下用户的使用需求。同时移动设备碎片化的特点非常明显,这对移动网站的设计和开发都带来了很大的挑战。针对以上问题,本文对基于内容转换策略的移动网站开发方法进行了研究,提出了一种基于区域块密度的网页信息抽取技术,并以此为基础,实现了基于代理服务器策略的移动网站开发平台。该平台能够在较少人工干预的情况下根据网页类型的不同,选择对应规则实现网页信息的抽取,能够最大程度发挥移动端随时随地的特性,将原有业务系统与移动终端对接与融合,从而实现将PC端网站稳定快速的向移动终端扩展。本文具体的研究内容如下:1)论文从研究移动网站开发的现状开始,通过对现有网页信息抽取技术的综合比较,建立了网页信息抽取过程的流程模型。2)通过对正文抽取技术的相关研究,提出了基于区域块密度的网页信息抽取算法。该算法不受HTML标签的限制,通过分析网页正文密度函数来确定网页正文区域,进而进行网页内容的抽取。3)设计并实现了基于转换服务器策略的移动网站开发平台。该平台能在较少人工干预的情况下实现Web网站从PC端向移动端的迁移。本文最后通过一个移动网站设计与开发实例来验证本文提出的移动网站开发平台的设计方法以及设计原则的可行性。实例是青岛某管理学院官方网站移动版本,该移动网站的适配设备包括Android以及iOS的智能终端,能够较好的提高不同设备访问移动网站的用户体验,实现了较好的跨平台能力,有效降低了开发和维护成本。论文的创新点如下:a)通过对现有网页信息抽取技术的研究分析,并根据移动网站开发平台的特点,建立了对应的网页信息抽取流程模型。b)提出了基于区域块密度的网页信息抽取算法,能够在不受HTML标签限制的情况下完成网页正文的抽取,实验测试表明抽取准确率、召回率均高于90%。最后经过实验测试表明,本文提出的移动网站开发平台能够在较少人工干预下完成Web网站从PC端到移动端的迁移,具有较高的实用价值。
其他文献
学习工作之余玩一玩游戏是轻松娱乐的好方式,不过由于时间有限,大家更喜欢休闲类游戏.不占用太多时间并且达到娱乐效果,何乐而不为呢?但你是否想过制作属于自己的游戏呢?将它与家人
数码产品凭借日趋低廉的价格、眼花缭乱的新颖功能.不仅成为新新人类的首选,亦是寻常百姓家庭数字生活的象征。可作为尚未普及,又引导潮流的数码时代产品,很多新鲜的概念还一时无
目的:观察总结舒芬太尼用于硬膜外无痛分娩中的效果。方法:选择2017年1月至2019年1月在本院分娩的200例产妇为研究对象,依照随机数字表法分为两组,对照组进行常规分娩处理,分
沂源县位于山东省中部,隶属于淄博市,山东省最长的内陆河沂河发源于此,沂源因此而得名。沂源县是山东古人类发源地、山东屋脊生态高地、中国北方溶洞之乡和牛郎织女之乡。在
BIM技术在铁路行业不断发展,工程应用越来越多,现有软件已经无法满足铁路路基BIM技术设计需求。为满足铁路BIM联盟颁布的铁路工程信息模型相关标准,基于欧特克平台,针对铁路
围绕四氢小檗碱类化合物的设计、合成以及降脂活性进行分析研究,基于生物电子等排设计策略,修饰并改造四氢小檗碱化合物A、D环结构,设计全新结构四氢小檗碱化合物的成分,并对
我国幅员辽阔,各地的气候特点各不相同,但是在冬季,我国大部分地区都处于寒冷的情况,因此,在冬季进行供暖是头等大事。但近年来,由于气候的变化无常及能源供应上的紧张,电荒和煤荒经
不论操作系统还是一般的应用程序,我们经常要接触到选项窗口,但正所谓“熟知并非真知”,很多选项都被我们忽视了。所以,从本期开始,我们将以前的《口袋技巧》小栏目改成了《冷项热
一天,笔者无意中打开用户帐号管理器,发现里面居然多出了一个未知的用户名,而且还是管理员权限的。不用说,一定又是黑客入侵了我的电脑 ,添加了管理员帐号。不过不用担心,我早已在
现实世界获取的所有信息都正在被数字化。现如今手机已占据人们越来越多的时间和精力,即便在驾驶中使用手机早已被明令禁止,但因看手机引起的安全事故却屡见不鲜。近日创业邦