网站数据的提取方法的研究

来源 :湖北大学 | 被引量 : 0次 | 上传用户:zhangsen168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从web2.0的出现,互联网的形态发生了巨大的变化。只要联网,人人都可以参与到互联网,并且很容易地发布信息,这就导致了大量垃圾信息的产生。由于一些商业问题和技术问题,搜索引擎并不能很好地解决垂直且高效获取用户关心信息的问题,同时互联网上利用ajax的编写的动态数据网页越来越多,搜索引擎对于该动态网页并不能很好地进行分析。因此,如何垂直地提取动态网页的信息绕过干扰信息,具有一定的研究意义。本文针对当前几种信息获取应用进行研究和实验,首先选取了 web api方式获取数据,研究了相关原理和流程,实验选用了百度提供的pm2.5api接口进行武汉pm2.5实时信息获取,通过相应操作成功获取武汉实时PM2.5信息。其次选用RSS的方式来获取新闻信息,实验对象选用了凤凰网综合信息频道,通过对RSS feed的解析,获取了以新闻标题为超链接的最新新闻列表。最后对当下搜索引擎,进行相应的试验,分别选取了一部分平时生活感兴趣内容但搜索结果又不够理想的关键词作为试验关键词,选取的搜索引擎的目标为百度。通过对以上三种方式的信息获取应用进行评估后,结合当前信息提取相关文献,通过动态信息生成原理和系统可行性的综合分析,提出了一种基于包装器的DOM提取动态网站数据的垂直半自动化系统。该系统的核心模块是phantomJS包,基于B/S架构,实验目标分别选取了京东,苏宁和亚马逊,主要提取其商品价格信息,其中京东和苏宁的数据属于动态生成的数据,亚马逊的数据能够在网页源文件中看到,它们分别代表了主流网站数据生成方式。通过给系统传递某一个页面的URL,通过下拉菜单调用相应的包装器文件,能够成功获得三家网站的页面数据,该系统可以完成预定的目标,但通过实验过程来看,该系统由于需要运行phantomJS,它可以看成是开打浏览器去解析页面,因此提取数据需要一定的时间,对于服务器性能也有一定的要求。
其他文献
沥青路面在使用过程中会受到自然降水的不断影响,水分在沥青混凝土中扩散将引起其性能的衰变。动水压力使大量的降水快速侵入路面结构内部,同时环境温度的变化引起沥青混凝土
朝核问题自二十世纪九十年代产生以来,历经多种形式的外交努力,但始终无法得以解决。伴随着朝鲜不断地核试验与导弹试射,半岛地区紧张局势频频加剧,给朝核问题的解决增加了巨
本研究主要考察中国英语专业学生对非词化动词get搭配的使用情况。因为非词化动词具有典型性,get在非词化动词中频率高,因此本研究基于语料库的基础上研究get高频非词化动词
视译可以称之为一种相对比较独特的口译形式,在口译教学中,视译通常被看作是一种提高译员口译能力的训练手段,而在实际工作中,视译还是一种实实在在的实践活动。比如,现在有
土建项目造价一般都会直接受到施工现场管理质量的影响,土建造价一般有三大特点:政策性、经济性、技术性。影响土建造价的重要因素有:工程设计、项目管理、现场施工管理、施
近几年,国际货运代理企业对于其员工英语应用能力的要求越来向国际化方向靠拢。员工的专业英语能力和英语素养对于企业的经营发展有着越来越重要的作用。该专业毕业生如何将
大长径比零件淬火过程中的温度场不均匀常常导致工件组织不均匀或变形量过大,造成工件的力学性能或尺寸精度不能满足技术要求。近年来国内正在蓬勃发展的真空高压气淬技术被认为能够解决这一问题,而国内外学者的研究工作尚未涉及大长径比零件的高压气淬均匀性问题,因此亟需开展相关研究工作。本文应用计算流体力学(CFD)软件,通过流体外掠等温平板这一传热学基本模型验证了软件中物理模型的适用性,在此基础上,分别建立1:
本报告中所涉及的材料来源于唐纳德·里奇的代表作《牛津口述史手册》(The Oxford Handbook of Oral History),笔者对该书的第十三和第十四章进行了汉译,并在此基础上撰写了
齐求3号金矿找矿潜力巨大,但是该地区研究程度不足等因素,制约了找矿突破,为了该地区资源储量的增加,有必要对该矿床进行深入全面的研究。在充分查明齐求3号金矿地质背景、矿
<正>目前,护患纠纷频频发生,二者之间的矛盾也日益激化。在当今不断扩大护士的实践范畴中,护士毕竟还是医嘱的执行者,是医院所有工作中与病人接触最多的医务人员,护士也就首
会议