Web信息的无埋点精准采集

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:AAAA1234560
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的web技术发展趋势中,可以见得,前端页面结构愈加复杂话,其中可集成的功能越来越强大,以至于使用传统的埋点方式采集页面信息所需要维护的代码庞杂,人力投入冗余,令人遗憾的是收效甚微;而无埋点技术采集页面信息的代码具有一致性,不易受页面结构的影响,不仅保障页面性能,还可以节约人力资源。因此,为了减少页面信息采集对前端页面结构的依赖,可见无埋点的技术的必要性。本文对于无埋点中可采集的信息进行了详细阐述,并依据是否需要用户操作才能采集的标准做了分成两类:静态信息和动态信息。然后,根据不同种类信息的特点设计了相应的采集方式。本文研究了无埋点采集的核心技术:URL的采集的唯一标识、基于元素自有属性的页面元素唯一标识和基于元素唯一标识的精确采集方案。在前端越来越复杂和前端框架的增多后,页面中的DOM变化增加导致XPath处理困难。针对传统XPath方案受DOM变化的影响较大的问题,设计了基于元素自有属性的页面元素唯一标识的方案。另一方面,XPath对同一元素在不同的页面中得到的唯一标识不一致,影响后续的采集数据统计。由此,本文设计并实现了基于元素自有属性的页面元素唯一标识方案,解决了在不同页面中同一元素在不同DOM中位置不同导致的表示结果不一致问题。本文最后介绍了在无埋点方案中可以实行的智能化采集方案。由于在之前的方案中发现在不同的网络环境和机器性能环境下,都采用同一套方案可能对用户体验有影响。所以本文设计了在不同的环境下智能调节的方案,以达到最少化影响用户体验的目的。
其他文献
随着人类社会的发展,人类活动对流域水循环的影响越来越大,在部分人类活动密集的区域,人类活动对水循环的影响甚至超过了自然作用力的影响,而今后这种趋势将进一步延续甚至加强。
耕地整理是人类按照自然规律,通过增加投入、提高农业技术、改善农艺水平,以增加耕地面积、提高耕地质量、实现耕地动态平衡的切实可行的办法,也是保护和改善土地生态环境,实现社
<正> 丹凤县是一个林区县,境内野生动物资源丰富,有25目54科151种,约占全省种类的1/5。其中,列入国家Ⅰ级重点保护的有3种,列入国家Ⅱ级重点保护的有29种,一般保护动物100多
为了更好地了解顶板岩体的工程地质特征,对研究区8煤层顶板岩石沉积环境进行了综合分析,提出研究区8煤层为一套高建设性浅水三角洲沉积体系及沉积相序,并利用全过程破裂软件RFPA
<正>形式主义、官僚主义问题是一种长期存在的复杂的历史现象。随着治理力度的加大和形势发展变化,形式主义、官僚主义的表现形式不断花样翻新,甚至隐形变异。形式主义、官僚
目的:探究CT检查在良恶性骨肿瘤和骨肿瘤样病变鉴别诊断中的价值。方法:选择2015年11月-2017年9月笔者所在医院收治的138例骨肿瘤或肿瘤样病变患者,分别给予X线和CT检查,分析
电视媒体在一定程度上改变了我们对现实的认识,改变了人与人之间、人与社会之间的关系,它已经成为人类不可缺少的娱乐形式之一,还是人社会化的主要力量之一。学前儿童看电视呈现
随着电子产品向微型化、智能化方向的发展,表面贴装技术(SMT)和混合组装技术涉及到流体涂敷的地方也越来越多。在微电子封装中,点胶是以一定的方式将胶液点涂在电路板上对电子元
<正>学校党支部积极探索将党建与学校中心工作高度融合的工作模式,将每个领域的党建抓具体、抓深入,推动学校可持续发展。充分发挥党支部职能,加强自身建设,形成坚强的战斗堡
<正>近些年来,面对国内各行业产能全面过剩,民间实业投资断崖式下滑的困局,以及由货币超发引发的房地产泡沫和企业债务高企的金融风险,中国各级政府积极应对,一方面,试图通过