基于JSSh的信息采集技术研究与实现

来源 :科技资讯 | 被引量 : 0次 | 上传用户:busyouweb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:该文为了实现对互联网信息的有效监管,在系统信息采集环节,力求实现网站身份的自动化认证,和采集动态化网页信息。提出基于JSSh该脚本交互接口,能够成功实现JSSh客户端通信JSSh服务器,经客户端向服务器发送指令,进而对Firefox浏览器操控即可填写身份认证单,在进行Cookie认证交互处理后便完成了身份自动化认证过程。通过运用Firefox网页排版引擎Gecko对网页动态脚本进行解析,客户端能够根据HTML DOM完成动态化网页内容及链接地址的获取,也就完成了基于JSSh信息采集的全过程。
  关键词:JSSh  信息采集  校本服务器  解析技术
  中图分类号:TP274.2                        文献标识码:A                    文章编号:1672-3791(2020)11(b)-0057-03
  Abstract: In order to realize the effective supervision of Internet information, this paper strives to realize the automatic authentication of website identity and the collection of dynamic webpage information in the system information collection link. The script interaction interface based on JSSH is proposed, which can successfully realize the communication between JSSH client and JSSH server. The client sends instructions to the server, and then controls the Firefox browser to fill in the identity authentication form. After the interactive processing of Cookie authentication, the automatic identity authentication process is completed. Through the analysis of the dynamic script of the web page by using the Firefox web page typesetting engine gecko, the client can complete the dynamic web page content and link address acquisition according to HTML DOM, which also completes the whole process of information collection based on jssh.
  Key Words: JSSh; Information collection; School based server; Parsing technology
  随着社会发展各项新兴技术得以不断创新研发,互联网作为新兴媒体为人们发布信息提供了有力途径,但也增加了信息采集工作的难度。就目前我国的信息安全现状来讲,通过基于Web自动化功能测试,能够通过对信息自动化采集技术研究,丰富我国现有技术研究成果。并且运用成熟的Web浏览器网页排版引擎,能够进行授权网站的自动化登录解析动态网页。提出JSSh客户端、服务器,能够成功地完成Firefox浏览器功能操控,与目前飞速发展的互联网内容生成方式相适应。
  1  JSSh技术概述
  JSSh作为Fire Fox C++模块,能够作为Fire Fox成功安装附加组件。作为JSSh客户端、服务器之间的交互过程。外部应用程序能够建立和JSSh服务器之间的Java校本链接,服务器负责对客户端的Java指令执行,并将最终的执行结果反馈给JSSh客户端。客户端即可根据Java通用对象HTML DOM支持的相应方法,实现对浏览器文档对象的操控。
  对于附加组件内完成Firefox的XPCOM组件安装,通过运用Gecko SDK,能够运用Java Script或C++完成组件创建。JSSh主要包括了服务器、客户端两大组成,Gecko的提供接口也正是JSSh服务器,实现Firefox浏览器功能操控。JSSh客户端Fire Watir在Web应用程序自动化功能测试中广泛运用,通过基于Ruby編写,实现了JSSh服务器多功能的封装处理,应用程序能够对Fire Fox方便自由操控加载DOM对象。测试者通过利用其完成程序编写,即可实现对Web应用程序的易读、易维护自动化功能脚本测试。
  2  基于JSSh网络自动身份认证
  2.1 填写身份认证表单
  HTML表单主要包括的元素有radio、combobox、checkbox、text field、hidden field等不同类型表单元素,向Web服务器发送数据,可以经适当编码实现有序表示,运用以下公式对表单进行简化处理。
  F=(U,(E1,V1),(E2,V2),…,(Em,Vm))   Firebug作为Firefox浏览器的附加组件,能够实现Web页面的编辑、调试、跟踪,并在短时间内实现认证表单HTML代码的快速查找。经Firefox完成身份认证表单网页加载成功后,即可点击鼠标置于网页认证单中,这种情况下的HTML源代码便会显示于Firebug控制窗口内,方便对身份认证表单元素的及时识别。
  JSSh服务器根据操作指示完成Firefox身份认证网页加载后,以(how,what)此种语法形式,完成含有认证信息的Java指令向服务器发送。对比编程重构认证Cookie网络交互制,经JSSh客户端完成Java指令发送,可以内嵌于Firefox浏览器内,自动填写身份认证单。仅需Firefox浏览器的附加组件,便可实现Firebug认证表单元素查找,成功构建自动化填写身份认证表单的Java指令。
  2.2 身份认证及信息请求交互
  完成上述步骤后,JSSh客户端负责对Java指令的操作执行,经Firefox浏览器提交至Web网站的自动化填写身份认证表单,JSSh客户端已经不再参与浏览器及网站的协商认证过程。完成Web及浏览器之间的身份认证后,JSSh客户端向服務器的内嵌Firefox浏览器完成身份认证网站指示发布相关信息,进而转至身份认证网站所进行的信息发布交互环节中。
  2.3 JSSh采集网站发布内容
  完成以上身份认证步骤后,经JSSh客户端能够继续发送至Firefox浏览器,相应的身份认证网站Java加载指令,并进行相应的信息采集操作。浏览器实现对发布的网页指令执行加载,并向身份认证网站中实现身份发布页面的自动认证。JSSh客户端对于浏览器网页加载DOM树内,可以完成网页身份信息的超文本链接提取,经过浏览并最终导出至对应连接的文本信息,即可成功完成身份认证信息采集工作过程。
  2.4 运用网页获取工具采集内容
  在完成自动化身份认证后,通过向文件导出网站Cookie信息,并在Wget、Pacuk等下载程序执行HTTP协议文件,最终导入Cookie文件内,这样可以有效提升下载效率。譬如Wget能够完成对用户提供文件的Cookie信息读取,并在交互Web服务器中在HTTP头部附加Gookie信息,保持建立用户会话状态并获取相应内容。
  3  基于JSSh动态网页采集
  3.1 动态网页解析技术
  针对动态网页目前推出Java引擎技术,来完成对动态网页Jave脚本的解释,并获取超文本链接地址及相应内容。以Spider Monkey技术为例运用中,能够实现对基本Java分析器的基本功能,可以经过编译并执行Java脚本语句函数,能够分配脚本变量所需的存储空间,在不需要变量情况下回收原本占用存储空间。在运行Spider Monkey技术时的运行环境,作为对脚本变量、对象及上下文执行所需的存储空间,作为运行Java时的环境和上下文执行关系。
  3.2 构建动态网页DOM
  在用户请求网页加载时,浏览器根据网络模块完成相关数据获取,并向排版引擎转发接收数据,实现单独线程运行。对于排版引擎载入HTML文档中,可以生成DOM树,且兼容于CSS2规范的浏览器还可以完成渲染树、Frame树的创建,成功创建后便可以在屏幕中显示reflow过程。此时在网页内嵌入的Java脚本代码,便会对排版引擎产生影响,整个HTML文档便可以根据文档对象,对网页元素进行相应的访问改变,譬如实现对样本属性的更改,并完成事件监听器的增设等。
  3.3 在DOM内完成内容采集
  所示在成功建立Web浏览器的DOM后,便可以根据DOM的本身提供方法,完成HTML元素访问采集,并完成Java指令发送对文档元素属性进行查询,并运行获取网页发布HTML源文件及文本信息。
  4  结语
  如上在本文提出基于JSSh的信息采集技术,分析了JSSh服务器、客户端交互制,通过完成身份认证表单填写,并协商Web网站身份认证,进而采用动态网页解析技术,构建动态网页DOM最终完成JSSh网站发布信息采集,该技术也会在未来身份认证信息采集相关领域有较好的应用前景。
  参考文献
  [1] 李曼寻.“互联网+”时代档案价值与档案利用的关系研究[D].安徽大学,2020.
  [2] 周静.“BIM+VR”技术在建筑设备运维管理中的应用研究[D].长春工程学院,2020.
  [3] 程元泽.基于大数据分析的苏州高铁新城公共空间活力评价研究[D].苏州科技大学,2019.
  [4] 梁学书.基于警务平台的视频监控基础信息采集与管理技术研究及实现[J].警察技术,2017(2):67-70.
  [5] 陈云坪,孙源,杨玥,李皓昱,马存诗,侯磊,陈彦.叶面积指数在线监测实验系统设计[J].实验室研究与探索,2019,38(11):51-55.
  [6] 刘兴奇.故障预测与健康管理技术在用电信息采集系统中的应用与展望[J].电器与能效管理技术,2018(2):73-77+82.
其他文献
构建了2011-2019年中部省域数字经济产业的投入产出指标体系,利用DEA-Malmquist指数模型对中部省域的数字经济效率进行了测算和评价。研究结果表明:①中部省域的数字经济效率
传说凤凰每经历一次火的洗礼,就能获得一次新生。作为温州市高级中学优秀班主任研修班的学员,我对这句话的体会尤其深刻。每次参与集训,我也仿佛都经历了一次班主任工作知识的洗
我国大部分油田已进入开采的中后期,采出液含水量高达80%,使得油田污水的处理量迅速增加。其中,油田污水含盐量已高达上万或数十万mg/L,直接外排和回注都会对周边环境造成严
目的研究体外模型中不同运动模式和不同频率的电动牙刷对邻面菌斑生物膜的影响。方法培养变异链球菌(S.mutans)、血链球菌(S.sanguis)和内氏放线菌(A.naeslundii)形成三菌种生物膜
<正>村级财务管理是农村基层基础工作的重要内容,是反映农村工作的"晴雨表",也是区别干部好坏、班子强弱的"试金石"。笔者结合实际,围绕践行党的群众路线,解决发生在群众身边
在高压环境中,传统的两电平开关变换器开关管承受的电压应力较大,容易损坏,为了适应高压环境多电平变换器得到了发展。降压型三电平直流变换器是适合于中高压环境的变换器,它
<正> “墓头囘”一葯,見于“本草綱目”卷二十一杂草部,言能“治崩中、赤白带下”。余治三例老妇血崩,皆显神效。病例:一、王秀兰,六十岁,临淄县朱家村人1958年5月4日就診,自
习近平在党的十九大报告中指出,要培育和践行社会主义核心价值观。并且伴随着学术界对于"社会主义核心价值观"研究的不断深化,学者对社会主义核心价值观进行了深刻研究,研究
目的探究阿仑磷酸钠对糖尿病骨质疏松症(DOP)患者骨代谢的影响。方法前瞻性收集2017年12月至2018年12月秦皇岛军工医院收治的108例DOP患者,随机分为对照组(54例)和阿仑磷酸钠
【摘要】 目的:探究乙型肝炎免疫球蛋白(HBIG)联合乙肝疫苗对阻断乙型肝炎病毒(HBV)母婴传播的疗效和安全性。方法:选取2015年2月-2017年2月本院收治的妊娠合并乙型肝炎患者78例。按照住院号尾数单双号将其分成观察组(HBIG+乙肝疫苗)与对照组(乙肝疫苗),各39例。比较两组母婴传播指标、新生儿出生时的发育情况。结果:观察组乙型肝炎病毒表面抗原(HBsAg)阳性率、HBV-DNA阳性率