互联网媒体内容监控平台的信息采集关键技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yingchaoya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的飞速发展,互联网上动态页面所占比例越来越大。当前,在互联网媒体内容监控领域,信息采集的主要对象仍是静态页面,为此,本文提出了在原有静态页面信息采集子系统的基础上,采用AOP编程思想对其进行扩展,加入动态页面解析程序,以便扩展互联网媒体内容监控平台的信息采集来源。该动态页面解析程序(JSParser)主要由网页分析模块、JS解析模块、DOM支持模块及提取URL模块等四个模块组成,通过将浏览器内置DOM对象与JavaScript脚本解释引擎进行绑定,脚本解释引擎可对来自外部的JavaScript脚本片断进行逐行解析,并以不同形式分别输出动态页面中的超链接网络地址和页面主体内容。本文对实验结果进行了分析,实验结果表明该方案充分丰富了互联网媒体内容监控平台的信息采集来源,是实现动态页面内超链接网络地址递归获取和网页主体内容提取行之有效的解决方案。
其他文献
目前我国风电场中各生产厂商的风电机组由于缺乏统一的监控通信标准而存在兼容性、互操作性、可扩展性方面不足的问题,给风电场的运行管理带来极大的困难。风电厂国际监控通信标准IEC 61400-25的推出为实现标准化风力发电机组通信奠定了理论基础,也成为未来风电场监控的统一通信基础。本文针对风电场统一监控以及风电机组之间无缝通信的需求,紧跟国际标准,提出在风电机组控制系统中基于IEC 61400-25协议
随着动态多结构的虚拟组织之间资源共享和协同合作的需求越来越迫切,网格技术正逐渐走向成熟,大型开放网格市场更是蓬勃发展起来。然而在网格市场竞争的环境下,如何提供网格
Reed-Solomon(RS)码具有优异的纠错性能,因而被广泛用于各类数字通信和数字存储系统中。相对于复杂的代数软判决译码算法,RS码的硬判决译码算法以其简单的迭代和规则的架构获
数字视频压缩技术的产生和发展具有深远的意义,使庞大的视频数据的存储和传输成为了可能,使数字视频业务得以广泛的发展。目前,SDTV数字电视码流传输都是以MPEG-2压缩方式传
目前,煤矿水害事故频繁,使得研制开发高性能矿井水灾害监测和预警系统成为刻不容缓的事情。矿井水灾害监测和预警系统主要用于监测矿井地面附近的湖泊、池塘、水库、地面河流
JPEG2000是新一代的静态图像压缩标准,图像压缩性能卓越、灵活性高,在众多领域有着广泛的应用前景。然而,标准中的变换编码采用的行列分离式小波变换,频域分解不符合人眼视觉特征
人耳识别是一种新兴的生物特征识别技术,它囊括了图像处理、模式识别、机器学习等方面的知识,人耳识别与其他生物特征相比,具有无侵犯性的优点,并且人耳库采集简单方便,在监
无线传感器网络(WSN,Wireless Sensor Network)是近年来发展日益迅速和应用日益广泛的无线网络,但从系统的角度看,它的许多性能存在矛盾,难以解决。近年来出现的网络编码技术
无线Mesh网络MAC协议沿用了IEEE 802.11 DCF机制,采用带冲突避免的载波侦听多址访问(CSMA/CA)。DCF机制主要适用于单跳机制,因而无线Mesh网络的多跳机制在带来网络健壮性好、
随着近些年互联网和多媒体技术的飞速发展,以及社交媒体的普及,图像信息的数量急剧增加,如何在海量图像中快速检索出想要的信息成为一个研究热点。传统的基于文本的图像检索