基于视觉与语义的网页识别技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kekexiaozi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展,越来越多的用户都参与到其中。但互联网在丰富人们生活的同时也出现了令人堪忧的问题,比如大量的不良网页充斥在网络上,对人们的身心健康、财产安全都产生了巨大威胁。而如何识别这些不良网页,一直以来都是网络安全从业者的首要任务。目前存在的网页识别技术对于一些简单的非法网站有一定的检测效果,但是对于大肆传播的、隐蔽性强的不良网页尚不能完全、及时、有效地检测。从人类角度来看,我们是可以轻松的识别出哪些网页是相似的,哪些是不相似的,这归因于我们对网页的语义信息与视觉信息的理解。本论文主要基于人类理解网页的方式,尝试去提取网页内容语义特征与视觉特征,从而进行网页的相似度识别。对于网页语义相似度识别方面,本文提出基于word2vec词向量的技术方案。具体的,对于每个网页,在经过预处理后,对其进行基于TF-IDF的关键词提取作为网页摘要信息,之后利用word2vec将这些摘要信息映射到词向量空间中生成网页特征向量,最终我们利用余弦相似度来比较两个网页特征向量的相似程度。本文设计了网页聚类实验来证明本文提出语义相似度计算方案的有效性,本文采集到了wiki百科中文语料库来训练词向量,同时采集到了搜狗新闻语料库并提取了其中8类数据作为聚类数据,最终成功的通过本文的语义相似度计算方法将数据聚为了8类,且类内纯度较高。对于网页视觉相似度识别方面,本文采用了网页分块技术对网页进行视觉块的划分,之后对于每个视觉块都进行基于感知哈希的视觉特征提取,然后进行视觉树重构,将网页视觉块集合重构成为一棵视觉树,每个树节点存储该视觉块的视觉特征,最终对于每个网页生成的视觉树,本文提出了基于汉明距离与树的编辑距离的视觉相似度计算方法对其进行计算。本文设计了三个实验来验证本文视觉相似度计算方法的有效性,分别为网页分组实验、网页聚类实验、网页识别实验。网页分组实验采集了8个真实网页与其对应的钓鱼网站,共计12组网页;网页聚类实验采集了多个网站的首页的多年的变化情况作为聚类数据集,共计71个网页,12个类别;网页识别实验中,采集了1051个网页,其中51个为目标网页,1000个其他网页。最终三个实验取得了较好的效果,证明了本文提出视觉相似度识别方案的有效性。
其他文献
全封闭往复压缩机作为冰箱与空调等制冷设备的动力源与心脏,其工作状态会直接影响冰箱的各项性能。振动是压缩机在工作过程中必然会产生的现象,且振动信息中包含了运行状态的丰富信息,压缩机工作性能的变化可以通过振动表现出来。全封闭往复压缩机结构复杂,易损零部件较多,且故障所对应的振动响应复杂,一旦发生故障,将会产生大量的冲击和摩擦,同时运转速度会变得十分不平稳,负荷也不断变化,对设备造成严重的损坏。本文通过
转向系统是车辆中最重要的系统之一,它的性能会影响车辆行驶稳定性、能源消耗、机械作业效率以及操作舒适性。近几年随着工程机械和农业机械朝大型化和大功率化的发展,对转向阻力矩的要求也有所提高,只利用单级全液压转向器控制的液压动力转向系统已不适用于大型机械。同轴流量放大全液压转向器具有占用空间小、结构紧凑、反应灵敏、泄露少、易于安装布局、工作可靠性高以及系统效率高等优点,在大功率工程机械和农业机械中获得广
大豆在我国粮食产业中占据着非常重要的地位,与我们的生活息息相关。然而,田间杂草生长过盛是导致大豆作物减产的主要原因之一。为有效控制田间杂草,草甘膦凭借其高效的除草优势占据着除草剂市场的主导地位。但草甘膦在发挥其高效除草优势的同时也不加选择地对农作物造成了伤害。因此,培育抗草甘膦作物成为科学家们研究的热点之一。草甘膦抗性基因是培育抗草甘膦作物的基础。在当下转基因作物食品安全性备受争议的局势,挖掘源于
结晶器作为连铸生产的重要设备之一,在实际的工业生产过程中由于受诸多因素的影响,将不可避免的产生损耗。更换失效的结晶器会给企业带来了巨大的经济损失,因此希望找到一种可以修复结晶器的办法,以减少企业的经济损失。本文以经过电铸修复的小方坯结晶器为研究对象,在考虑结晶器在连铸生产中的实际使用温度和使用时间的基础上,设计了100400℃的保温温度和50200小时的保温时间来模拟结晶器的服役条件,利用显微硬度
近年来随着互联网尤其是移动互联网技术的快速发展,互联网通信技术的高速发展给我们的生活带来了巨大的且深远的影响,人类由此步入了信息化的时代。互联网成为人类社会中不可
起重机主梁由于“细长化”的特点,主梁的柔性增强,愈发对风载荷敏感,逐渐成为风敏感结构。尤其在沿海作业过程中,起重机可能会遭遇台风等恶劣风场环境,主梁风力增强,风载荷不容忽视。因此,起重机主梁风载荷的研究有助于了解其风载荷作用机理,提高整机的抗风性能。限于风洞实验难以做到系列化的风场绕流模拟,因此计算机数值模拟成为首选,如何保证数值模拟合理性是主梁风载荷研究的关键,具有重大研究意义及工程应用价值。首
在铝电解生产过程中,电解质体系的温度采集与分析,对评价设备工作状态、提高铝电解生产效益具有重要意义。合理控制电解温度可以提高电流利用效率,降低能源消耗。为了控制电解温度,需要对电解质的初晶温度进行准确测量,进而调整合适的过热度,保证生产的高效进行。铝电解生产工艺较为复杂,电解槽数量较多,生产过程中伴随着强磁场、高粉尘等诸多不利因素,对温度采集设备工作的稳定性和准确性提出了严格要求。为了满足电解质温
尽管JPEG2000是早已成熟的图像压缩技术和标准,但由于其计算复杂度较高,在应用中还不是很普及,目前主要应用在遥感图像的压缩领域。我国目前高分系列卫星的遥感图像大都采用了 JPEG2000的图像压缩标准,星上利用多个芯片并行压缩图像,以达到实时压缩的目的,地面处理系统利用集群设备并行解码图像,以达到实时解压缩的目的。地面系统的庞大集群设备严重制约了遥感图像在小型应用单位和移动设施等方面的灵活应用
数字图像和视频修复是指利用有效的算法自动修补图像或视频内指定的破损区域的计算机技术。修复技术在我们日常生活中有着广泛的应用,比如书籍、壁画的复原;老照片、老电影的
表面完整性是加工质量好坏的重要评判方式,而金属切削加工过程中的应力、应变、温度等中间物理量直接影响到表面完整性,描述这些物理量变化规律的本构模型在切削加工研究中起到了重要作用。过去用于辨识本构模型参数的方法,包括标准材料测试、基于切削模型或仿真的辨识方法都存在各种各样的局限性。本文基于原位高分辨率成像、数字图像相关(DIC)技术以及正交切削的分析模型,提出一种新的实验-分析混合方法辨识材料塑性本构