基于DOM树和混合文本密度的网页信息提取方法研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:wslin001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,大量的互联网信息资源以网页的形式存在,并呈现出数量化和专业化的增长趋势。同时,广告、网站导航、版权信息、图片等无关信息越来越多,更有甚者占据了网页的二分之一。这些网页噪声的存在不仅仅给网页的信息提取带来了很大的问题,而且也对网页的分类与聚类、数据挖掘、主题检测、个性化信息推荐等任务产生了很大的负面影响。如果不去除噪声信息,不仅会影响网页信息提取的效率,而且也会降低信息提取的准确率。因此,如何去除用户不关心的噪声数据,更准确提取网页的内容信息成为本文研究的关键问题。本文基于视觉特征和混合文本密度开展网页信息提取研究,主要研究工作如下:(1)针对当前网页信息提取适用性差的问题,提出了基于视觉特征去噪和DOM树的网页信息提取方法。该方法首先将网页解析成文档对象模型,使用视觉特征和正则表达式过滤的方法去除噪声信息,然后通过重复水平、垂直拆分过程对网页进行划分区域得到组成块,使用标记数最多和面积最大两个启发式规则加权平均计算组成块的最终分数,并将获得的分数和阈值进行比较获取信息块。由于本方法不需要考虑标签以及标签的属性,所以功能实用性较强。通过实验表明,相比于其他方法,本文所提出方法的平均准确度至少提高了2.67%。(2)针对当前网页信息提取中页面分块之后无法对分块后的信息块进行区分以及对短文本信息提取较难的问题,提出了一种改进混合文本密度的网页信息提取方法。该方法首先将Web网页解析成文档对象模型,采用视觉特征去噪的方式对网页进行预处理,然后利用行列分割的方式对网页进行分块,根据各组成块文本内容的文本密度、链接密度、链接文本密度以及标点符号密度计算出混合文本密度,通过阈值准确判断提取出网页中含信息量高的内容信息。通过实验表明,相比于其他方法,本文所提出方法的平均准确度至少提高了2.61%。图22表10参68
其他文献
随着“工业4.0”概念的提出,电网也向着数字化、智能化的方向发展,以往内部的设备、数据等逐渐接入了互联网,改变了以往相对封闭的局面。由于软件、协议设计缺陷或者工作人员安全意识缺乏等原因,数据、设备的安全问题也随之而来,使得电网时刻面临着不同程度的威胁。电网业务系统主要包括营销管理、生产管理等自动化管理系统,业务系统的稳定运行是电力系统安全稳定运行的基础。本文针对电网业务系统的特点以及对异常流量检测
学位
随着《全民健身计划2021-2025》和《“健康中国2030”规划纲要》的实施,广场舞作为大众喜闻乐见的一种健身形式,以其独有的健身价值、多元的艺术价值和广泛的适应性越来越受到人们关注和喜爱。“中国广场舞大赛”作为目前国内最高级别的广场舞赛事,自2015年起,本赛事连续三年入选《体育画报》(国家体育总局主管、中国体育报业总社主办)中刊载的《最具赞助价值体育赛事TOP100(不含马拉松赛事)》排行榜
学位
目的本文旨在运用统计学方法,将收集的杨功旭教授治疗膝骨关节炎的病案进行描述性统计及关联、聚类分析,同时,总结杨功旭教授运用六经辨证理论治疗膝骨关节炎的学术经验及选方用药的规律,并举隅典型病例。通过研究,更好地继承和发扬杨功旭教授的临床学术经验,为临床治疗膝骨关节炎拓展思路。方法1.通过分析杨功旭教授门诊治疗膝骨关节炎的病案,深入研究典型病例,联系相关的中医经典、著作、文献,详细分析和总结本病的病因
学位
我国是对外出口贸易大国,劳动密集型行业一直是我国对外出口的重要支柱行业。纺织业作为传统劳动密集型行业的代表,是我国对外贸易的重要行业之一。它的经历了改革开放后的高速增长期,行业规模迅速扩大,对外出口额增速迅猛,对我国的经济增长、增加就业、提高国民收入等方面都发挥了十分重要的作用。而随着新一轮的经济周期的开始,我国近几年正在进入经济增长放缓,行业压力增加,经济结构转型的关键时期。纺织行业也面临着前所
学位
天然气水合物资源被誉为21世纪最具开发价值和应用前景的新型能源,可望有效解决能源短缺问题。水合物开采分解极易导致海床不均匀变形、开采井结构失稳等工程灾害,深入探索含水合物沉积物的物理力学特性,建立模型对其强度和变形等特征进行模拟对保障水合物安全开采具有重要意义。含水合物沉积物的力学特性与水合物的填充和黏结效应及沉积物的各向异性有关,本文通过考虑以上影响因素,在CASM框架下建立了含水合物沉积物弹塑
学位
随着“两化融合”进程不断推进,工业控制网络原本封闭的环境变得开放,接入互联网意味着工控系统内的联网设备面临着更多风险。基于主动探测的设备识别技术并不适用于工控网络环境,也不符合未来的发展要求,所以本文基于被动监测的网络流量分析技术实现对特定环境下的网络设备识别,并且在这个环境内建立网络设备指纹库,及时获取接入到本环境网络中的设备信息,进行有效的网络设备资产管理。通过获取到的网络设备拓扑图全面了解本
学位
近三十年以来,我国建筑行业发展迅猛。但传统建筑行业仍然存在劳动力短缺、作业环境高危、环境污染严重、建筑质量参差、工人效率低下等问题,建筑工业化是我国建筑行业发展的必然之路。本文将根据建筑行业中室内建筑抹灰机器人的应用场景及具体施工要求,设计并研发了一套适合于室内建筑抹灰机器人的智能导航系统。其主要内容如下:(1)提出了一种适用于室内建筑机器人对未知场景认知的模型——“建筑信息模型(Building
学位
路由选择是网络数据传输的关键技术之一。对路由选择协议进行优化,有助于减少拥塞状况,提升网络吞吐量。在大流量传输和突发流量传输场景中,传统启发式路由协议无法从历史决策中汲取经验提升网络吞吐量,也无法根据网络变化情况动态调整路由策略以满足服务质量需求;现有基于强化学习(Reinforcement Learning,RL)思想的路由协议尽管可以克服上述问题,但在平衡动作探索与利用以及模型自适应方面仍有提
学位
小儿肺炎支原体肺炎是一种良性、自限性疾病,但随着肺炎支原体对大环内酯类等药物耐药性的增加,重症肺炎支原体肺炎和难治性肺炎支原体肺炎的患儿不断增多,及时、准确的诊断与正确、合理的治疗对于促进肺炎支原体肺炎患儿病情恢复、控制疾病进展至关重要。该文概述了肺炎支原体肺炎的病原学特点、发病机制与临床特点,分析了小儿肺炎支原体肺炎诊治的研究进展。
期刊
高等职业教育是高等教育的重要组成部分。近些年高等职业教育受重视程度越来越高,但我国高等职业教育与不少发达国家还有较大差距,发展后劲不足、创新不够、社会认可度不高。如何发展我国高等职业教育,培养面向生产、建设、服务、管理第一线需要的高技能、应用型专门人才,备受政府、社会、市场及学校关注。解决我国高等职业教育困局的思路是,以某个具有典型性省份的高等职业教育为个案,统计分析它的协同发展与运行机制,继而探
学位