【摘 要】
:
针对网页内容信息问题,提出了一种基于视觉特征去噪和DOM树的网页信息提取方法.该方法将网页解析成DOM树,使用视觉特征和正则表达式过滤的方法去除噪声信息,通过重复水平、垂直拆分过程对网页进行分区得到组成块,最终将两个启发式规则加权平均计算组成块的分数,获得信息块.为了提高方法的通用性,在分数的计算公式中增加了系数并且可调系数权重.试验结果表明,相比于PPR方法,该方法的准确率提高了13.69%,同时提高了网页信息的提取速度.
【机 构】
:
安徽理工大学计算机科学与工程学院,安徽 淮南232001
论文部分内容阅读
针对网页内容信息问题,提出了一种基于视觉特征去噪和DOM树的网页信息提取方法.该方法将网页解析成DOM树,使用视觉特征和正则表达式过滤的方法去除噪声信息,通过重复水平、垂直拆分过程对网页进行分区得到组成块,最终将两个启发式规则加权平均计算组成块的分数,获得信息块.为了提高方法的通用性,在分数的计算公式中增加了系数并且可调系数权重.试验结果表明,相比于PPR方法,该方法的准确率提高了13.69%,同时提高了网页信息的提取速度.
其他文献
文章选取山西省75个高星级酒店为研究对象,运用最邻近指数、区位熵、基尼系数、不平衡指数等统计分析方法对其空间分布特征进行分析.得出结论:山西省高星级酒店空间分布类型为聚集型,市际间空间分布较为集中,且极不平衡,区位熵差异明显;然后采用Pearson相关分析法研究其与区域经济发展水平、旅游资源禀赋、旅游业发展水平和交通发达程度等因素的相关关系.结果显示,山西省高星级酒店空间分布受经济发展水平影响最深,其他因素对其影响甚微.
耕地是关系到整个国家社会稳定和持续发展的根本问题,通过遥感对耕地的动态监测,对优化耕地利用格局,促进经济发展有利.本文运用ENVI 5.3软件对太谷县的遥感影像图进行预处理,解译得到耕地变化图像,然后运用ArcGIS软件提取太谷县耕地面积数据,通过与该地的经济发展水平对比分析得出相关性结论,并分析内容得出近几期太谷县耕地变化的原因,为进一步提高耕地资源的利用率,为太谷未来几年耕地的时间空间变化提供依据.
晋西北地区作为我国北方集中连片特困地区之一,其经济基础薄弱,生态环境脆弱,但其旅游资源丰富、类型多样,具备发展旅游业的资源优势.基于此,运用最近邻指数R、α指数、β指数、γ指数、通达度指数、平均路径长、紧密度指数等测度指标对晋西北地区主要旅游资源的空间结构进行了定量分析,结果表明:晋西北地区旅游资源的类型效应较强、强度效应一般、旅游资源空间分布类型为集聚型.旅游交通网络整体上连接度、通达度较差,旅游交通网络不发达,旅游设施设备接待能力不强,在这些方面亟需改进.
基于2000年~2016年山西省11个地市的年度面板数据,构建了科技创新与新型城镇化的评价体系,并运用耦合协调模型研究科技创新和新型城镇化的互动发展关系.研究结果表明:(1)2000年~2016年山西省各市科技创新和新型城镇化综合发展水平整体上以缓慢上升和维持稳定为主,各地市两系统间发展不均衡,差异较大;(2)2000年~2016年山西省各市科技创新和新型城镇化耦合协调度大致处于稳定水平,与两系统发展具有较强一致性;(3)山西省各市科技创新和新型城镇化耦合协调度受到科技创新环境、创新投入、创新产出、新型人
基于山西经济转型的大背景,统计相关客观数据,建立耦合协调度模型,评价分析太原市旅游业和生态文明的耦合关系发展情况.研究结论如下:①2012年~2017年,太原旅游业发展水平、生态文明建设水平同比上升,呈逐年增长态势;②2012年~2017年期间,太原市旅游业与生态文明耦合度属于拮抗阶段,耦合度值处在0.4405~0.4946之间;③2012年~2017年,太原市旅游业与生态文明两者之间的整体协调度往好的方向发展,2017年呈现勉强协调发展.太原市旅游业与生态文明需要加大耦合效益,联动发展,终极目标是实现太
通过构建文化产业与旅游产业发展水平评价指标体系,以2012年~2016年呼伦贝尔市文化产业与旅游产业的相关数据为基础,利用耦合协调度模型对2012年~2016年呼伦贝尔市文化产业与旅游产业耦合协调度进行了定量分析.结果表明:(1)从发展水平来看,呼伦贝尔市文化产业和旅游产业发展水平较低,文化产业与旅游产业耦合协调等级较低,虽有上升趋势但仍不明显;(2)从耦合类型来看,文化产业稍滞后于旅游产业发展,属于文化产业滞后型;(3)从静态来看,呼伦贝尔市文化产业与旅游产业耦合协调度受到两大系统各项评价指标的综合影响
受气候和降雪条件的制约,冰雪旅游具有非常强的季节性.冬天雪季,各知名冰雪旅游景区游客接待量较多,致使雪场游客拥挤,游客安全感和满意度下降,也影响景区的可持续发展.因此实时预测预警冰雪旅游景区的游客接待量,在客流量超载时积极采取超载应对措施有助于冰雪旅游景区的可持续健康发展.代表景区网络关注度的网络旅游信息搜索量,与冰雪旅游景区的实际游客接待量之间存在一定的因果关联.因此文章以西岭雪山景区为例,在协整检验和格兰杰因果关系检验的基础上,验证了网络关注度数据用于冰雪景区实时客流量预测的可行性.实证检验结果表明:
以统计数据为基础,运用偏离—份额分析法对2001年~2008年、2008年~2015年两个时段的新疆国际旅游产业结构的结构效益进行了对比分析,得出以下结论:游览、市内交通由结构效益较优,竞争力处于劣势,转为结构效益较差,竞争力处于优势;长途交通、住宿、娱乐、其他服务由竞争力处于劣势转为竞争力处于优势,但两个时段结构效益均较差;邮电通信由结构效益相对较差转为结构效益较优,但两个时段竞争力均处于优势;商品销售没有发生变化,仍是结构效益较优且竞争力处于劣势;餐饮没有发生变化仍是结构效益较差,竞争力处于优势.全国
面对时间少、任务重的教学状况,讲评课必须兼顾教学进度和数学思维提升.动点压轴题需要师生在充分认识题目的 价值和功能的基础上对条件进行分析,对图形进行研究,观察变化的规律,挖掘不变的因素,同时结合变式训练巩固知识间的联系,发展数学能力.
基于PSR模型构建甘肃省土地生态安全评价指标体系,综合运用熵权法、综合评价法、综合指数法和灰色预测GM(1,1)模型对该区域土地生态安全状况和安全等级进行评价研究,并对其未来5a土地生态安全状况进行预测.研究发现:2008年~2017年,甘肃省土地生态安全综合指数呈上升趋势,略有小幅波动,从0.2647增加到0.7732,安全等级由较不安全状态转变为较安全状态,土地生态安全整体状况得到改善和提升.通过运用灰色预测GM(1,1)模型预测甘肃省未来5a的土地生态安全状况,预测结果为甘肃省2018年~2022年