【摘 要】
:
WEB页面中包含的导航栏、广告等无关内容,对信息检索、数据挖掘等领域带来了很多负面的影响,因此页面内容提取技术至关重要。现今网页内容可以分为主题内容和噪音内容,主题内容也可以分为主体内容和文章发布时间以及评论等。目前的页面内容提取算法主要是基于结构和内容,已有的基于结构提取页面内容主要是通过模板或者启发式规则,这两种方法时效性不好,需要实时更新,并且有一定的局限性;基于内容的提取算法提取出非主体内
论文部分内容阅读
WEB页面中包含的导航栏、广告等无关内容,对信息检索、数据挖掘等领域带来了很多负面的影响,因此页面内容提取技术至关重要。现今网页内容可以分为主题内容和噪音内容,主题内容也可以分为主体内容和文章发布时间以及评论等。目前的页面内容提取算法主要是基于结构和内容,已有的基于结构提取页面内容主要是通过模板或者启发式规则,这两种方法时效性不好,需要实时更新,并且有一定的局限性;基于内容的提取算法提取出非主体内容的比例较高,影响页面提取的准确度。为了解决目前技术存在的问题,本文从结构和内容两个角度分别对页面内容进行研究。
首先,针对已有的基于结构提取页面内容的方法时效性不好以及具有局限性的问题,提出了一种WEB页面噪音节点定位算法。本算法旨在提取页面的主题内容,通过研究噪音节点和非噪音节点在结构上的区别,提出了基于位置特征的噪音节点定位模型。通过与基于模板页的噪音节点定位方法和基于布局相似性的噪音节点定位方法在对比精确率、召回率以及综合评价F值,验证本文提出的WEB页面噪音节点定位算法在不同的结构上也会取得较好的成果。
其次,针对已有的基于内容提取页面主要内容的方法准确率不好的问题,提出了一种WEB页面主体内容提取算法。本算法意在提取页面的主体内容,通过研究页面的主体内容和非主体内容在内容上的区别,提出了基于多节点和多特征分析的主体信息提取模型。通过对比基于文本标签段落提取器的提取方法和基于视觉单元的主体内容提取算法,验证了本文提出的WEB页面主体内容提取算法在精确率、召回率、综合评价F值以及时间方面上较优。
其他文献
本文对化学发光免疫定量测定仪进行了研究。文章阐述了化学发光免疫定量测定仪国内外的发展状况,介绍了仪器的工作原理,分析确定了系统设计方案。根据仪器控制任务要求,确定了由上位机软件系统、DSP仪器控制系统和恒温控制系统三部分构成的仪器控制系统结构。完成了仪器机械结构、电子学硬件系统和软件系统的设计。主要包括:基于光子计数法检测的微光检测系统;基于TMS320LF2407的步进电机运动控制系统和仪器主控
科技的进步总伴随着测量精度的提高,时间作为一个古老的物理量,它的精度随着人类文明的发展而得到不断的提升,目前在实验室中光钟的稳定度已经达到10-19量级。高精度的时钟在如基础物理、精密测量、定位导航、深空探测、高速通信等领域扮演着重要角色,为了将超高精度的时钟应用在这些领域,对于时间(频率)信号传递的研究就十分重要。这其中,通过自由空间链路进行时间频率传递的方案由于具备传输距离远,覆盖范围广,方便
铁电场效应晶体管(FeFET)在陡峭亚阈值摆幅(SS)负电容逻辑器件和非易失性存储器方面的应用引起了研究人员的广泛兴趣。铁电栅介质引起的负电容效应,可以实现器件内部栅压放大,从而导致负电容场效应晶体管(NCFET )具有比传统MOSFET更陡峭的SS。而FeFET存储器件具有非易失、低功耗、读写速度快等优异的存储性能,是最具前景的新型存储器件之一。2011年德国研究人员在掺杂氧化铪(HfO2)薄膜
雷达干扰技术可以对敌方雷达造成有效干扰,使其丧失正常工作能力,这对于在战场中保护我方重点军事目标或设施具有重要的战略意义,已经成为电子战领域的研究热点。随着雷达成像技术和雷达抗干扰技术的不断发展,传统干扰技术由于干扰模式单一、适用范围局限,特别是针对敌方的动目标检测合成孔径雷达(SAR-GMTI)和逆合成孔径雷达(ISAR)等体制雷达,显得干扰效能严重不足,使我方单位的战场生存受到严重的威胁。
本文首次发现和理论阐述了抛物面声镜对运动声源信号具有无多普勒畸变增益采集的特性,并通过仿真和初步的实验进行了验证。抛物面声镜可以从信号采集端解决运动声源声信号中存在的多普勒畸变问题和强噪声问题,可有效解决列车轴承道旁声学故障诊断中存在的多普勒畸变和强噪声问题,同时也有望运用于声源定位、噪声评估等涉及运动声源声音采集的领域。具体研究内容如下: (1)理论分析:首先,理论分析了多普勒畸变产生的原理,
目前,人们对位置服务的需求日益增加,如停车场寻车、商场购物导航等实际应用使得人们对位置服务的需求从室外逐渐转移到室内环境,室内定位技术的广泛应用极大的提高了人们生活的便捷。而当人们处于复杂的室内环境中,如何提供准确并具有高可靠性的位置信息是主要的技术难题。射线传播追踪技术是现阶段室内定位和电磁信号分析的重要方法,其可以提供目标的测距信息。然而在复杂的室内环境中,非视距特征加大了射线传播分析的难度,
随着互联网技术的发展,网络已经走进千家万户。同时,网络安全问题也日渐突出。入侵检测技术可以用来识别入侵行为,从而对网络安全问题进行预警。但是,由于网络中存在海量数据、高维数据以及不确定数据等复杂结构类型的数据,导致利用一般的检测方法进行检测时会产生大量误报,检测率比较低。如何有效地发现入侵行为,提高检测率,并降低误报率是网络安全领域内的重要课题之一。 本文介绍了孤立森林算法的相关理论,并对算法进
随着近些年科技的进步,Android系统已经发展到成熟的阶段,提高了人们的日常生活水平。移动支付、视频直播、通话社交等手机功能已经与人们的生活密不可分。然而伴着科技的发展和灰色产业链的巨大利益诱惑,一些恶意安卓软件也开始入侵人们的生活。恶意软件的自我保护和反检测能力也在不断增强,给Android安全发展带来极大障碍。因此,研究检测恶意软件、保护人们隐私数据不被窃取泄露的技术十分重要。 本文提出一
水下声纳图像是水下信息的主要来源之一,是现今水下目标识别的主要手段。水下声纳图像分类的研究是海洋探索与利用的前提,因此水下声纳图像分类的研究在海洋探索和海洋装备发展领域都有重要的研究意义。提高水下声纳图像的分类精度,以及更好地适应水下数据不均衡的情况,都是水下声纳图像分类研究的要点。 传统水下声纳图像因为其成像原理不与光学图像相同,同时加之水下噪声和机械噪声的影响,成像质量较差,影响了水下声纳图
在现实世界中存在各种各样的网络,每一个网络都有其存在的意义和内在关联。无论是生活中人与人之间的关系网络,生物网络,蛋白质网络还是学术网络,都可以成为网络研究的对象。这些网络存在很高的关联性和重叠性,非常值得挖掘和研究。随着计算机各方面的技术的快速发展和互联网的日益普及,各种各样的社交网络开始大量浮现,对于这些网络的分析也变得更加迫切。社区发现就是一种网络分析的手段。社区发现算法有助于对社区的发现和