基于节点类型标注的网页主题信息抽取方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:alabo353
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示该方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。
其他文献
基于激光测距传感器,通过激光扫描实时获取周围环境的激光点云数据,并处理和分析点云数据,实现对环境中行人的检测。提出的行人检测算法基于实时获取的点云数据,采用帧逐差的
轮廓检测在目标识别、图像分割和模式识别等图像分析领域有着非常重要的意义。根据视觉的生物学原理,研究人员已提出了针对灰度图像的轮廓检测方法,并取得了较好的检测结果。
已有的粒子群模糊聚类算法需要设置粒子群参数并且收敛速度较慢,对此提出一种基于改进粒子群与模糊c-means的模糊聚类算法。首先,使用模糊c-means算法生成一组起始解,提高粒
指挥控制行为模型是军事分析仿真系统的主要建模对象之一。通过改进的分层任务网对军事分析仿真系统的指控行为进行建模。指控行为模型由统一的任务描述规范和通用任务管理器
关于Word文档副本创建存在内容复制和文件复制两种方法,通过对OOXML文件和各类时间属性的研究和分析,有效地实现了对Word文档副本的取证,从而鉴定源文件或复制文件。
针对移动群智网的用户激励和保护问题,基于人群搜索优化和协作竞争研究了一种用户激励机制。在该机制中,根据时域、空域和频域对感知区域内的移动节点给出定位信息定义,并对
逆P-集合是具有动态特性的集合模型,逆P-集合的动态特性来自集合内元素(属性)的动态迁移:元素迁入使得集合的边界向外扩展,元素迁出使得集合的边界向内收缩,从而产生扰动的边界
传统的深度置信网络(DBNs)训练过程采用重构误差作为RBM网络的评价指标,它能在一定程度上反映网络对训练样本的似然度,但它并不是可靠的。而最大信息系数(MIC)能反映两个属性间的相关度,保留相关度较大的属性,且MIC较稳健,不易受异常值的影响,可作为网络评价指标。故提出一种基于最大信息系数(MIC)的深度置信网络方法,一方面用MIC对数据进行降维预处理,提高数据与网络的拟合度,降低网络分类误差;
微博是一种社交网络服务,它主要基于用户的关注关系进行信息分享和传播,具有时效性强、传播迅速等特点。将微博看成是反映城市动态的一类感知器,从识别微博的主题入手,检测微