一种基于逆序匹配重复模式的主题信息提取方法 - 开源共享论文下载平台 - 信丰网

一种基于逆序匹配重复模式的主题信息提取方法

来源 :计算机应用与软件 | 被引量 : 34次 | 上传用户：radcuijun

【摘要】

：

网页中的信息主要以重复的HTML结构进行组织并形成一致的展现形式,主要研究具备复杂重复模式的网页主题信息块识别,提出一种改进的基于逆序匹配重复模式的算法。该算法依据HTML标签结构和class属性改进DOM树,重构页面的向量空间模型,逆序匹配重复结构模式并完成对主题信息的提取。实验结果表明,该方法能准确识别复杂页面结构中主题重复模式,有效避免非主题重复模式的干扰,有较好的召回率和准确率。

【作者】

：

伍杰华倪振声陈有青

【机构】

：

广东工贸职业技术学院计算机工程系,中山大学信息科学与技术学院

【出处】

：

计算机应用与软件

【发表日期】

：

2013年04期

【关键词】

：

信息提取重复模式主题识别逆序匹配 Information extraction Repetitive pattern Theme recognition

【基金项目】

：

国家自然科学基金项目（61003045）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页中的信息主要以重复的HTML结构进行组织并形成一致的展现形式,主要研究具备复杂重复模式的网页主题信息块识别,提出一种改进的基于逆序匹配重复模式的算法。该算法依据HTML标签结构和class属性改进DOM树,重构页面的向量空间模型,逆序匹配重复结构模式并完成对主题信息的提取。实验结果表明,该方法能准确识别复杂页面结构中主题重复模式,有效避免非主题重复模式的干扰,有较好的召回率和准确率。

其他文献

小时候，没有太多地明白理想酌概念，愿望便很简单：有好吃的、有好玩的。到了少年时期，愿望便有了些意义：一家人幸福平守，自己的成绩债异。

期刊

理想少年时期愿望

焊缝射线检测最新欧洲标准与中国标准的比照和评述

就焊缝射线检测(RT)的方法参数和验收条件,对当今世界上影响较大的最新欧洲标准EN1435:1997,EN 12517:1998与国内现行标准GB 3323-1987和JB 4730-1994进行比较,并结合RT基本

期刊

焊缝射线检测欧洲标准中国标准比照评述Radiographic testing Weld Standard Comparison

闲话空巢老人

近几年来，随着中国人口老龄化速度加快．“空巢”现象渐渐浮出水面．我曾听说这样一件事：两个七十多岁的“空巢老人“．仅为了和儿女吃上一顿团圆饭．竟要以吵架、摔东西．甚至闹离婚的苦

期刊

空巢老人闲话老龄化速度中国人口团圆饭苦肉计儿女吵架

其他学术论文