一种基于逆序匹配重复模式的主题信息提取方法

来源 :计算机应用与软件 | 被引量 : 34次 | 上传用户:radcuijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页中的信息主要以重复的HTML结构进行组织并形成一致的展现形式,主要研究具备复杂重复模式的网页主题信息块识别,提出一种改进的基于逆序匹配重复模式的算法。该算法依据HTML标签结构和class属性改进DOM树,重构页面的向量空间模型,逆序匹配重复结构模式并完成对主题信息的提取。实验结果表明,该方法能准确识别复杂页面结构中主题重复模式,有效避免非主题重复模式的干扰,有较好的召回率和准确率。
其他文献
小时候,没有太多地明白理想酌概念,愿望便很简单:有好吃的、有好玩的。到了少年时期,愿望便有了些意义:一家人幸福平守,自己的成绩债异。
就焊缝射线检测(RT)的方法参数和验收条件,对当今世界上影响较大的最新欧洲标准EN1435:1997,EN 12517:1998与国内现行标准GB 3323-1987和JB 4730-1994进行比较,并结合RT基本
近几年来,随着中国人口老龄化速度加快.“空巢”现象渐渐浮出水面.我曾听说这样一件事:两个七十多岁的“空巢老人“.仅为了和儿女吃上一顿团圆饭.竟要以吵架、摔东西.甚至闹离婚的苦