基于单DOM树特征预分类的自适应Web信息抽取方法

来源 :电子设计工程 | 被引量 : 0次 | 上传用户:jy1794
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的舆情中多为基于模板采集模式,基于减少人工维护的目的,文中提出一种基于单DOM树特征预分类的自适应Web信息抽取方法,分为链接预分类与信息抽取两个部分.链接预分类采用SVM分类算法,提取信息超链接在页面中的特征进行分类学习,再对分类结果进行同源的Web信息提取.实验表明,此方法预分类结果准确率可达94.48%,召回率为94.77%.
其他文献
目的 探讨浅低温体外循环(CPB)心脏不停跳行心内直视手术对未成熟心肌的保护作用及机制。方法将16只同种健康幼犬随机分为观察组和对照组各8只,观察组在浅低温CPB心脏不停跳下行
目的观察心痛宁合剂对急性心肌梗死大鼠心肌细胞凋亡的影响。方法结扎大鼠冠状动脉复制急性心肌梗死模型,分为高、低剂量心痛宁合剂组、开搏通对照组、模型对照组,另设假手术
通过深入分析当前典型软件仓库应用框架及其安全性的不足,并结合基于角色的访问控制(Role-Based Access Control,RBAC)模型的特点,提出了一种基于RBAC的软件仓库安全管理模型,并对该模型控制下的软件仓库数据库实现进行设计。实践证明,将访问控制模型结合实际应用于软件仓库管理过程中,能够较好的实现对不同级别用户软件下载安装进行有效的权限控制,进一步提高软件管理平台的安全性。