基于增量学习思想的博客网页识别算法研究

来源 :2008仿真科学与技术青年学术论坛 | 被引量 : 0次 | 上传用户:yishuiji111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于增量学习思想,提出了一种博客网页识别算法。针对博客网页所具有的特征,算法提取博客网页的HTML标签、URL字符、网页文本等构成特征值,采用C4.5算法构造决策树模型识别网页,同时记录正确和错误识别的网页。当算法的识别精度低于预设阀值时,在原有网页特征中加入误判网页特征,从而更新决策树模型以提高模型识别精度。实验结果表明,算法对博客网页具有很高的识别精度,在采集的博客网页上的识别精度达到了99%。
其他文献
高强度雨雪冰冻灾害能使受灾公路丧失通行能力,首要的应急措施是通过道路疏通尽快使其恢复畅通。装备有特种机械的应急工程队是公路干线除雪融冰的主要力量,本文构建了受灾公路
会议
以网络方式获取信息并交流信息,已经成为现代信息社会的一个重要特征。传统网络设计和规划方法主要是靠经验,但随着无线局域网的不断发展,这样的方法已经不能适应网络的发展。该
会议
多重签名是一种由多个签名者同时协作完成对一个消息签名的群体签名形式。本文提出了一个基于双线性映射的结构化多重签名的电子现金交易方案。该方案具有预先设定签名者之间
质点-弹簧模型是柔性织物动态模拟中较常采用的模型。针对基于质点-弹簧模型的柔性织物动态模拟中存在的“超弹性”问题,提出了一种根据弹簧当前伸缩情况动态更新其弹性系数与
本文提出了一种基于RSA密码体制的群签名方案。该方案首先假定每个参与签名成员都具有一套只有自己掌握的RsA密码体制的对,然后根据签名先后次序依次构造基于RSA的哈稀函数,最
会议
考虑小车式起落架车架的俯仰运动和辅助缓冲器的作用,推导小车式起落架着陆阶段的动力学方程,利用MATLAB/simulink搭建仿真模型,并利用成熟商业软件ADAMS/aircraft计算小车式起
会议
针对电子战的作战环境和仿真需求,基于HLA仿真协议开发了一个由雷达、告警器、干扰、电子侦察、敌我识别、目标生成、仿真管理和态势显示等联邦成员组成的电子对抗仿真系统。
会议
纯方位目标跟踪问题已研究多年,近来基于Unscented变换的Unscented Kalman Filter(UKF)算法广泛应用于被动量测的非机动目标跟踪。当目标发生机动时,UKF的跟踪精度不高。而Stro
会议
GL Studio作为一个实时,交互的三维物体开发工具,对雷达显示器的仿真实现是非常有利的。首先介绍了基于GLstudio平台的仿真开发流程;在GL studio开发环境下实现了常规、偏心PPI
会议
本文设计了一个面向信息服务的网格资源管理器的模型,实现了各组成部分的功能。以传统、经典的Min-min调度算法为基础,提出了一种基于“分段”思想的改进策略,并且采用GridSim网
会议