基于投影寻踪的中文网页分类算法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:l63cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息迅猛发展,网络用户对网页自动分类器的需求日益增长.为了提高分类精度,本文提出了一种新的基于投影寻踪(ProiectionPursuit,简称PP)的中文网页分类算法.我们首先利用遗传算法找到一个最好的投影方向,然后将已被表示成为n维向量的网页投影到一维空间.最后采用KNN分类算法对其进行分类.此方法能解决"维数灾难"问题.实验结果表明,我们提出的算法是可行而且是有效的.
其他文献
农村义务教育日益受到政府重视,陆续出台了免收学费、书本费,给予家庭贫困生部分生活补贴的优惠政策,免除了农民因子女教育可能背负的沉重负担。然而,农村教育又出现了另外的隐患
<正>~~
<正>~~
不借助任何按摩、超声波、微创等外力,TAT抗衰老产品的自然渗透率就可达到50%以上。如果借助于TAT专用仪器,能进一步提升渗透率达到70%以上。加之TAT项目容易操作、安全有效、顾
<正>~~
2006年,樱花公司根据中国市场特点以及市场需求,推出了THC甜蜜樱花专业眼护品牌。经过市场近一年的检阅,得到渠道和终端消费者的广泛认可。该品牌正是以其良好的市场口碑、明确
<正>~~
钻井工程作为项目工程,应实行项目化施工,即分项目招投标和监理制。钻井工程可分为准备工程、钻井作业工程、试油修井作_业工程三大类。准备工程包括钻井工程设计和预算、钻
蒙古文是一种复杂文字,目前操作系统和办公套件都还不支持蒙古文的显示。OpenOffice.org是可以运行在Linux和Windows上跨平台的办公套件,它分别使用ICULayoutEngine和Uniscribe
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率.本文首先分析了分词词典机制在中文分词中的重要性及已有