基于局部线性判别嵌入算法的中文文本分类研究

来源 :情报理论与实践 | 被引量 : 0次 | 上传用户:wozhixiangxiazai1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流形学习算法作为一种非线性降维方法,目标是发现嵌入在高维数据空间中的低维流形结构,并给出一个低维表示。文章尝试将流形学习算法应用于中文文本分类领域,利用局部线性判别嵌入方法对所选文本数据集进行特征降维。然后,分别利用K近邻分类器(KNN),支持向量机分类器(SVM)对文本进行分类实验。实验结果证明该方法是有效可行的,进一步验证了中文文本空间向量数据符合流形分布。
其他文献
解数学题,不但要善于进行逻辑推理,正确地思维、论证和计算,还要善于综合运用基础知识.怎样才能做到这一点呢?有人主张多做各种类型的习题,以至熟能生巧,这当然会有一定的效
)L童组 《中国古代寓言故事》 《成语故事》 《格林童话精选》 《小学生必背古诗70篇》少年组《西游记》/吴承恩《骆驼祥子》/老舍《鲁滨逊漂流记》/笛福《钢铁是怎样炼成的
用奥利亚罗非鱼和尼罗罗非鱼杂交经处理后获得的子一代全雄性罗非鱼,在廉江老鸭塘养殖场进行越冬和生长试验,取得较好的效果。1992年11月17日放苗入塘自然越冬,规格1.5—3cm,
作者10多年来先后采访了40余位作家、学者和老舍亲属,与他们就老舍之死这一话题做了比较深入、细致的调查、分析和评说,其中有些材料是首次披露。本刊选登的是该书附录中的一
读了本刊1983年第5期上发表的《三角微分法》一文,使我深受教益。但是,对于该文中的例1、例8及例4,我又感到都有不妥之处。现将我的两点异议提出以供参考商榷。一、关于例1
鳜鱼成鱼养殖方式有2种:单养和套养。 单养:选择适宜的池塘,单独或为主(只搭配放养少量大规格的其它鱼种)养殖鳜鱼,完全按照鳜鱼的生物特性和生长要求进行养殖管理,养成能够
我自豪我们是千年文化之海  我骄傲我们是百年艺术之淀  海淀是一颗璀璨的艺术明珠  为首都北京平添风情万千  闻名瑕迩的西山八大水院  曾让金章宗忘返流连  元世祖忽必烈夜宿海淀  瓮山湖水涤尽战袍的硝烟  清代皇帝经营200年的三山五园  为海淀移来一座锦绣江南  纳兰性德一生钟情海淀  《吟水词》就诞生在渌水亭畔  文学大家曹雪芹最爱西山  一部《石头记》唱尽人生苦辣酸甜  当世界迈进21世纪
我们很容易判别一元二次方程ax~2+bx+c=0是否有实根.当判别式⊿=b~2-4ac>0时,有两个不相等的实根,当⊿=0时,有两个相等的实根;当⊿ 0, there are two unequal real roots, w
针对传统KNN分类算法在样本数量大、维度高的情况下相似度计算量大的问题,提出了基于相似矩阵的改进KNN分类算法。该算法通过计算样本两两之间的相似度,建立相似矩阵加速KNN算
美国情报联盟(the United States Intelligence Community,IC)正在从911事件和伊拉克大规模杀伤性武器(WMD)的问题中走出来。情报界出现了很多观点和变革,但国家领导层仍存在机械化