基于类别特征改进的KNN短文本分类算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:blue1234sky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。
其他文献
针对多障碍物环境下,挖掘机在挖掘过程中,铲斗碰到障碍物无法进行适应性调整的问题,利用三次多项式和积分法规划挖掘轨迹,采用盲人摸路算法对挖掘过程中挖掘机与障碍物发生碰
为解决粒子群优化算法PSO存在的早熟收敛问题,提出了一种具有高斯扰动的局部引导粒子群优化算法(LGPSO)。该算法在粒子的速度更新公式上采取两种措施改进PSO:一是移除社会认
基础教育改革的一个重要方面是关注学生情感态度的发展,把学生情感态度的培养渗透到教学之中。本文着重从情感教育的必要性、注重语文教学中的情感培养、实施情感教育的方法和
体育课是强身健体的课程,身体乃人之基础,没有一个好身体就难以在人生长路上尽情的奔跑。然而小学生好动、爱新鲜,厌烦体育课上过多的重复练习,因此教学手段要多样化,这样才
高中物理教学要适应时代发展的需要,就要重视课堂教学。在课堂教学中,如何培养学生学习物理的兴趣,提高课堂教学效率,是实施新课程改革的关键。本文主要从两方面入手对高中物
对大学生进行职业生涯规划教育,目的是要提高大学生生涯规划的意识,培养和发展生涯规划技能,形成与职业相关的合理信念,从而提升就业竞争力。然而目前的大学生职业生涯规划教育存
为进一步提高视频水印算法的鲁棒性,提出了一种改进的伪三维离散余弦变换(3D-DCT)的视频零水印算法。该算法首先采用帧间欧氏距离法选取关键帧,然后,利用三帧差分法得到关键帧的
经过初步的野外系统调查研究,发现望谟苏铁自然保护区大型真菌种类共有176种和变种,隶属于子囊菌门Ascomycota、担子菌门Basidiomycota。子囊菌15种,担子菌161种。以下是望谟
简要介绍了北京城铁13号线车辆滤波电抗器国产化的研制背景、技术指标及其结构特点,通过型式试验和实际运行考核,验证了国产化滤波电抗器能满足设计要求,可替代进口产品。
针对防空作战中目标威胁评估问题,提出一种基于改进灰色关联算法(IGCA)的威胁评估方法。针对已往目标威胁评估中仅评估当前时刻的不足,采取对时间序列赋予权重的方法,构造多时