大规模文本数据库中的短文分类方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:harryvincent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是由于短文中的关键词出现次数少,而且带标签的训练样本又通常数量很少,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。文本提出了一个新颖的短文分类算法。该算法基于文本语义特征图,并使用类似kNN的方法进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。
其他文献
因特网的迅速发展使网络拥塞问题日益得到人们的重视,近年来提出了许多基于路由器的拥塞控制机制.文章详细分析了基于路由器的弃尾(Droptail)和随机早期检测RED(Random Early De
卫星全球普查任务是指利用星载遥感设备,周期性地对全球表面进行覆盖监测和数据采集.论文针对卫星全球普查任务需求的特点和卫星资源能力,建立了卫星全球普查任务调度系统.卫
论文介绍了无线移动网络中的各种可能的入侵手段,分析了在无线移动环境下的入侵检测技术及实现思想.给出了一个无线移动网络入侵检测系统的基本概念框架,并对其中的各个模块进行
阐述了基于Matlab/Simulink的可编程接口芯片仿真系统的实现,包括总体的设计和建模,总体设计包括系统的结构框架和界面设计。结合Intel8251的“串行输出”实例介绍了仿真原理及
软件测试分为静态分析、路径选择、测试数据生成和动态分析四个阶段,而测试数据的自动生成是软件测试的关键技术之一。文章通过对被测试程序的分析,提出了生成测试数据的平衡力
目的 观察老年病人动脉粥样硬化所致的肾动脉狭窄经皮球囊内成形术及支架术的疗效。方法 24例老年病人肾动脉狭窄行球囊扩张,并植入支加休后情况以及临床和血管造影随访结果
乘加操作是许多科学与工程应用中的基本操作,特别是在图形加速器和DsP等应用领域,浮点乘加器有着广泛的应用。论文针对PowerPC603e微处理器系统,基于SMIC0.25μm1P5MCMOS工艺,采用