基于nLD-SVM-RF的短文本分类研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:lihongyuansky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】解决短文本内容简短而引起的数据稀疏问题,提高短文本分类效果。【方法】针对短文本数据稀疏的特点,采用多通道文本建模方式,形成融合短文本语义、语序特征和主题特征的文本向量表示作为分类器的输入,采用集成SVM与随机森林的nLD-SVM-RF方法实现短文本分类。【结果】使用投诉短文本进行验证,相较于仅使用Doc2Vec作为特征的SVM单分类器和RF单分类器,当n=5时,nLD-SVM-RF方法准确率分别提高9.70%、6.25%。【局限】本文数据为电信投诉文本,数据量较小,没有在大样本数据集上进行验证。【结论】nLD-SVM-RF算法有助于企业分析短文本信息,辅助决策。
其他文献
目的探讨OD450值与金黄色葡萄球菌活菌数目的相关性。方法金黄色葡萄球菌单菌落在LB培养基中培养18h,初步稀释后检测菌液的OD450值;取OD450值在0.9-1.0之间的菌液进一步稀释
房地产市场平稳健康发展是一项十分复杂的系统工程,迫切需要采用大数据的思维方式和技术手段,加快构建监测分析预警系统。本文系统阐述了当前房地产市场监测分析存在的问题和
<正> 1使用效果 FU200型链运机机长35m,输送量30t/h,动力5.5kW,可用于输送水泥生料粉。该机在杭州第二水泥厂于1990年7月18日正式投入运行,一年多的使用结果证明,与螺旋输送
产业结构调整对促进我国经济增长具有重要作用。利用1997—2002—2007年中国投入产出表数据,根据完全需要系数矩阵计算了最终需求各项生产诱发系数和生产诱发依存度;根据同比例
目的探索NF-κB炎症信号通路相关基因SNPs与胃癌预后的相关性,寻找影响胃癌预后的分子生物标志物。方法收集2013年4月至2014年3月在仙游县医院经病理确诊的167例胃癌患者血液